M2 — 상품 기반 Amazon 검색 키워드 생성 성능

M2 — 키워드 추천/생성 성능 시험 안내

이 페이지는 사전 수집한 상품 context catalog를 기준으로, 특정 상품을 Amazon 검색 결과에 노출시키기 위한 buyer query를 얼마나 정확하고 일관되게 생성하는지 보여준다. 추천 결과를 사람이 직접 입력하지 않고, preset이 고정한 조건으로만 실행한다. 단일 Run preset은 외부 LLM live generation으로 실제 키워드를 생성하며, 상품명·브랜드·속성·용도·호환성·규격·pain point 같은 상품 context를 함께 사용한다. 연구개발 목표치는 상품 100개 동시 처리 기준 상품별 50개 키워드/분이며, Run preset이 이 목표 검증 시나리오다.

무엇을 테스트하나요?

사전 수집한 상품 context 목록을 기준으로 키워드 생성 품질을 측정한다. 모든 preset은 외부 LLM으로 신규 키워드를 생성하고, hit_rate, 상품 적합성, intent axis coverage, 중복 비율, 응답시간을 함께 보고 검색 품질과 안정성을 동시에 검증한다. 또한 Run preset에서는 상품 100개를 동시에 처리했을 때 상품별 50개 키워드/분 목표를 충족하는지 본다.

어떻게 진행되나요?

Run을 누른다.
Run이 지정한 locale, top_k, dedup_policy, reason_display 조건으로 상품 context fixture를 로드한다.
외부 LLM이 상품명·브랜드·속성·용도·호환성·규격·pain point를 읽고 buyer query를 생성한다. 상품 수가 많을 때는 병렬로 fan-out 처리한다.
중복 제거 후 Top-K를 만들고 gold 기준 hit_rate, product_relevance_rate, intent_axis_coverage, duplicate_ratio, response_time_ms를 계산한다.
동시에 keywords_per_product, keywords_per_product_per_minute를 계산해 연구개발 목표(Run: 100개 상품, 상품별 50개/분)를 검증한다.

어떤 결과가 나와야 하나요?

대표 기준은 top_k_hit_rate, product_relevance_rate, intent_axis_coverage가 기대값 이상이고, duplicate_ratio와 response_time_ms가 허용 범위 안에 들어오는 것이다. 여기에 Run preset에서는 product_count >= 100, keywords_per_product >= 50, keywords_per_product_per_minute >= 50도 동시에 만족해야 PASS다.

실행 후 어디를 보면 되나요?

결과 pane에서는 방금 실행한 추천 시험의 상세 JSON을 볼 수 있다. 최근 runs 표에서는 product 수, 상품별 키워드 수, 상품별 분당 키워드 수, hit_rate를 비교할 수 있고, 생성된 키워드 CSV는 새 탭에서 바로 열어 보거나 별도 다운로드 링크로 받을 수 있으며 report 링크로 상세 산출물을 확인할 수 있다.

모든 시험은 자유 입력 대신 preset 기반의 controlled input으로만 실행된다. canonical input 은 사전 수집한 상품 context catalog 이며, 연구개발 목표치 검증은 Run preset 기준으로 본다.