M6 — 분류/라우팅 정확도

controlled inputs only · Basic / Standard / Stress 3개 preset · 자유 텍스트 입력 금지

M6 — 분류/라우팅 정확도 시험 안내

이 페이지는 입력 문장을 자유롭게 넣어보는 데모가 아니라, 분류/라우팅 규칙이 시험용 입력 세트에서 얼마나 정확하게 맞는지 측정하는 화면이다. 분류 정확도뿐 아니라 최종 라우팅 정확도와 응답시간까지 함께 본다. 연구개발 목표치는 분류 정확도 90% 이상이다.

무엇을 테스트하나요?

input_set, classification_scope, taxonomy_level, confidence_profile, seed 조합으로 평가 세트를 돌려 routing_accuracy, L4 accuracy, macro F1, response_time을 검증한다. low confidence 케이스도 함께 집계한다. 여기서 연구개발 목표치는 l4_accuracy >= 0.90이다.

어떻게 진행되나요?

  1. Preset을 선택하고 Run을 누른다.
  2. preset이 지정한 입력 세트와 규칙 세트를 로드한다.
  3. 각 입력을 분류하고 라우팅 결과를 생성한 뒤 정답 라벨과 비교한다.
  4. routing_accuracy, l4_accuracy, macro_f1_l4, response_time_ms를 계산하고 기준과 비교한다.

어떤 결과가 나와야 하나요?

대표 기준은 routing_accuracy = 1.0, l4_accuracy >= 0.90, macro_f1_l4가 기대값 이상이고, response_time_ms가 허용 범위 안에 들어오는 것이다. 하나라도 미달하면 FAIL이다.

실행 후 어디를 보면 되나요?

실행 후 결과 pane에서 즉시 요약을 확인하고, 최근 runs 표에서 routing / L4 acc / macro F1 L4 / resp_ms를 비교하면 된다. report 링크를 열면 상세 분류 결과와 실패 사유를 더 볼 수 있다.

모든 시험은 자유 입력 대신 preset 기반의 controlled input으로만 실행된다. 따라서 같은 preset을 다시 실행하면 같은 조건에서 결과를 비교할 수 있다.

 

최근 runs

run_idpresetstatuspassrouting L4 accmacro F1 L4resp_msreport