이 페이지는 입력 문장을 자유롭게 넣어보는 데모가 아니라, 분류/라우팅 규칙이 시험용 입력 세트에서 얼마나 정확하게 맞는지 측정하는 화면이다. 분류 정확도뿐 아니라 최종 라우팅 정확도와 응답시간까지 함께 본다. 연구개발 목표치는 분류 정확도 90% 이상이다.
input_set, classification_scope, taxonomy_level, confidence_profile, seed 조합으로 평가 세트를 돌려 routing_accuracy, L4 accuracy, macro F1, response_time을 검증한다. low confidence 케이스도 함께 집계한다. 여기서 연구개발 목표치는 l4_accuracy >= 0.90이다.
대표 기준은 routing_accuracy = 1.0, l4_accuracy >= 0.90, macro_f1_l4가 기대값 이상이고, response_time_ms가 허용 범위 안에 들어오는 것이다. 하나라도 미달하면 FAIL이다.
실행 후 결과 pane에서 즉시 요약을 확인하고, 최근 runs 표에서 routing / L4 acc / macro F1 L4 / resp_ms를 비교하면 된다. report 링크를 열면 상세 분류 결과와 실패 사유를 더 볼 수 있다.
| run_id | preset | status | pass | routing | L4 acc | macro F1 L4 | resp_ms | report |
|---|