이 페이지는 자연어처럼 보이는 질의를 실제 자유 입력으로 받지 않고, preset이 고정한 widget 묶음을 이용해 대시보드 생성 로직을 검증한다. 즉, "질의 이해 → 집계 → 차트 렌더링" 흐름이 정해진 시나리오에서 정확히 동작하는지 보는 시험이다. 연구개발 목표치는 Dynamic Dashboard 응답 정확도 90% 이상이다.
semantic_view, preset_widgets, filter_default, seed 조건으로 위젯 묶음을 만들고, 각 위젯의 query accuracy, 렌더 성공률, 필터 정합성, p95 렌더 시간을 검증한다. Tableau나 외부 BI는 사용하지 않는다. 여기서 연구개발 목표치는 query_accuracy >= 0.90이다.
대표 기준은 query_accuracy >= 0.90와 filter_correctness = 1.0를 만족하고, widget_render_success_rate가 충분히 높으며, render_time_ms_p95가 허용 범위 안에 들어오는 것이다. 조건을 모두 만족해야 PASS다.
상단 결과 pane과 최근 runs 표에서 widgets / query_acc / render_ok / filter_ok / p95_ms를 확인할 수 있다. 추가로 /dashboard 링크를 열면 실제 정적 snapshot 화면을 직접 볼 수 있다.
| run_id | preset | status | pass | widgets | query_acc | render_ok | filter_ok | p95_ms | artifacts |
|---|