M1 — 데이터 수집/정제 파이프라인

fixture 실행 + 업로드 실행 지원 · Basic / Standard / Stress 3개 preset · CSV 스키마 검증 포함 · 연구개발 목표치: 처리 속도 1,000 TPS 이상

M1 — 데이터 수집/정제 파이프라인 시험 안내

이 페이지는 광고 이벤트 로그 CSV를 정해진 preset으로 처리했을 때, 정제 파이프라인이 기대한 결과를 안정적으로 만드는지 확인하는 시험 화면이다. preset fixture를 그대로 실행할 수도 있고, 같은 컬럼 스키마를 가진 CSV를 업로드해 사용자 데이터로도 결과를 검증할 수 있다. 연구개발 목표치는 정제 처리 속도 1,000 TPS 이상이며, 화면과 리포트에 실제 처리량이 같이 기록된다.

무엇을 테스트하나요?

광고 이벤트 로그 CSV의 정제 과정(중복 제거, 결측/오류 행 제거, 스키마 정합성 보정)이 기대한 결과를 만드는지 확인한다. preset fixture로 기준 시험을 할 수 있고, 동일 스키마의 사용자 CSV로도 같은 파이프라인을 실행할 수 있다. 특히 연구개발 목표인 1,000 TPS 이상 처리 여부를 함께 본다.

어떻게 진행되나요?

  1. Preset을 선택하고 fixture를 다운로드하거나 업로드 CSV를 준비한다.
  2. Run 또는 업로드 파일로 Run을 누른다.
  3. CSV 헤더가 fixture와 같은 스키마인지 먼저 검증한다.
  4. 검증이 통과하면 정제 파이프라인을 실행하고 cleaned 결과와 report를 만든다.
  5. 실행 시간으로부터 실제 처리량 throughput_tps를 계산해 1,000 TPS 목표 충족 여부를 판정한다.

어떤 결과가 나와야 하나요?

fixture 모드에서는 schema_completeness_rate = 1.0, 허용치 이내의 duplicate_removal_rate, preset 기대 범위의 cleaned_row_count, 그리고 throughput_tps >= 1000을 동시에 만족해야 PASS다. 업로드 모드에서도 스키마 검증 통과 후 cleaned_row_count > 0, schema_completeness_rate = 1.0, throughput_tps >= 1000 이면 PASS다.

실행 후 어디를 보면 되나요?

결과 pane에서는 run_id와 주요 metrics를 바로 볼 수 있다. 아래 최근 runs 표에서는 source, cleaned, schema, 실제 TPS 값을 비교할 수 있고, 각 행에서 input / cleaned / report 파일을 직접 다운로드할 수 있다.

업로드 CSV는 event_id, timestamp, user_id, campaign_id, impressions, clicks 컬럼을 모두 가져야 한다. 컬럼 이름이 하나라도 다르면 실행 전에 스키마 오류가 표시된다.
Fixture CSV 다운로드
업로드 파일은 fixture와 같은 CSV 스키마를 가져야 한다. 헤더 스키마가 다르면 실행하지 않고 즉시 오류를 보여준다.

 

최근 runs

run_idpresetsourcestatuspasscleaned TPSdup_rateschemafiles