CREATE. VERIFY. OPERATE. · 제작. 검증. 운영.
풀림 · Pullim 2026.06.15 GA
KO·EN 준비 중
← All platform
06 · OBSERVABILITY

Evaluation Harness

평가 · 관측층

Every question replays. Every model call audits.

Curea 는 "왜 이 문제가 이렇게 만들어졌는지"를 나중에도 되짚을 수 있게 만들어 둡니다. 어느 모델이, 어떤 프롬프트로, 어떤 지연 시간 안에, 무엇을 만들었는지가 전부 기록에 남습니다.

Trace coverage
100%
every LLM call
Replay support
Yes
any step, any run
External proxies
0
data sovereignty
Per-call fields
7
prompt · cost · latency · …
CUREA · DIAGRAM§ MATRIX · COVERAGE = 100%
§ DIMENSION
INPUT프롬프트
OUTPUT응답
COST비용
LATENCY지연
STATUS상태
LAYER 1 · ORCHESTRATION파이프라인 동선
LAYER 2 · LLM CALL모델 호출 속살
§ JOINED ON SESSION_ID두 레이어가 동일 ID 로 조인되므로 단건 문제의 전체 생애를 SQL 한 번으로 재구성. 외부 SaaS 의존 0.
§ Plain · 쉬운 버전
For teachers, parents, students, journalists

실패가 재현 가능하면, 재현 가능한 것만 진짜로 고칠 수 있습니다. 관측은 두 층으로 나뉘며, 한 DB 안에서 서로 연결됩니다.

01
LAYER 1 · PIPELINE

파이프라인 동선

문제 하나가 방에서 방으로 어떻게 옮겨 다녔는지, 어느 방에서 막혔는지. 각 단계의 input · output · 상태 전이가 그대로 남습니다.

02
LAYER 2 · MODEL CALL

모델 호출의 속살

AI가 어떤 질문을 받았고 어떤 답을 돌려줬는지. 개별 LLM 호출의 프롬프트·응답·토큰·지연을 per-call로.

03
JOIN

두 층의 결합

동일한 session_id로 조인하면 “왜?”라는 질문 하나로 끝까지 따라갈 수 있습니다. 외부 SaaS 의존 없이 데이터 주권이 내재화됩니다.

§ Technical · 기술 버전
For engineers, investors, technical reviewers
TRACE COVERAGE
전수 추적
100%

Step Functions 실행 이력 = auditable event log. 각 Sub Session · Main Session 의 스텝별 input · output · duration · retry · 상태 전이가 보존.

STEP-LEVEL REPLAY
스텝 단위 재실행
Replay

실패한 실행을 특정 스텝부터 리플레이 · 재실행 가능합니다. 실패가 재현 가능해야 진짜 고칠 수 있습니다.

EXTERNAL PROXIES
외부 프록시 0개
0

자체 REST API 래퍼를 경유하는 이벤트 드리븐 아키텍처. Helicone · Langfuse 같은 외부 프록시를 두지 않습니다. 관측 데이터 자체가 학습 플라이휠의 입력.

PER-CALL FIELDS
호출 단위 7 필드
7

API 단위로 프롬프트 · 응답 · 토큰(input · output · cache hit) · 토큰 · latency · 호출자가 DB에 per-call 기록. P0 로드맵: 골든셋 기반 회귀 감지 확장.

§ Evaluation Harness

이 레이어를 당신의 플랫폼 위에서.

QGen API · Custom Build · Partner Program. KB 라스쿨 AI · 새빛인강이 이미 같은 구조 위에서 자체 브랜드로 운영 중입니다.