AI 서비스 운영 전 사전 대응 프레임워크

AITEM 프로젝트의 Tier 2 (머신 판정 시스템) 진입에는 Golden Set 50개+ 수집이 필수 조건이다. Golden Set은 **실제 운영 데이터에서만 나올 수 있는** 자원이므로, 운영 없이는 Tier 2에 진입 불가능한 구조다.

research 2026-04-15 docs/research/ai-service-readiness-framework.md

상태: 📋 Draft (구현 보류 — 차후 extension으로 승격 검토) 작성일: 2026-04-15 관련 프로젝트: AITEM (primary), 기타 AI 서비스 프로젝트

배경

AITEM 프로젝트의 Tier 2 (머신 판정 시스템) 진입에는 Golden Set 50개+ 수집이 필수 조건이다. Golden Set은 실제 운영 데이터에서만 나올 수 있는 자원이므로, 운영 없이는 Tier 2에 진입 불가능한 구조다.

그러나 운영 시작 전에도 예측 가능한 실패 패턴에 대한 사전 대응은 가능하다. 이 문서는 AI 서비스가 운영 시작 전에 해야 할 준비 작업과 운영 후에야 가능한 작업을 분리하고, 사전 대응 영역을 재사용 가능한 프레임워크로 설계하는 초안이다.

핵심 통찰

CS 이슈 대응 = 살아있는 학습 데이터

운영 중 CS에서 들어오는 "이 PDF가 추출이 안 돼요" 같은 리포트가 곧 Golden Set 후보다. 실패 사례 하나하나가 Failure Ontology에 직접 쌓인다.

그러나 사전 대응으로 CS 부담을 줄일 수 있다

"예상 못 한 실패"와 "예상했지만 빈도를 몰랐던 실패"는 대응 비용이 완전히 다르다. 사전 조사로 대부분의 실패 유형을 카탈로그화해두면, 운영 시작 후 CS 대응 속도와 품질이 크게 개선된다.

운영 전 vs 운영 후 구분

미리 할 수 있는 것                 운영해야 알 수 있는 것
─────────────────                  ─────────────────
입력 유형 카탈로그 작성              실제 사용자 업로드 패턴 분포
알려진 LLM 약점 방어                "이건 왜 안 되죠?" CS 실패 유형
Bronze Set 구축 (10~20개)           Gold Set 성장 (50 → 200개)
Eval 파이프라인 골격                임계값 튜닝 (F1 0.92가 맞는지)
에러 핸들링 시나리오                실제 에러 빈도와 우선순위

사전 대응 가능 영역 (4가지)

1. 입력 다양성 사전 조사

실제 사용 환경에서 들어올 입력의 카탈로그를 만든다. AITEM 기준 예시:

카테고리	사전 수집 가능 여부	예시
콘텐츠 유형별 샘플	✅	수능, 모의고사, 학원 자체 시험, 대학 기출
스캔/입력 품질 변형	✅	흐림, 기울어짐, 저해상도, 복사본
레이아웃 패턴	✅	2단 편집, 표 안의 문항, 그림+텍스트 혼합
도메인 특수 표기	✅	수학 수식, 화학식, 영어 지문+보기

교육 현장에서 실제 사용되는 시험지 10~20종만 수집해도 주요 패턴 대부분을 커버할 수 있다.

2. 경쟁/유사 서비스 실패 사례 조사

다른 OCR/문항 추출 서비스들이 어디서 실패하는지 조사하면, 자사 서비스가 마주칠 문제를 선제적으로 파악할 수 있다. 리뷰, 커뮤니티, 블로그 등에서 "이게 안 된다"는 피드백을 수집.

3. LLM 알려진 약점 대응

LLM의 일반적 한계는 이미 공개된 지식이다. 서비스 시작 전에 방어 코드를 심어둘 수 있다.

약점	사전 대응
표 구조 인식 실패	region_split 전략 미리 구현
수식/특수 기호 환각	`temperature=0` + strict schema 기본 적용
긴 문서 컨텍스트 유실	페이지 단위 분할 처리
JSON 스키마 위반	강제 스키마 + retry on parse fail
멀티모달 입력 품질 저하	해상도 임계값 사전 필터

4. Eval 파이프라인 골격 선구축

운영 전에도 아래는 미리 만들 수 있다:

Eval 스크립트 골격 (F1, Hallucination 측정 로직)
release-gate.json 스키마 (임계값은 느슨하게 시작)
Bronze Set (10~20개, 실험용 — 정답은 개발자가 수동 검증)
Shadow 로그 수집 인프라 (운영 시작 즉시 작동)

임계값은 나중에 실운영 데이터로 튜닝하되, 파이프라인 구조 자체는 운영 시작일에 이미 작동 중이어야 한다.

데이터셋 성장 경로

운영 전 (10~20개)    →   운영 3개월 (50~100개)   →   운영 6개월+ (200개+)
─────────────             ─────────────            ─────────────
Bronze Set                Silver Set               Gold Set
(실험/탐색, 주별 갱신)     (회귀 테스트, 월별 갱신)   (릴리즈 게이트, 분기별)

Shadow Set ─────── 운영 시작과 동시에 실시간 수집 (무제한, 자동)

ai-rules extension으로 승격 판단

공통(ai-rules)에 넣을 것

"Bronze Set을 먼저 만들어라" 같은 원칙
"Eval 파이프라인 골격을 운영 전에 구축하라" 같은 프로세스
"알려진 LLM 약점 방어 목록" 같은 체크리스트
"운영 전/후 분리 프레임" 같은 사고 구조

프로젝트별로 남길 것

"PDF 유형 카탈로그" 같은 구체적 도메인 데이터
"F1 0.92, Hallucination ≤0.5%" 같은 임계값
"수학 수식 환각 방어" 같은 도메인 특화 전략
Golden Set 자체 (도메인 데이터)

제안 extension 구조 (차후 작업)

이름 후보: extensions/ai-service-readiness.md

포함 섹션:

운영 전 입력 다양성 조사 체크리스트
Bronze Set 구축 가이드 (10~20개, 최소 요건)
Eval 파이프라인 골격 요건 (스크립트/스키마/인프라)
알려진 LLM 약점 방어 목록 (범용)
CS 대응 시나리오 사전 설계 프레임
데이터셋 성장 경로 (Bronze → Silver → Gold → Shadow)

적용 대상 프로파일: AI 서비스를 운영하는 모든 프로젝트 (AITEM, 향후 유사 서비스)

AITEM 프로젝트 연결

이 프레임워크가 완성되면 AITEM의 Tier 2 진입 로드맵과 직접 연결된다:

ai-rules 프레임워크	AITEM Tier 매칭
Bronze Set 구축	Tier 1 후반 — Tier 2 진입 준비
Eval 파이프라인 골격	Tier 2 Phase 2-A (Eval 기반 구축)
알려진 LLM 약점 방어	Tier 2 Phase 2-D (자동화 안전장치)
Shadow 로그 수집	Tier 2 Phase 2-C (모니터링)

다음 단계 (보류 중)

이 draft 검토 후 extension으로 승격 여부 판단
extensions/ai-service-readiness.md 초안 작성
AITEM 프로파일의 extensions: 배열에 추가
다른 AI 서비스 프로젝트에서도 검증 (validated 단계로 승격)
STANDARD_PROMOTION.md 규약에 따라 mandatory 승격 검토

참고

docs/research/IMPROVEMENT-ROADMAP.md — Tier 2 게이트 구현 현황
docs/guide/AI_RISK_TIERS.md — ai-rules Tier 체계 (위험도 기반)
docs/guide/STANDARD_PROMOTION.md — 규칙 승격 절차
AITEM docs/architecture/AI_DRIVEN_TIER_ROADMAP.md — AITEM Tier 5단계 체계