SITE SEARCH

검색

사이트 전체 글을 빠르게 찾을 수 있습니다.

RSS FEED

RSS 구독

RSS 리더에서 Project Research의 새 글을 바로 받아볼 수 있습니다.

EMAIL SUBSCRIBE

이메일 구독

새 글을 이메일로 받아봅니다. RSS는 별도 RSS 아이콘을 눌러 동일한 크기의 패널에서 열 수 있습니다.

이메일로 블로그 구독하기

이 블로그를 구독하고 이메일로 새글의 알림을 받으려면 이메일 주소를 입력하세요







Fable 5와 보낸 첫 하루 — 모델 × 하네스 × RAG, PM 컨설턴트의 모델 교체 실측 회고

시리즈

새 모델 출시 당일, 같은 하네스·같은 지식 베이스 위에서 모델만 바꿔 하루를 보냈습니다. 커밋은 3.3배, 결과물당 토큰은 절반 — 결과물의 품질은 모델 단독이 아니라 모델 × 하네스 × RAG(지식)의 곱이었고, 곱셈이기 때문에 모델을 바꿔야 합니다. (AX 시리즈)

바쁜 분을 위한 3줄 요약

① 직전 12일(Opus 4.8)과 오늘 하루(Fable 5)를 같은 저장소·같은 하네스·같은 지식 베이스에서 실측 비교했습니다 — 커밋 13.8→45건/일, 종결 이슈 6.8→16건/일, 커밋당 출력 토큰 185k→86k.
② 결과물 품질은 모델 × 하네스(113팩·규칙 9·훅 11) × RAG(노트 1.5만)의 곱셈 구조입니다 — 어느 한 항이 0이면 결과도 0이고, 하네스·RAG 덕분에 모델 교체 비용은 0에 수렴했습니다.
③ 그럼에도 모델을 Fable 5로 바꿔야 하는 이유: 모델은 곱셈의 공통 인수라 업그레이드 효과가 전 업무에 즉시 곱해집니다(전환 비용 실측 0건 · 단위 토큰 −53%). 예외는 빠른 왕복 페어 작업(fast mode)·검증 민감 재현 작업 두 가지뿐입니다.

들어가며

인상 비평 대신, 세션 로그 557개를 셌습니다

2026년 6월 10일, Anthropic의 새 모델 Fable 5가 출시되었습니다. 저는 전날 저녁 첫 테스트(700개 응답)를 돌려본 뒤, 오늘 아침부터 모든 작업 세션을 Fable 5로 전환했습니다. 기업 PM 워크숍 제안서, WordPress 매거진 운영, 프롬프트 팩 레지스트리 관리까지 — 평소와 똑같은 하루를, 모델만 바꿔서 보냈습니다.

이 글은 그 하루의 실측 기록입니다. 새 모델 리뷰는 대개 인상 비평이 되기 쉽습니다. 저는 같은 저장소(git)·같은 하네스 위에서 직전 12일(Opus 4.8)과 오늘 하루(Fable 5)의 세션 로그 557개 파일을 직접 집계한 숫자로 비교했습니다.

표본 한계 고지 (먼저 읽어주세요) — 이 비교는 사용자 1인(n=1), Fable 5 측은 하루 표본입니다. 두 기간의 업무 믹스가 동일하지 않고, 12일 사이 하네스 자체도 성숙했습니다(교란변수). 따라서 아래 숫자는 “통제 실험 결과”가 아니라 “운영 환경 관찰 기록”입니다. 정성 평가는 별도 라벨로 구분했습니다.
PART 1 · ONTOLOGY

무엇을 시켰는지 정의해야 비교가 성립한다 — 컨설턴트 1인의 3레이어 업무 구조

모델 비교에 앞서, 비교 대상인 업무부터 정의하겠습니다. 저의 업무는 세 레이어로 구성됩니다.

표 1 · 업무 온톨로지 — Business × Technical × Agentic
레이어 정체성 대표 업무 산출물 유형
BusinessPM 코치·컨설턴트
(PMP·SAFe SPC, 10년)
대기업 AI·PM 워크숍 설계/진행, C-Level 제안, 커리큘럼 개발제안서 · 커리큘럼 · 교재 패키지 · 워크숍 운영 자산
Technical콘텐츠·배포 엔지니어WordPress 매거진(AX 시리즈 52편) 조판·발행, 정적 사이트 운영, 데이터 파이프라인HTML 매거진 글 · 디자인 시스템 · 분석 corpus
AgenticLLMOS 하네스 운영자프롬프트 팩 레지스트리·라우터·평가셋 운영, PM 라이프사이클 자동화registry · golden eval · 자동화 스크립트 · 거버넌스 문서
Source: 필자 운영 저장소(AIPM repo) 구조 · 2026-06 기준.

세 레이어는 분리된 것이 아니라 곱셈 구조입니다. Business 레이어의 워크숍 경험이 Agentic 레이어의 도메인 프롬프트 팩이 되고(예: 손해보험 그라운딩 체인이 구매 도메인 팩으로 복제), Agentic 레이어의 자동화가 Technical 레이어의 발행 속도를 만들고, Technical 레이어의 발행물이 다시 Business 레이어의 영업 자산이 됩니다.

이 곱셈 구조 전체가 하나의 저장소에서 GitHub 이슈 라이프사이클로 관리됩니다 — 모든 작업은 이슈로 시작해 계획(plan)→진행(progress)→결과(result)→종결(closeout)로 닫힙니다. 그래서 “모델이 일을 얼마나 했는가”를 커밋·결과 문서·종결 이슈라는 동일 단위로 셀 수 있습니다.

지식 구조는 3-플레인으로 운영합니다. Control plane(운영 저장소: 프롬프트 팩 113개 레지스트리·라우터·규칙과 훅 — “오늘 변경되는 모든 것”), Knowledge plane(Obsidian 지식 베이스 약 1.5만 노트 — 재사용 가능한 지식 원소만 선별 이관), Distribution plane(정적 사이트·WordPress — 배포 게이트 통과분만 외부 노출).

PART 2 · BENCHMARK

커밋 3.3배, 결과물당 토큰 절반 — 12일 vs 하루의 실측

표 2 · 두 기간 운영 지표 (동일 저장소 · 동일 하네스)
지표 Opus 4.8
(5/29~6/9 · 12일)
Fable 5
(6/10 · 1일)
일평균 배수
어시스턴트 응답 수16,1702,531×1.9
출력 토큰30.79M3.88M×1.5
캐시 읽기 토큰4.13B845M×2.5
git 커밋166 (13.8/일)45×3.3
결과 문서 (이슈 종결 보고서)81 (6.75/일)14×2.1
종결 이슈약 82개 (6.8/일)16×2.4
변경 규모 (당일)387파일 · +84,059 라인
Source: 세션 transcript 557개 JSONL 실측 + git log 집계 · 2026-06-10 18:43 KST 기준. Fable 5는 전일 저녁 첫 투입분(700응답) 제외, 6/10 단일일 기준.
도식 1 · 일평균 생산 지표 — Opus 4.8 대비 Fable 5
git 커밋 / 일
Opus 4.8 — 13.8
Fable 5 — 45
종결 이슈 / 일
Opus 4.8 — 6.8
Fable 5 — 16
커밋당 출력 토큰 (낮을수록 효율)
Opus 4.8 — 185k
Fable 5 — 86k (−53%)
Source: 표 2와 동일 실측. 막대 길이는 각 지표 내 상대 비율.
표 3 · 효율 지표 — 같은 일을 더 적은 토큰으로
효율 지표 Opus 4.8 Fable 5 변화
응답당 출력 토큰1,9041,533−19%
커밋당 출력 토큰185k86k−53%
결과 문서당 출력 토큰380k277k−27%
동시 세션 수 (당일)37
Source: 동일 실측. “커밋당 출력 토큰”은 기간 총량 나눗셈의 운영 지표로, 커밋 1건의 직접 비용이 아닙니다.

읽는 법: Fable 5는 응답 하나하나가 19% 더 간결한데, 같은 결과물(커밋)에 도달하는 데 드는 총 토큰은 절반입니다. 응답이 짧아져서가 아니라 재시도와 우회가 줄어서 나는 차이입니다. 지시를 한 번에 맞게 수행하면 교정 왕복이 사라지는데, 그 왕복이야말로 토큰의 최대 소비처였습니다.

두 기간의 업무 믹스도 적어둡니다. Opus 4.8 기간은 PM 체계·러닝 커뮤니티·하네스 정비의 다중 도메인 병렬이었고, 오늘은 발행·고객 제안·체계화에 집중했습니다. 믹스가 다르므로 배수를 그대로 모델 성능으로 읽어서는 안 됩니다.

숫자로 못 재는 부분 (운영자 관찰 라벨) — 가장 크게 체감한 차이는 지시 추종 정밀도였습니다. 컨설팅 조판 가이드처럼 “제목은 단정형, 강조색은 하나, 모든 도표에 출처 줄” 같은 다항목 규율을 첫 패스에 안정적으로 지킵니다. Opus 4.8에서 간헐적이던 “게이트 일부 누락 → 재지시” 왕복이 오늘 눈에 띄게 줄었습니다.

반대로 짧은 단발 질의, 단순 교정, 리뷰 코멘트에서는 두 모델의 체감 차이가 크지 않았습니다. 차이는 작업이 길고 규율이 많을수록 벌어졌습니다.

PART 3 · HARNESS

진짜 변수는 하네스였다 — 모델 교체 당일의 마이그레이션 작업은 0건

모델 교체 당일 가장 인상적이었던 것은 Fable 5의 성능이 아니라, 아무것도 다시 설정하지 않았다는 사실입니다. 저는 지난 1년간 ‘실록(Sillok)’이라는 이름의 운영 하네스를 쌓아왔습니다 — 요청을 적합한 프롬프트 팩으로 라우팅하고, 작업 경로에 따라 품질 규칙을 자동 적용하고, 위험한 변경을 훅으로 차단하는 구조입니다.

표 4 · 모델 위에 얹혀 있는 하네스 구성 (2026-06-10 기준)
구성 요소 규모 역할
프롬프트 팩 레지스트리113팩 (v1.46.0)요청→적합 팩 자동 선택 (workflow 67 · domain 23 · quality-guard 7 외)
자동 로드 규칙9개경로 기반 품질 규율 (조판·교수설계·외부배포 게이트 등)
라이프사이클 훅11개보호 파일 차단 · 세션 체크포인트 · 드리프트 검사
운영 도구 스크립트36개등록 · 평가 · 텔레메트리 · 릴리즈 자동화
골든 평가셋152/152 통과라우팅·팩 회귀 검증
라우팅 텔레메트리누적 2,071건최근 30일 700건 · 선택 실패율 33.2% (실질 갭 추정 7~10%)
Source: 레지스트리·텔레메트리 파일 + 2026-06-10 하네스 감사 보고서 실측.

이 전부가 모델 비종속(model-agnostic)으로 설계되어 있어서, 모델 교체일의 마이그레이션 작업은 0건이었습니다. 같은 작업 트리거, 같은 라우터, 같은 게이트가 새 모델 위에서 그대로 돌았습니다. 출시 당일 아침에 엔진을 갈아끼우고, 점심 전에 평소 속도로 복귀했습니다.

여기서 정직해져야 할 부분이 있습니다. Part 2의 배수에는 하네스 성숙 효과가 섞여 있습니다 — 12일 전의 Opus 4.8은 지금보다 덜 다듬어진 하네스 위에서 일했습니다. 그런데 바로 그것이 이 글의 핵심 주장입니다.

모델은 엔진이고, 하네스는 차체입니다. 엔진을 바꿔서 얻는 성능 향상은 출시일에 한 번 오지만, 차체를 다듬어서 얻는 향상은 매일 누적됩니다. 그리고 좋은 차체는 엔진 교체 비용을 0으로 만듭니다. 지난 한 달 사이에만 모델이 두 번 바뀌었습니다(Opus 4.7→4.8→Fable 5). 모델 종속적으로 짜인 프롬프트 자산은 교체 때마다 재작성 비용을 치르지만, 모델 무관 하네스는 교체일이 그냥 좋은 날입니다.
🔧 직접 구축해보기 — Sillok 하네스
설계 철학과 구성 원리는 실록(Sillok): 한국형 LLMOS 하네스에서, 직접 설치할 수 있는 공개 추출판(팩 레지스트리 + proposal-only 거버넌스)은 GitHub sillok-os/sillok에서 시작할 수 있습니다.
PART 4 · KNOWLEDGE / RAG

지식 레이어 실측 — vault는 양방향 루프, llm-wiki는 보존 전용, 그리고 검색엔진보다 정보 구조가 이겼다

하네스가 “어떻게 일할 것인가”를 담당한다면, 지식 레이어는 “무엇을 알고 일할 것인가”를 담당합니다. 저는 두 개의 지식 저장소를 운영합니다 — 지식 베이스(obsidian-vault): 큐레이션 노트 약 1.5만 건, 재사용 가능한 지식 원소(atom) 단위. 아카이브(llm-wiki): 문서 약 1.6만 건, 과거 자산 보존용 읽기 전용.

표 5 · 두 지식 저장소의 실측 활용 (세션 로그 도구 호출 집계)
지표 Opus 4.8 (12일) Fable 5 (1일) 비고
vault 직접 접근 (경로 기반 읽기/검색)138건 (11.5/일)34건작업량 비례 동반 상승
llm-wiki 접근18건 (1.5/일)2건이력 조회 시에만
시맨틱(임베딩) 검색 도구 호출0건0건양 기간 공통
캐시 읽기 토큰 / 커밋24.9M18.8M−25% — 결과물당 재읽기 감소
Source: 세션 transcript 도구 호출 실측 · 2026-06-10 18:43 KST 기준. 계획 문서의 Knowledge Consulted 명시 기록 9건 별도.

이 표에서 가장 정직한 발견은 세 번째 줄입니다. 임베딩 기반 시맨틱 검색 도구를 깔아두고도 두 기간 모두 0회 호출했습니다. 실제 retrieval(지식 인출)은 전부 경로·구조 기반 직접 접근이었습니다 — 모델이 디렉토리 분류 체계와 역참조 메타데이터(출처 저장소·이슈 번호)를 읽고 곧장 해당 노트로 갑니다.

RAG 활용성 평가 4가지 (라벨: n=1 운영 관찰)

1. 검색엔진보다 정보 구조가 이겼습니다. 지식 베이스가 온톨로지(분류 체계)·네이밍 규칙·역참조 메타데이터로 정돈되어 있으면, 모델은 벡터 검색 없이도 정확한 노트에 도달합니다. “RAG의 R(retrieval)”을 좌우하는 것은 검색 알고리즘이 아니라 지식의 구조화 품질이었습니다.

2. vault는 양방향 루프라서 가치가 누적됩니다. 작업 시작 시 계획 문서에 참고 지식으로 소비되고, 이슈 종결 시 재사용성 판정을 거쳐 새 지식 원소로 환류됩니다. 소비와 적립이 같은 라이프사이클에 묶여 있어, 일을 할수록 RAG가 좋아집니다.

3. llm-wiki의 ‘낮은 활용’은 실패가 아니라 설계입니다. 12일간 18건 — 올해 초 30시간 비교 실험 끝에 읽기 전용 아카이브로 전환했고, 이력·과거 사례 조회라는 본래 역할만 수행 중입니다. 모든 지식 저장소가 일상 RAG일 필요는 없습니다 — 보존과 활용은 다른 서비스 수준입니다.

4. 지식 레이어도 모델 무관이었습니다. 모델 교체 당일 vault 접근 패턴은 그대로 유지됐고, 오히려 결과물당 retrieval 재읽기는 25% 줄었습니다 — 같은 지식에서 더 적게 다시 읽고 같은 결과에 도달했다는 뜻입니다.

한계도 기록합니다. 지식 레이어의 사각지대는 구조 밖에 있는 자산입니다 — 클라우드 드라이브에만 존재하던 강의 산출물이 지식 베이스에 누락된 사례가 있었고, 이후 이슈 종결 시 외부 산출물 스캔을 절차화했습니다.

🔧 직접 구축해보기 — Obsidian 지식 베이스 RAG
도구는 Obsidian(로컬 마크다운 노트)과 Smart Connections 플러그인(로컬 임베딩 검색)이면 충분합니다. 구조화 방법론과 30시간 실측 비교는 30시간 RAG 실측 회고 — llm-wiki vs obsidian-vault에, 조직 자산화 관점은 RAG 지식관리와 PM에 정리해 두었습니다.
PART 5 · OPERATING LEVERS

/goal은 상수, ultrathink는 변수였다

제 운영에서 자주 쓰는 두 레버의 사용 빈도를 같은 세션 로그에서 집계했습니다. /goal은 세션에 목표 조건을 걸고 그 조건이 충족될 때까지 세션이 멈추지 않게 하는 명령이고, ultrathink는 확장 추론(깊은 사고 예산)을 명시적으로 트리거하는 키워드입니다.

표 6 · 두 레버의 사용 빈도 추이 (세션 로그 실측)
날짜 (모델) /goal 호출 ultrathink 호출
5/13~5/24 (Opus 4.7)일 8~63회0회
5/25 (Opus 4.7)345 — 첫 도입
6/4 (Opus 4.8)3753
6/8 (Opus 4.8)5164 — 피크
6/10 (Fable 5)3711 (피크 대비 1/6)
Source: 세션 transcript 사용자 메시지 내 트리거 문자열 집계 · 2026-06-10 18:43 KST 기준.

/goal — 모델 무관의 거버넌스 레이어. 저는 /goal에 역할 부여 프롬프트(예: “당신은 PMP·SAFe SPC 자격의 Enterprise ALM 수석 컨설턴트입니다”)를 결합해 씁니다. 효과는 두 모델에서 동일하게 유효했습니다 — 적용 세션은 중간 산출물에서 멈추지 않고 완결 조건까지 자율 주행하고, 미적용 세션은 “다음에 할 일 목록”을 남기고 끝나는 경향이 있습니다(운영자 관찰 라벨). 모델이 바뀌어도 사용 강도가 유지된 것(37회)은, 목표 관리가 모델이 아니라 하네스의 일이라는 방증입니다.

ultrathink — 모델이 바뀌자 필요가 줄었다. Opus 4.8 기간에는 복잡한 감사·설계 작업마다 붙여 일 50~64회까지 썼지만, 오늘은 11회입니다. 해석(가설 라벨): Fable 5는 기본 추론 품질이 높아 명시 트리거 없이도 첫 패스 정답률이 충분한 경우가 많았고, 자연스럽게 “어려운 작업에만 선별 투입” 패턴으로 이행했습니다. 적용 효과 자체는 여전히 유효합니다 — 오늘의 11회도 무결성 감사·아키텍처 결정 같은 고부하 지점에 썼고, 그 지점에서는 분명히 값을 했습니다.

요약 — /goal은 상수, ultrathink는 변수. 목표 고정은 어느 모델에서나 필요합니다. 추론 증폭은 모델의 기본기가 좋아질수록 선별 투입으로 충분해집니다.
PART 6 · VERDICT

품질은 모델 × 하네스 × RAG의 곱이다 — 그래서 모델을 바꾼다

곱셈 모델 — 어느 한 항이 0이면 결과도 0

결과물 품질 = 모델(엔진) × 하네스(차체·규율) × RAG(지식·연료)

덧셈이 아니라 곱셈입니다. 최고 모델도 게이트 없는 하네스 위에서는 조판 표준을 빠뜨리고(하네스 항 ↓), 정돈 안 된 지식 위에서는 일반론을 생성합니다(RAG 항 ↓). 반대로 하네스와 RAG가 아무리 좋아도 모델의 첫 패스 정답률이 낮으면 교정 왕복으로 토큰이 새어 나갑니다(모델 항 ↓). 오늘의 배수(커밋 ×3.3)는 세 항이 동시에 곱해진 결과이며, 그래서 어느 하나의 공으로 돌릴 수 없습니다 — 그것이 정확한 결론입니다.

그럼에도 ‘모델’을 바꿔야 하는 이유 — evidence 5건

곱셈 구조라면 “하네스·RAG나 다듬지, 모델은 아무거나 쓰면 되는 것 아닌가”라는 반론이 가능합니다. 오늘의 실측은 반대를 가리킵니다.

표 7 · 모델 전환 근거 5건 (실측 evidence)
# 근거 실측 evidence
1모델은 곱셈의 공통 인수다 — 하네스 규칙(경로별)·RAG(도메인별) 개선은 특정 작업에만 곱해지지만, 모델 항은 모든 작업에 곱해진다오늘 상승이 특정 도메인이 아니라 PM 체계·발행·제안·코퍼스 전 영역에서 동시 관측 (커밋 scope 분포)
2전환 비용이 실측 0이다 — 하네스·RAG가 모델 무관으로 설계된 덕에, 교체는 공짜 옵션이다마이그레이션 작업 0건 · 골든 평가 152/152 그대로 통과 · vault 접근 패턴 무변화
3단위 경제가 즉시 개선된다커밋당 출력 토큰 −53% · 결과물당 retrieval 재읽기 −25% — 같은 플랜 한도로 약 2배의 작업량
4자율 완주율이 높아 운영자 시간을 돌려준다16이슈/일 전 구간(계획→결과→종결) 완결 · 교정 왕복 감소 (관찰)
5운영 레버가 단순해진다 — 명시적 추론 증폭의 유지 비용 감소ultrathink 64회/일 → 11회/일 (−83%), 효과 동등 이상
Source: Part 2~5 실측·관찰 종합.
요컨대 — 하네스와 RAG는 모델 교체를 “해도 되는 일”로 만들고, 곱셈 구조는 모델 교체를 “해야 하는 일”로 만듭니다. 누적 자산이 잘 쌓여 있을수록 모델 업그레이드의 한계 효용이 커집니다 — 새 엔진의 출력이 좋은 차체와 좋은 연료 위에서 온전히 곱해지기 때문입니다.

작업 상황별 권장 — 기본값은 Fable 5, 예외 두 줄만 Opus

표 8 · 모델 선택 가이드 (2026-06-10 기준 · n=1 운영 관찰)
작업 상황 권장 근거
장시간 자율 멀티스텝 실행 (이슈 라이프사이클 완주 · /goal 자율 주행)Fable 516이슈/일 완결, 끊김 없는 완주 (실측+관찰)
대량 코퍼스·배치 작업 (수백 파일 조판 · 전수 감사)Fable 5+84k 라인/일 · 387파일 (실측)
토큰 효율이 중요한 반복 운영 작업Fable 5커밋당 출력 토큰 −53% (실측)
다항목 규율 준수가 중요한 게이트 작업 (조판 표준 · 배포 게이트)Fable 5첫 패스 준수율 향상 · 교정 왕복 감소 (관찰)
멀티세션 병렬 오케스트레이션Fable 5당일 37세션 병행 (실측)
빠른 왕복의 인터랙티브 페어 작업Opus 4.8고속 출력 모드(fast mode)가 Opus 계열 전용
Opus 기준으로 검증·튜닝된 회귀 민감 워크플로의 과도기Opus 4.8평가 기준 재검증 전까지 재현성 우선
짧은 단발 질의 · 단순 교정 · 리뷰 코멘트무엇이든체감 차이 미미 — 전환 비용을 들일 이유 없음 (관찰)
클라이언트 납품 재현성 요건 (모델 버전 고정 계약)계약 명시 버전모델 선택은 성능이 아니라 거버넌스 문제
Source: Part 2~5 실측·관찰 종합. 비용 단가는 계약·플랜별로 달라 토큰 수만 비교했습니다.

마지막으로, 이 하루가 남긴 가장 큰 교훈을 다시 곱셈으로 적습니다. 출시 당일 아침에 모델을 갈아끼우고 점심 전에 평소 속도로 복귀할 수 있었던 것 — 그것은 새 모델이 잘나서만이 아니라, 113개 팩·152개 평가 케이스·9개 규칙(하네스)과 1.5만 노트의 구조화된 지식(RAG)이 모델 무관하게 쌓여 있었기 때문입니다.

다음 모델이 나와도 이 글의 모델 항 결론은 바뀔 것입니다. 하지만 곱셈 구조 자체는 바뀌지 않습니다. 여러분의 조직이 오늘 투자해야 할 것은 모델 구독 하나가 아니라 세 항 전부입니다 — 그리고 하네스와 지식이 쌓여 있다면, 새 모델이 나온 날은 두려운 날이 아니라 곱셈이 커지는 날입니다.

본 글의 모든 수치는 2026-06-10 18:43 KST 기준 필자 단일 운영 환경의 실측값이며, 일반화에는 표본 한계(n=1 · 하루 표본 · 업무 믹스 차이)가 있습니다.

Project Research에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기