
새 모델 출시 당일, 같은 하네스·같은 지식 베이스 위에서 모델만 바꿔 하루를 보냈습니다. 커밋은 3.3배, 결과물당 토큰은 절반 — 결과물의 품질은 모델 단독이 아니라 모델 × 하네스 × RAG(지식)의 곱이었고, 곱셈이기 때문에 모델을 바꿔야 합니다. (AX 시리즈)
① 직전 12일(Opus 4.8)과 오늘 하루(Fable 5)를 같은 저장소·같은 하네스·같은 지식 베이스에서 실측 비교했습니다 — 커밋 13.8→45건/일, 종결 이슈 6.8→16건/일, 커밋당 출력 토큰 185k→86k.
② 결과물 품질은 모델 × 하네스(113팩·규칙 9·훅 11) × RAG(노트 1.5만)의 곱셈 구조입니다 — 어느 한 항이 0이면 결과도 0이고, 하네스·RAG 덕분에 모델 교체 비용은 0에 수렴했습니다.
③ 그럼에도 모델을 Fable 5로 바꿔야 하는 이유: 모델은 곱셈의 공통 인수라 업그레이드 효과가 전 업무에 즉시 곱해집니다(전환 비용 실측 0건 · 단위 토큰 −53%). 예외는 빠른 왕복 페어 작업(fast mode)·검증 민감 재현 작업 두 가지뿐입니다.
인상 비평 대신, 세션 로그 557개를 셌습니다
2026년 6월 10일, Anthropic의 새 모델 Fable 5가 출시되었습니다. 저는 전날 저녁 첫 테스트(700개 응답)를 돌려본 뒤, 오늘 아침부터 모든 작업 세션을 Fable 5로 전환했습니다. 기업 PM 워크숍 제안서, WordPress 매거진 운영, 프롬프트 팩 레지스트리 관리까지 — 평소와 똑같은 하루를, 모델만 바꿔서 보냈습니다.
이 글은 그 하루의 실측 기록입니다. 새 모델 리뷰는 대개 인상 비평이 되기 쉽습니다. 저는 같은 저장소(git)·같은 하네스 위에서 직전 12일(Opus 4.8)과 오늘 하루(Fable 5)의 세션 로그 557개 파일을 직접 집계한 숫자로 비교했습니다.
무엇을 시켰는지 정의해야 비교가 성립한다 — 컨설턴트 1인의 3레이어 업무 구조
모델 비교에 앞서, 비교 대상인 업무부터 정의하겠습니다. 저의 업무는 세 레이어로 구성됩니다.
세 레이어는 분리된 것이 아니라 곱셈 구조입니다. Business 레이어의 워크숍 경험이 Agentic 레이어의 도메인 프롬프트 팩이 되고(예: 손해보험 그라운딩 체인이 구매 도메인 팩으로 복제), Agentic 레이어의 자동화가 Technical 레이어의 발행 속도를 만들고, Technical 레이어의 발행물이 다시 Business 레이어의 영업 자산이 됩니다.
이 곱셈 구조 전체가 하나의 저장소에서 GitHub 이슈 라이프사이클로 관리됩니다 — 모든 작업은 이슈로 시작해 계획(plan)→진행(progress)→결과(result)→종결(closeout)로 닫힙니다. 그래서 “모델이 일을 얼마나 했는가”를 커밋·결과 문서·종결 이슈라는 동일 단위로 셀 수 있습니다.
지식 구조는 3-플레인으로 운영합니다. Control plane(운영 저장소: 프롬프트 팩 113개 레지스트리·라우터·규칙과 훅 — “오늘 변경되는 모든 것”), Knowledge plane(Obsidian 지식 베이스 약 1.5만 노트 — 재사용 가능한 지식 원소만 선별 이관), Distribution plane(정적 사이트·WordPress — 배포 게이트 통과분만 외부 노출).
커밋 3.3배, 결과물당 토큰 절반 — 12일 vs 하루의 실측
읽는 법: Fable 5는 응답 하나하나가 19% 더 간결한데, 같은 결과물(커밋)에 도달하는 데 드는 총 토큰은 절반입니다. 응답이 짧아져서가 아니라 재시도와 우회가 줄어서 나는 차이입니다. 지시를 한 번에 맞게 수행하면 교정 왕복이 사라지는데, 그 왕복이야말로 토큰의 최대 소비처였습니다.
두 기간의 업무 믹스도 적어둡니다. Opus 4.8 기간은 PM 체계·러닝 커뮤니티·하네스 정비의 다중 도메인 병렬이었고, 오늘은 발행·고객 제안·체계화에 집중했습니다. 믹스가 다르므로 배수를 그대로 모델 성능으로 읽어서는 안 됩니다.
숫자로 못 재는 부분 (운영자 관찰 라벨) — 가장 크게 체감한 차이는 지시 추종 정밀도였습니다. 컨설팅 조판 가이드처럼 “제목은 단정형, 강조색은 하나, 모든 도표에 출처 줄” 같은 다항목 규율을 첫 패스에 안정적으로 지킵니다. Opus 4.8에서 간헐적이던 “게이트 일부 누락 → 재지시” 왕복이 오늘 눈에 띄게 줄었습니다.
반대로 짧은 단발 질의, 단순 교정, 리뷰 코멘트에서는 두 모델의 체감 차이가 크지 않았습니다. 차이는 작업이 길고 규율이 많을수록 벌어졌습니다.
진짜 변수는 하네스였다 — 모델 교체 당일의 마이그레이션 작업은 0건
모델 교체 당일 가장 인상적이었던 것은 Fable 5의 성능이 아니라, 아무것도 다시 설정하지 않았다는 사실입니다. 저는 지난 1년간 ‘실록(Sillok)’이라는 이름의 운영 하네스를 쌓아왔습니다 — 요청을 적합한 프롬프트 팩으로 라우팅하고, 작업 경로에 따라 품질 규칙을 자동 적용하고, 위험한 변경을 훅으로 차단하는 구조입니다.
이 전부가 모델 비종속(model-agnostic)으로 설계되어 있어서, 모델 교체일의 마이그레이션 작업은 0건이었습니다. 같은 작업 트리거, 같은 라우터, 같은 게이트가 새 모델 위에서 그대로 돌았습니다. 출시 당일 아침에 엔진을 갈아끼우고, 점심 전에 평소 속도로 복귀했습니다.
여기서 정직해져야 할 부분이 있습니다. Part 2의 배수에는 하네스 성숙 효과가 섞여 있습니다 — 12일 전의 Opus 4.8은 지금보다 덜 다듬어진 하네스 위에서 일했습니다. 그런데 바로 그것이 이 글의 핵심 주장입니다.
설계 철학과 구성 원리는 실록(Sillok): 한국형 LLMOS 하네스에서, 직접 설치할 수 있는 공개 추출판(팩 레지스트리 + proposal-only 거버넌스)은 GitHub sillok-os/sillok에서 시작할 수 있습니다.
지식 레이어 실측 — vault는 양방향 루프, llm-wiki는 보존 전용, 그리고 검색엔진보다 정보 구조가 이겼다
하네스가 “어떻게 일할 것인가”를 담당한다면, 지식 레이어는 “무엇을 알고 일할 것인가”를 담당합니다. 저는 두 개의 지식 저장소를 운영합니다 — 지식 베이스(obsidian-vault): 큐레이션 노트 약 1.5만 건, 재사용 가능한 지식 원소(atom) 단위. 아카이브(llm-wiki): 문서 약 1.6만 건, 과거 자산 보존용 읽기 전용.
이 표에서 가장 정직한 발견은 세 번째 줄입니다. 임베딩 기반 시맨틱 검색 도구를 깔아두고도 두 기간 모두 0회 호출했습니다. 실제 retrieval(지식 인출)은 전부 경로·구조 기반 직접 접근이었습니다 — 모델이 디렉토리 분류 체계와 역참조 메타데이터(출처 저장소·이슈 번호)를 읽고 곧장 해당 노트로 갑니다.
RAG 활용성 평가 4가지 (라벨: n=1 운영 관찰)
2. vault는 양방향 루프라서 가치가 누적됩니다. 작업 시작 시 계획 문서에 참고 지식으로 소비되고, 이슈 종결 시 재사용성 판정을 거쳐 새 지식 원소로 환류됩니다. 소비와 적립이 같은 라이프사이클에 묶여 있어, 일을 할수록 RAG가 좋아집니다.
3. llm-wiki의 ‘낮은 활용’은 실패가 아니라 설계입니다. 12일간 18건 — 올해 초 30시간 비교 실험 끝에 읽기 전용 아카이브로 전환했고, 이력·과거 사례 조회라는 본래 역할만 수행 중입니다. 모든 지식 저장소가 일상 RAG일 필요는 없습니다 — 보존과 활용은 다른 서비스 수준입니다.
4. 지식 레이어도 모델 무관이었습니다. 모델 교체 당일 vault 접근 패턴은 그대로 유지됐고, 오히려 결과물당 retrieval 재읽기는 25% 줄었습니다 — 같은 지식에서 더 적게 다시 읽고 같은 결과에 도달했다는 뜻입니다.
한계도 기록합니다. 지식 레이어의 사각지대는 구조 밖에 있는 자산입니다 — 클라우드 드라이브에만 존재하던 강의 산출물이 지식 베이스에 누락된 사례가 있었고, 이후 이슈 종결 시 외부 산출물 스캔을 절차화했습니다.
도구는 Obsidian(로컬 마크다운 노트)과 Smart Connections 플러그인(로컬 임베딩 검색)이면 충분합니다. 구조화 방법론과 30시간 실측 비교는 30시간 RAG 실측 회고 — llm-wiki vs obsidian-vault에, 조직 자산화 관점은 RAG 지식관리와 PM에 정리해 두었습니다.
/goal은 상수, ultrathink는 변수였다
제 운영에서 자주 쓰는 두 레버의 사용 빈도를 같은 세션 로그에서 집계했습니다. /goal은 세션에 목표 조건을 걸고 그 조건이 충족될 때까지 세션이 멈추지 않게 하는 명령이고, ultrathink는 확장 추론(깊은 사고 예산)을 명시적으로 트리거하는 키워드입니다.
/goal — 모델 무관의 거버넌스 레이어. 저는 /goal에 역할 부여 프롬프트(예: “당신은 PMP·SAFe SPC 자격의 Enterprise ALM 수석 컨설턴트입니다”)를 결합해 씁니다. 효과는 두 모델에서 동일하게 유효했습니다 — 적용 세션은 중간 산출물에서 멈추지 않고 완결 조건까지 자율 주행하고, 미적용 세션은 “다음에 할 일 목록”을 남기고 끝나는 경향이 있습니다(운영자 관찰 라벨). 모델이 바뀌어도 사용 강도가 유지된 것(37회)은, 목표 관리가 모델이 아니라 하네스의 일이라는 방증입니다.
ultrathink — 모델이 바뀌자 필요가 줄었다. Opus 4.8 기간에는 복잡한 감사·설계 작업마다 붙여 일 50~64회까지 썼지만, 오늘은 11회입니다. 해석(가설 라벨): Fable 5는 기본 추론 품질이 높아 명시 트리거 없이도 첫 패스 정답률이 충분한 경우가 많았고, 자연스럽게 “어려운 작업에만 선별 투입” 패턴으로 이행했습니다. 적용 효과 자체는 여전히 유효합니다 — 오늘의 11회도 무결성 감사·아키텍처 결정 같은 고부하 지점에 썼고, 그 지점에서는 분명히 값을 했습니다.
품질은 모델 × 하네스 × RAG의 곱이다 — 그래서 모델을 바꾼다
곱셈 모델 — 어느 한 항이 0이면 결과도 0
덧셈이 아니라 곱셈입니다. 최고 모델도 게이트 없는 하네스 위에서는 조판 표준을 빠뜨리고(하네스 항 ↓), 정돈 안 된 지식 위에서는 일반론을 생성합니다(RAG 항 ↓). 반대로 하네스와 RAG가 아무리 좋아도 모델의 첫 패스 정답률이 낮으면 교정 왕복으로 토큰이 새어 나갑니다(모델 항 ↓). 오늘의 배수(커밋 ×3.3)는 세 항이 동시에 곱해진 결과이며, 그래서 어느 하나의 공으로 돌릴 수 없습니다 — 그것이 정확한 결론입니다.
그럼에도 ‘모델’을 바꿔야 하는 이유 — evidence 5건
곱셈 구조라면 “하네스·RAG나 다듬지, 모델은 아무거나 쓰면 되는 것 아닌가”라는 반론이 가능합니다. 오늘의 실측은 반대를 가리킵니다.
작업 상황별 권장 — 기본값은 Fable 5, 예외 두 줄만 Opus
마지막으로, 이 하루가 남긴 가장 큰 교훈을 다시 곱셈으로 적습니다. 출시 당일 아침에 모델을 갈아끼우고 점심 전에 평소 속도로 복귀할 수 있었던 것 — 그것은 새 모델이 잘나서만이 아니라, 113개 팩·152개 평가 케이스·9개 규칙(하네스)과 1.5만 노트의 구조화된 지식(RAG)이 모델 무관하게 쌓여 있었기 때문입니다.
다음 모델이 나와도 이 글의 모델 항 결론은 바뀔 것입니다. 하지만 곱셈 구조 자체는 바뀌지 않습니다. 여러분의 조직이 오늘 투자해야 할 것은 모델 구독 하나가 아니라 세 항 전부입니다 — 그리고 하네스와 지식이 쌓여 있다면, 새 모델이 나온 날은 두려운 날이 아니라 곱셈이 커지는 날입니다.
본 글의 모든 수치는 2026-06-10 18:43 KST 기준 필자 단일 운영 환경의 실측값이며, 일반화에는 표본 한계(n=1 · 하루 표본 · 업무 믹스 차이)가 있습니다.
- S-1 Agentic PM의 시대가 열리다 — LG전자 SW PM 워크숍을 마치며
- S-2 삼성전자 PMC: AI와 함께하는 PM 교육 혁신
- S-3 SKT Agent 도출을 위한 AI 퍼실리테이션 기법
- S-4 리스크는 그릇이었다 — LG전자 SW공학연구소 GenAI RISK 워크숍 NEW
- S-5 코드 한 줄 없이 손익관리팀이 만든 에이전트 — 신한EZ손해보험 NEW
- S-6 “어디까지 입력해도 되나요?” — 삼성 구매 현장의 Agentic 각성 NEW
- S-7 지금 Agentic으로 전환해야 하는 이유 — 삼성·LG·KT·Clean&Science 300여 분의 증명 NEW
- P-0 7인의 사고 체계 종합 프레임워크
- P-1 Karpathy: 제약 설계 + 닫힌 루프
- P-2 Sutskever: 압축이 곧 지능이다
- P-3 Hassabis: 제1원리 분해
- P-4 LeCun: 세계 모델 + 예측
- P-5 Hinton: 거버넌스 + 자기부정
- P-6 Ng: AI 전환 플레이북
- P-7 Fei-Fei Li: 인간중심 설계
- P-8 Builders 종합: Boris·Cat·Truell·Masad·Murati·Brockman
- P-9 Operators 종합: Altman·Amodei·Nadella·Pichai·Zuckerberg·Suleyman
- P-10 Hardware 양강: Jensen Huang · Lisa Su