PM 코치 10년의 OneDrive 코퍼스 28,849 파일·384GB에 Karpathy의 llm-wiki 패턴을 적용하고 obsidian-vault 45,640 노트와 6쿼리 양방향 벤치마크를 돌렸습니다. 점수는 vault 72 : wiki 70. 그러나 2점 차이의 진짜 의미는 따로 있었습니다.
Karpathy 사고 체계 시리즈 K-6 · 실측 벤치마크편 — K-1 온톨로지맵 · K-2 Karpathy × Obsidian 지식 결합 · K-6 30시간 실측 벤치마크 (현 글)
K-1·K-2가 던졌던 약속, 30시간으로 검증해보았습니다
“내가 10년치 강의를 vault에 차곡차곡 정리해 왔는데, 정말 다 들어 있는 건가? OneDrive에는 살아있고 vault에서는 죽은 개념이 있지 않을까?”
— 어느 토요일 새벽, llm-wiki 실험을 시작하며
이 시리즈는 작년에 두 편을 먼저 발행했습니다.
- K-1 — Agentic 시대, PM의 온톨로지맵 (2026-03-23): 10년치 PM 코칭 자산을 “AI가 읽을 수 있는 지식망”으로 구조화하는 4단계 전환 방법론. 검색 시간 600배 개선(30분 → 3초)을 정량 결과로 제시했습니다.
- K-2 — Karpathy의 LLM과 Obsidian 지식 결합 (2026-04-04): Karpathy의 3계층 아키텍처(Raw / Wiki / Schema)를 15,161 노트 vault에 적용. “Governed Autonomy”라는 개념과 함께 4~9배 자동화, 25% 완전성 향상, 436 atoms 자동 추출을 측정했습니다.
K-1은 “온톨로지맵을 만들면 RAG가 빨라진다”라는 가설을, K-2는 “Karpathy 패턴을 내 vault에 적용하면 자동화가 작동한다”라는 가설을 각각 입증했습니다.
그러면 이번 K-6는 무엇을 검증해야 했을까요?
- vault는 진짜 SSoT인가? — K-1·K-2는 “vault가 충분히 좋다”를 전제로 출발. 그런데 OneDrive 384GB 코퍼스가 별도로 있다면 vault에 누락된 개념이 있지 않을까?
- Karpathy 패턴은 PM 도메인에서도 작동하는가? — K-2는 vault 안에서 Karpathy 모델을 구현했고, 본 글은 외부에 별도 시스템을 만들어 정면 비교
- 두 시스템을 병렬 운영하는 것이 합리적인가? — 아니면 통합? 폐기? 흡수?
2026년 4월 16일부터 17일까지 약 30시간 동안 위 세 질문에 답하기 위해 별도의 llm-wiki repo를 만들고, OneDrive 28,849 파일을 추출하여 obsidian-vault 45,640 노트와 6쿼리 양방향 벤치마크를 돌렸습니다. 이 글은 그 회고입니다.
- Part 1: 두 시스템(llm-wiki vs obsidian-vault)의 사상·구조·규모 비교 (K-1·K-2와의 정합성 포함)
- Part 2: 업무 RAG 질의 패턴 — vault-search 정밀 큐레이션 vs llm-wiki 무차별 추출
- Part 3: 6쿼리 × 5축 채점 벤치마크 결과 (정량 + 정성)
- Part 4: 5-Why로 파고든 vault의 blind spot — Q5 Case Bank Mode 0건의 구조적 원인 4가지
- Part 5: 최종 결론 — vault 단일 + extract pipeline 흡수 (Before/After 아키텍처)
- Part 6: 1주·1개월·1분기·전사 활용방안 + K-4·K-5 예고
전체 백서는 aipm/research/20260418-deep-llm-wiki-vs-obsidian-vault-whitepaper.md에 보관 중이며, vault-disposition 평가 결과 cross-repo-reusable 등급(score 65)을 받았습니다.
두 시스템, 두 사상 — Zettelkasten vs Karpathy 3-Layer
이번 실험은 단순한 도구 비교가 아니라 두 가지 지식 관리 철학의 정면 충돌이었습니다. 한쪽은 80년 역사의 독일 카드 박스 시스템을 디지털로 옮긴 Niklas Luhmann의 Zettelkasten, 다른 한쪽은 LLM 시대를 위해 Andrej Karpathy가 설계한 3-layer wiki 패턴입니다. 두 사상은 “지식을 누가, 어떻게 정리해야 하는가”라는 근본 질문에 정확히 반대 답을 내놓습니다.
obsidian-vault
Zettelkasten — Luhmann (1960s) → Sönke Ahrens (2017)
- 사람이 의미를 부여 — 1 노트 = 1 아이디어, 자기 손으로 연결
- 거버넌스 우선 — Frontmatter v5.4 16필드, retrieval_tier·quality_score
- 10년 누적의 복리 — 45,640 노트, 위키링크 그래프
- K-1·K-2의 출발점 — 온톨로지맵 10 레이어 + Governed Autonomy
“내가 이해한 것만 vault에 들어간다. 그래서 검색 결과는 늘 내가 책임진다.”
llm-wiki
Karpathy 3-Layer — Karpathy (2024) gist 패턴
- LLM이 정리를 위임받음 — 사람은 raw만 두고 wiki는 LLM이 작성
- 최소 거버넌스 — type 6종 + sources 각주 + 300줄 cap
- 30시간 즉시 가동 — 28,849 파일을 5분 만에 스캔
- K-6가 검증한 패턴 — vault에 0건이던 개념을 발견
“내가 모르는 것이 OneDrive에 있다. 그래서 LLM이 먼저 읽고 나는 질문만 한다.”
| ① 누가 정리하는가 | 사람 (수동 큐레이션) | LLM (자동 ingest) |
| ② 무엇을 신뢰하는가 | 스키마 (16필드 메타) | 원본 (immutable raw + sha1) |
| ③ 어떻게 압축하는가 | 없음 (모두 보존) | 300줄 cap + Archive |
| ④ 무엇이 진실인가 | 내가 이해한 것 | 코퍼스에 있는 것 |
이 4가지가 정확히 반대이기 때문에 6쿼리 벤치마크에서 두 시스템은 “같은 질문에 다른 답”을 내놓을 수밖에 없었습니다. K-6의 핵심 발견은 “어느 쪽이 맞는가”가 아니라 “두 사상이 보완 관계라는 것을 30시간 만에 알아낸 것“입니다.
K-1에서 소개한 온톨로지맵의 10개 레이어가 obsidian-vault에서는 11개 최상위 디렉토리 + 16개 frontmatter 필드로 진화한 반면, llm-wiki는 K-2에서 다룬 Karpathy의 3계층 사상을 OneDrive 384GB 코퍼스에 정직하게 적용했습니다.
obsidian-vault의 규모와 골격 — K-1 온톨로지맵의 진화형
vault는 11개 최상위 폴더로 의미를 분리하고, 16개 frontmatter 필드로 검색 신호를 부여합니다. K-1에서 제시한 10개 레이어가 1년 만에 11개로 정착되었고, K-2 시점 15,161 노트가 본 글 시점 45,640 노트로 3배 성장했습니다.
45,640 노트 중 vault-search.sh 인덱서가 커버하는 건 13,772 노트, 나머지 31,868 노트(70%)는 검색에서 매몰될 위험이 있습니다. K-2에서 “거버넌스가 LLM 자율의 품질을 보장한다”고 했지만, 거버넌스가 미치지 못하는 영역의 노트는 사실상 “있어도 없는 것”입니다. Part 4에서 보겠지만 이번 실험의 결정적 결과(Q5 0건)가 바로 이 70% 영역에서 나왔습니다.
llm-wiki의 3-Layer 규율 — Karpathy 원칙의 정직한 이행
K-2에서 다룬 Karpathy의 3계층(Raw/Wiki/Schema)을 본 실험은 schema CLAUDE.md에 그대로 박아두고 30시간 동안 한 줄도 안 건드렸습니다.
- raw (immutable) — OneDrive 원본은 SSoT, 이 repo에는 바이너리를 복사하지 않음.
raw/manifest.jsonl에 경로·크기·mtime·sha1(head 1MB)만 저장. 총 10.3MB로 28,849 파일 384GB의 지문을 들고 있습니다. - wiki (LLM-owned) —
lecture/,project/,entities/의 markdown. ingest / query / lint 세 가지 동작으로만 갱신. 자동 ingest 절대 금지(Karpathy 원칙). - schema (사람 소유, 안정 유지) — 페이지 타입·프론트매터·컴팩션 규칙
페이지 타입은 6종으로 단순합니다 — client(조직), concept(프레임워크), synthesis(교차 합성), timeline(연도 스냅샷), question(미해결 모순), entity(인물·도구).
본문 주장은 [^n] 각주로 추적하고, 페이지가 300줄을 넘기면 오래된 내용은 ## Archive 섹션으로 압축합니다 — Karpathy의 “compaction” 원칙입니다. K-2의 Governed Autonomy가 “스키마로 LLM을 통제”하는 거라면, llm-wiki의 compaction은 “공간 제약으로 LLM이 우선순위를 강제로 매기게 만드는” 또 다른 통제 장치인 셈이죠.
도구 스택 검증 — “어떻게 384GB를 텍스트로 바꾸나”
실험 첫 단계에서 8개 샘플 파일에 대해 추출 도구 스택 3종을 비교했습니다.
최종 채택: Docling + MarkItDown + hwp5txt. 6-worker 병렬 PDF 추출로 2,666/6,640 PDF를 처리한 시점에서 시간 제약으로 중단(40% 완료, 재개 가능). 비PDF 10,515 파일은 일괄 추출 완료. 총 13,181 텍스트 파일 5.3GB가 raw/extracted/에 누적되었습니다.
업무로써 두 repo를 어떻게 RAG로 활용하는가
K-1에서 “30분 → 3초 600배”를 말했고, K-2에서 “5~9배 자동화”를 말했습니다. 그러면 실제로 두 시스템을 어떻게 쓰고 있는지, 본 실험에서 정착된 워크플로우를 그대로 공개합니다.
obsidian-vault — 정밀 큐레이션 우선 (K-1 온톨로지맵의 활용 패턴)
K-1에서 제시한 “원소화 + 메타데이터 + 양방향 링크 + 검색성” 4단계가 그대로 검색 패턴이 됩니다.
# 1. 클라이언트 + 도메인 필터 (frontmatter 16필드 활용)
./scripts/vault-search.sh --client samsung --pm-domain risk
# 2. 노트 타입 + 본문 검색
./scripts/vault-search.sh --query "리더십" --type atomic/insight
# 3. 복합 검색 + JSON 출력 (자동화 친화)
./scripts/vault-search.sh --client lg --query "워크숍" --format json
# 4. 인덱스 통계 — 30% 커버리지 자가 진단
./scripts/vault-search.sh --stats
작동 원리는 단순하지만 강력합니다. frontmatter YAML 필드(client, industry, pm-domain, pmbok_ka)로 1차 필터링한 뒤 본문 grep + relevance ranking, 마지막에 retrieval_tier(A>B>C>D)와 quality_score로 정렬합니다.
두 번째로 자주 쓰는 패턴이 디렉토리 라우팅 우선입니다. “Samsung-GAUSS Case Bank”를 찾을 땐 전체 vault를 뒤지지 않고 30_Agentic PM/Samsung-GAUSS/로 직진합니다 — CLAUDE.md에 그렇게 라우팅 규칙이 박혀 있기 때문이죠. K-2의 Governed Autonomy가 검색에 적용된 형태입니다.
세 번째 패턴은 Phase-link 통한 시계열 추적입니다. 본 실험 이후 의무화된 규칙이지요.
project_index.md (PRJ-2026-001)
├── Phase1 → atom A (vault link)
├── Phase2 → atom B (vault link)
└── Phase3 → atom C (Q5에서 발견된 V3.2)
llm-wiki — 무차별 추출 + LLM 합성 (Karpathy 패턴)
K-2에서 다룬 “LLM이 wiki를 작성하고 사람은 질문하는” 패턴 그대로입니다. 다만 자동 ingest는 절대 금지이므로, 사용자가 명시 호출 시점에만 작동합니다.
# 1. LLM 매개 질의 (claude -p 호출)
./scripts/ingest.sh --query "Samsung GAUSS PM Agent Phase 3 근거"
# 2. wiki 페이지 직접 grep
grep -rn "Case Bank" lecture/ project/ entities/
# 3. 각주 정의 추적 → manifest를 통해 OneDrive 원본까지
grep "\[\^1\]:" project/clients/samsung.md
# → [^1]: raw/extracted/lecture/삼성전자/20260306-Global-Expert/handout-v18.md
# 4. 원본 텍스트 검증
cat raw/extracted/lecture/삼성전자/20260306-Global-Expert/handout-v18.md
llm-wiki의 묘미는 모든 주장이 raw/extracted/의 텍스트 파일까지 추적된다는 점입니다. manifest.jsonl이 28,849 파일의 sha1 지문을 들고 있기 때문에 OneDrive에서 원본이 바뀌면 즉시 감지됩니다. K-2의 표현으로는 “감사 가능한 자동화(auditable automation)”의 한 형태입니다.
통합 워크플로우 — 본 실험 이후 정착된 3-Step
Step 1. vault-search.sh로 정밀 큐레이션 우선 조회 (K-1 온톨로지맵 활용)
Step 2. 히트 부족 시 llm-wiki grep + claude -p --query로 보완 (Karpathy 패턴)
Step 3. 신규 개념 발견 시 vault-promote.sh로 vault 흡수 — vault-disposition + compile-to-wiki 자동 실행 (K-2 닫힌 루프)
K-2에서 “닫힌 루프(closed loop)가 지식을 복리로 성장시킨다”고 했는데, 본 실험으로 그 루프에 한 칸이 더 추가되었습니다. 이제는 vault 자체 안에서만 닫혀있던 루프가 OneDrive·llm-wiki·vault 세 곳을 순환합니다.
벤치마크 결과 — 정량 점수와 정성 분석
6개 쿼리는 제 평소 워크플로우 패턴에서 뽑았습니다 — 클라이언트별, 프레임워크별, 시계열별, 신규 개념별로 스펙트럼을 분포시켰습니다. 각 쿼리당 5축 채점(hit 1점 + relevance 5점 + depth 5점 + traceability 5점 = 16점)으로 총 96점 만점입니다.
정량 vs 정성 — K-2의 “구조적 20% 누락” 명제 재검증
정량적으로 vault가 +2점 우위입니다. 4승 2패. 큐레이션 10년이 자동 추출 30시간을 이긴 셈입니다.
그러나 정성적으로 Q5의 16점차는 다른 모든 점수보다 무겁습니다. vault는 Samsung GAUSS Phase3-Agent의 Case Bank Mode 개념이 13,772 indexed 노트 중 0건이었습니다. wiki는 OneDrive 스캔만으로 5분 만에 발견했습니다.
K-2에서 5대 고객사 리스크 검색에서 “수동 대비 20% 추가 발견”을 측정했었습니다. K-6의 본 실험은 그 명제의 구체 사례를 확보한 셈입니다 — Case Bank Mode 1건은 그 20% 안에 분명히 포함되어 있었습니다.
vault 우위(Q1·2·3·6)의 공통점 — 큐레이션 10년의 위력
- 연차 누적의 위력 — Samsung 단일 클라이언트에 355개 atom, Agile Simulation 검색 108 히트
- 메타데이터 정밀도 —
retrieval_tier,quality_score,pmbok_ka16필드가 검색 신호로 작동 (K-2의 Frontmatter v5.4) - 위키링크 그래프 — 한 노트에서 시작해 관련 개념 즉시 도달 (K-1의 양방향 링크)
- PMBOK 다국어판 인덱싱 — 한국어 검색 시 영문 PMBOK 7th까지 자동 매핑
wiki 우위(Q4·5)의 공통점 — 무차별 스캔의 본질 가치
- Q4 (2024-2025 timeline): vault는 2,130건이 산재해 통합 뷰가 없음. wiki는
project/timelines/2024.md단일 페이지로 LLM이 합성 — Karpathy의 “compaction” 원칙이 정확히 작동한 사례 - Q5 (Case Bank Mode): vault에 완전 부재(0건), wiki는 OneDrive 스캔으로 발견 — 무차별 추출이 blind spot 발견에 결정적
본 벤치마크의 신뢰도를 CRAAP 프레임워크로 자가 진단한 결과 44/50 (Excellent)입니다. Currency 9/10 (당일 실측), Authority 9/10 (양방향 벤치마크 + DMG 바이너리 검증), Accuracy 8/10 (실측 점수, 다만 6쿼리 표본 제한). 자세한 내용은 백서 §A 참조.
왜 vault에 Case Bank가 없었나 — 5-Why로 파고들기
“Q5에서 vault가 0점이라는 사실을 처음 봤을 때 한참 멍하게 있었습니다. 분명 Samsung GAUSS 작업을 했고, Case Bank Mode 설계도 직접 만들었는데, 왜 vault에서 검색이 안 되는 거지?”
“K-1에서 600배 검색 속도를 자랑했던 그 vault가, 정작 내가 직접 만든 핵심 개념을 검색하지 못한다는 사실은 충격이었습니다.”
5-Why로 파고들었습니다.
Why 1: PMBOK Agent V3.2와 Case Bank Mode가 vault에 없었다
← Why 2: Samsung-GAUSS Phase3-Agent 산출물이 vault에 큐레이션되지 않았다
← Why 3: Phase3 산출물이 OneDrive에만 존재하고 vault 이관 트리거가 발동하지 않았다
← Why 4: vault accumulation loop는 [research] done / [pm] done 시에만 작동하고
OneDrive 직접 작업의 산출물은 자동 스캔 대상이 아니었다
← Why 5: AIPM 3-tier 모델에서 OneDrive는 "각 레포의 SSoT"로만 정의되어 있고
vault로의 자동 흡수 경로가 설계되지 않았다
구조적 원인은 4가지입니다.
llm-wiki의 extract-text.sh가 이 blind spot을 발견한 것은 우연이 아닙니다. OneDrive 전수 스캔 → 텍스트 추출 → LLM ingest라는 “무차별 스캔” 방식이 수동 큐레이션의 누락을 정확히 보완한 것입니다.
K-2에서 “거버넌스가 LLM 자율의 품질을 보장한다”고 했지만, K-6는 그 보완 명제를 보여줍니다 — 거버넌스가 미치지 못하는 영역에는 무차별 스캔이 보완 도구로 필요하다. 두 시스템은 “큐레이션 vs 발견”이라는 다른 기능을 수행합니다.
최종 결론 — 통합이 정답이었다
5가지 결론을 도출했습니다.
- vault는 정밀, wiki는 발견 — 큐레이션 우위(vault 4승)와 blind spot 발견(wiki 2승)은 서로 다른 기능
- 2점 차이는 “근소”가 아닌 “구조적 우위” — Q2 8점차, Q5 16점차 같은 큰 격차는 도메인 특성 반영
- wiki의 30시간이 vault의 10년을 따라잡지 못한다 — K-1·K-2가 입증한 “거버넌스의 복리 효과”가 정량적으로 재확인
- 하지만 wiki는 vault가 영원히 못 발견할 것을 5분 만에 찾아냈다 — Q5의 16점차가 K-2의 “구조적 20% 누락” 명제의 결정적 사례
- 둘을 병렬 운영하는 것은 30시간을 또 30시간으로 만드는 것 — 통합이 정답
아키텍처 결정 — Before / After
BEFORE (실험 기간):
OneDrive ──→ llm-wiki (extract → wiki → ingest) ←──→ obsidian-vault
(두 시스템 병행, 중복 관리 비용)
AFTER (확정):
OneDrive ──→ extract pipeline (llm-wiki 유산)
↓
vault-disposition.py
↓
compile-to-wiki.py
↓
obsidian-vault (단일 Knowledge Layer)
K-1에서 제시한 “4단계 전환(원소화 → 메타데이터 → 관계연결 → 검색성)”이 본 실험으로 한 단계 더 진화했습니다. K-2에서 닫힌 루프를 제시했고, K-6는 그 루프에 OneDrive 정기 스캔을 추가했습니다.
llm-wiki repo 처분 — “버리지 않고 흡수”
vault accumulation loop 4가지 개선 (즉시 도입)
- OneDrive 정기 스캔 (주 1회 cron) —
build-manifest.sh+ diff +vault-disposition.py --auto-extract - vault-search indexed 커버리지 확대 — 30% → 55% (50_Project/Artifact/ 노트 frontmatter 보강)
- Phase-link MOC 의무화 —
PRJ-YYYY-*.md에 Phase별 atom 링크 강제, 빈 Phase는(해당 없음)명시 [pm] done체크리스트에 OneDrive 산출물 확인 추가 — 직접 작성된 교안·커리큘럼·retro도 vault-disposition 대상에 포함
당신은 어느 쪽을 먼저 시작해야 하는가
본 글의 최종 결론은 “vault 단일 + extract pipeline 흡수”였지만, 이는 PM 코치 10년 + OneDrive 384GB라는 특수 케이스에서 도출한 결론입니다. 독자분의 상황은 다를 수 있습니다. 30시간을 들이지 않고도 자신에게 적합한 출발점을 고르실 수 있도록, 4가지 페르소나로 정리했습니다.
“내가 직접 쌓아온 전문성을 정밀 자산으로”
적합 대상: PM 코치, 컨설턴트, 교수, 작가, 1인 지식기업 운영자, 도메인 전문가 (5~10년+ 경력)
목적
- 누적된 도메인 지식을 재사용 가능한 atom으로 정리
- 고객사·프로젝트별 맞춤 인사이트 즉시 인출
- 강의·블로그·제안서 작성의 콘텐츠 풀 구축
용도
- 강의 교안 재활용 (5년 전 자료 30초 발견)
- 컨설팅 인사이트 검색 (PMBOK·BABOK 매핑)
- 클라이언트별 산출물 히스토리 관리
조건 (모두 충족 시 강력 추천)
- 주 2~3회 이상 노트 정리 습관
- Markdown · 위키링크 · YAML 친숙
- 메타데이터(태그·필드) 입력에 시간 투자 가능
- 최소 500노트 이상 누적 의향
활용 시나리오
“새로운 클라이언트 미팅 30분 전, vault에서 해당 산업·도메인 atom 5개를 인출해 즉석 인사이트로 활용”
“이미 쌓인 대량 자산에서 빠르게 발굴”
적합 대상: 신규 입사자, 인수합병 PMO, 컨설팅 펌 신규 어카운트 진입자, 연구원, 법무 변호사, 디지털 아카이브 담당자
목적
- 정리되지 않은 대형 코퍼스에서 신속 매핑
- 신규 영역 진입 시 기존 자산 빠른 파악
- “내가 모르는 것이 어디 있는지”를 LLM이 발견
용도
- 신규 입사 후 회사 자료 30분 만에 전체 매핑
- M&A due diligence 데이터룸 1주 분석
- 법무 펌의 케이스 패턴 발굴, 판례 자동 추적
- 연구원의 PDF 수백 편 통합 종합
조건 (1개 이상 해당 시 추천)
- OneDrive·SharePoint·Google Drive에 1,000+ 파일 보유
- 큐레이션할 시간이 절대적으로 부족
- Claude/OpenAI API 사용 가능 (월 $20~100)
- CLI · Python · bash 친숙 (Docling 등 설치 가능)
활용 시나리오
“M&A 후 2주 안에 인수 기업의 SharePoint 12,000 파일을 매핑해서 핵심 IP·리스크·인력 의존도를 보고서로 작성”
“양쪽 다 가진 양면 케이스”
적합 대상: 10년+ 도메인 전문가이자 OneDrive 100GB+ 보유자, 큐레이션 자산 + 미정리 자산 양쪽 모두 가진 시니어
시나리오
- vault는 큐레이션 자산 SSoT로 유지
- extract pipeline은 OneDrive feeder로만 운영
- 주간 cron으로 신규 파일 → vault-disposition 자동
- blind spot 발견 시 atom 즉시 승격
투자 vs 회수
초기 셋업 30시간 → 연 1회 follow-up 4시간 → 매년 blind spot 5~10건 자동 발견. 본 글의 사례가 정확히 이 유형입니다.
“아직 시기가 아니다”
해당 시 권고: vault·llm-wiki 모두 도구 과잉. 더 단순한 도구로 시작
아직 시기가 아닌 신호
- 노트 100개 미만 (Apple Notes·Notion으로 충분)
- 단순 작업 메모만 필요 (Things·Trello 등 우선)
- 주 1회도 정리 시간 못 냄 (자동화 도구가 노이즈만 양산)
- 도메인 자체가 5년 후 사라질 가능성 (투자 회수 불가)
권고
“노트 1,000개 이상 누적되거나 OneDrive에 1,000+ 파일이 쌓일 때까지 기다리세요. 그 전에 vault·llm-wiki를 시작하면 도구를 운영하는 데에 더 많은 시간이 듭니다.”
10초 진단 체크리스트
5개 질문에 ✅ 표시해 보세요
- 나는 5년 이상 같은 도메인에서 일했고, 그 도메인은 앞으로도 유효하다 ☐
- OneDrive·Google Drive에 1,000+ 파일이 있고, 그중 70%는 한 번도 다시 안 봤다 ☐
- 주 2~3회 노트 정리 습관이 있거나, 만들 의향이 있다 ☐
- Markdown·CLI·기본 자동화 도구에 친숙하다 ☐
- “내가 모르는 것이 어디 있는지조차 모른다”는 답답함을 느낀 적이 있다 ☐
채점:
- 1·3·4번 ✅ → 유형 A (vault 우선)
- 2·4·5번 ✅ → 유형 B (llm-wiki 우선)
- 5개 모두 ✅ → 유형 C (통합 운영) — 본 글의 사례
- 2개 이하 ✅ → 유형 D — 아직 시기가 아닙니다
“PM 코치 10년이지만, 5년 차 때 vault를 시작했다면 30%만 활용했을 겁니다. 도구는 누적된 자산이 도구를 정당화할 만한 규모가 되었을 때 시작하는 것이 가장 효율적입니다. 그 임계점이 대략 노트 1,000개, 파일 1,000개입니다.”
향후 활용방안 — 1주·1개월·1분기·전사
단기 (1주 — Quick Wins)
※ Quick Win 1~3은 이미 AIPM-349/350/351 사이클에서 완료 (commit 5abc267, 2015472, 4585175 참조)
중기 (1개월)
- OneDrive 주간 cron 셋업 (
build-manifest+ diff +vault-disposition --auto-extract) — Phase3 같은 blind spot 자동 감지 - vault-search indexed 커버리지 30% → 55% 프로젝트 (50_Project/Artifact/ frontmatter 보강)
- Samsung-GAUSS Phase3 atom 추가 분해 (현재 2개 → 5~7개 목표)
- llm-wiki PDF wave 2 재개 (2,666 → 6,640 완료) — 추가 blind spot 발견 가능성
중장기 (1분기 — 시스템 통합)
vault-search.sh --aggregate-by-year옵션 추가 — Q4 패턴(통합 뷰) 영구 해결- 연도별 Timeline MOC 자동 생성 cron (
pm-rel과 연동) — 매년 자동 timeline 페이지 compile-to-wiki.py에 OneDrive 신규 파일 정기 스캔 통합 — accumulation loop 단일화- Phase-link 검증 규칙을
pm-audit.sh에 추가 — Phase 분절 재발 방지
전사 적용 가능성 — N=1을 N=N으로
이 실험은 PM 코치 1인의 케이스지만, 다음 영역에 일반화 가능합니다.
핵심 패턴: “OneDrive · SharePoint · Google Drive 등 비정형 코퍼스 → 추출 파이프라인 → LLM 큐레이션 → Zettelkasten Vault” 4단계 구조는 도메인 무관 적용 가능합니다.
1년 뒤 follow-up 벤치마크
본 글의 4가지 개선 사항이 실제로 작동했는지를 1년 뒤 동일 6쿼리로 재측정할 계획입니다.
- vault의 indexed 커버리지가 30% → 55%로 끌어올려졌는가
- OneDrive 주간 cron이 blind spot을 자동 감지했는가
- Phase-link MOC 의무화로 Q5 같은 0건 케이스가 사라졌는가
- vault 단일 + extract pipeline 흡수 구조가 운영 비용 절감으로 이어졌는가
정량 지표는 동일하게 6쿼리 × 5축 채점(96점 만점), 정성 지표는 신규 발견 atom 수와 OneDrive→vault 자동 흡수 건수를 함께 측정해 비교 보고할 예정입니다.
30시간이 가르쳐준 것
“내가 10년 큐레이션한 vault는 이겼다. 그런데 wiki가 5분 만에 찾아낸 Case Bank Mode 한 가지 사실 때문에 나는 30시간이 아깝지 않았다.”
“이긴 게임을 분석해서 더 강해지는 것보다, 진 게임 한 판에서 진짜 약점을 발견하는 것이 더 중요할 때가 있다.”
K-1에서 “10년 경험을 AI가 읽을 수 있는 지식망으로 구조화하라”고 말했고, K-2에서 “거버넌스가 LLM 자율의 품질을 보장한다”고 말했습니다. K-6가 추가하는 한 줄은 이렇습니다.
“거버넌스가 미치지 못하는 영역에 대해서는, 무차별 스캔이 보완 도구로 살아있어야 한다.”
지식 관리 시스템을 운영하는 모든 분께 권하고 싶은 것은, 1년에 한 번이라도 자기 시스템의 blind spot을 의도적으로 찾는 작업입니다. 무차별 스캔, 외부 도구 비교, A/B 벤치마크 — 방법은 무엇이든 좋습니다. 자기 시스템 안에서만 일하면 자기 시스템이 못 보는 것은 영원히 못 보게 됩니다.
저는 이번 실험으로 4가지 vault accumulation loop 개선안을 도출했고, llm-wiki의 extract pipeline은 vault feeder로 살아남았습니다. 30시간 투자의 ROI는 “Case Bank Mode 1건 발견” + “구조적 약점 4개 식별” + “주간 자동화 설계” — K-1이 600배, K-2가 4~9배를 측정했다면, K-6는 “blind spot 발견 능력 = ∞배“라는 다른 차원의 가치를 측정한 셈입니다.
- Karpathy 사고 체계 시리즈 K-6 — K-1(온톨로지맵), K-2(Karpathy×Obsidian)에 이은 실측 벤치마크편
- OneDrive 28,849 파일·384GB → 13,181 텍스트 추출 → 37 wiki 페이지 (30시간)
- vault 72 : wiki 70 — vault가 큐레이션·메타데이터에서 우위 (4승 2패)
- 그러나 wiki는 vault에 0건이던 개념을 5분 만에 발견 (Q5 16점차) — K-2의 “구조적 20% 누락” 명제 실증
- 병렬 운영 ❌, vault 단일 + extract pipeline 흡수 ✅
- 핵심 패턴: “비정형 코퍼스 → 추출 → LLM 큐레이션 → Zettelkasten Vault”
관련 글
- 📘 K-1: Agentic 시대, PM의 온톨로지맵 — Obsidian을 통해 나만의 RAG를 만드는 법 (2026-03-23) — 본 글의 vault 측 사상적 출발점
- 📗 K-2: Karpathy의 LLM과 Obsidian 지식 결합 — Governed Autonomy의 실전 구현 (2026-04-04) — 본 글의 wiki 측 사상적 출발점
- 📕 K-6: 본 글 (2026-04-18) — 두 시스템의 정면 벤치마크
#Karpathy #K-6 #llm-wiki #obsidian-vault #RAG #Zettelkasten #Governed-Autonomy #Knowledge-Management #Agentic-PM #PM #OneDrive #PMBOK #vault-search #Docling
이 글은 PM 코치 10년의 실제 OneDrive 코퍼스(28,849 파일·384GB)와 obsidian-vault(45,640 노트)를 대상으로 2026년 4월 16~17일 30시간에 걸쳐 수행한 실측 벤치마크 회고를 바탕으로 작성되었습니다. Karpathy 사고 체계 시리즈 K-6편이며, K-1·K-2의 가설을 별도 시스템 비교로 정면 검증했습니다. 전체 백서(6 Part + §A CRAAP·AIMQ·Eppler IQF 자체 평가 + §B Known Limitations + §C 출처 12종)는 aipm/research/20260418-deep-llm-wiki-vs-obsidian-vault-whitepaper.md에 보관되어 있으며, vault-disposition 평가 결과 cross-repo-reusable(score 65) 등급을 받았습니다.
“개인 RAG는 정말 쓸모 있는가” — 3편으로 이어지는 검증 여정
PM 코치 10년의 Obsidian vault와 Karpathy의 llm-wiki 패턴을 직접 만들고, 측정하고, 통합한 3편의 연속 기록입니다. 본 글(K-6)은 마지막 단계 — 실측 검증과 통합 결론을 다룹니다.
- K-1 · 가설 단계 — Agentic 시대, PM의 온톨로지맵 — Obsidian을 통해 나만의 RAG를 만드는 법
10년치 PM 자산을 “AI가 읽을 수 있는 지식망”으로 구조화하는 4단계 전환. 검색 시간 30분 → 3초(600배) 측정. - K-2 · 구현 단계 — Karpathy의 LLM과 Obsidian 지식 결합
15,161 노트 vault에 Karpathy 3계층(Raw/Wiki/Schema)을 적용. Q&A Agent + 축적 루프 + LLM Compile 1,082줄 구현. 4~9배 자동화 + 25% 완전성 향상 + 436 atoms 자동 추출. - K-6 · 검증 단계 (현 글) · NEW — 30시간 RAG 실측 회고
OneDrive 28,849 파일·384GB로 별도 llm-wiki를 만들어 obsidian-vault 45,640 노트와 6쿼리 양방향 벤치마크. vault 72:70 wiki(4승 2패) — 그러나 wiki가 vault에 0건이던 핵심 개념을 5분 만에 발견. “거버넌스가 미치지 못하는 영역에는 무차별 스캔이 보완 도구로 필요”라는 결론.
Andrej Karpathy의 LLM 활용 철학을 PM 언어로 번역한 6편
| 편 | 주제 | 핵심 가설 |
|---|---|---|
| K-1 | 온톨로지맵·RAG | Obsidian으로 나만의 RAG, 검색 600배 가속 |
| K-2 | LLM+Obsidian 결합 | Governed Autonomy로 자동화 + 완전성 동시 확보 |
| K-3 | autoresearch 패턴 | PDCA 동형의 자동 리서치 패턴 PM에 적용 |
| K-4 | AI 사고 체계 적용 | System 1/2 사고와 vibe coding의 PM 적용 |
| K-5 | LLM OS · Claude Code 분석 | Claude Code 1,903파일 교차 분석한 3-plane 모델 |
| K-6 · NEW | 현 글 — 실측 벤치마크 | vault vs llm-wiki 6쿼리 정면 비교, 양강 보완 결론 |
📌 함께 보면 좋은 글: P-1 Karpathy: 제약 설계 + 닫힌 루프 (AI 인물 탐구 시리즈) — 사상적 출발점으로서 Karpathy의 사고 패턴을 PM 코치 렌즈로 5-Part 해부
- P-0 7인의 사고 체계 종합 프레임워크
- P-1 Karpathy: 제약 설계 + 닫힌 루프
- P-2 Sutskever: 압축이 곧 지능이다
- P-3 Hassabis: 제1원리 분해
- P-4 LeCun: 세계 모델 + 예측
- P-5 Hinton: 거버넌스 + 자기부정
- P-6 Ng: AI 전환 플레이북
- P-7 Fei-Fei Li: 인간중심 설계
- P-8 Builders 종합: Boris·Cat·Truell·Masad·Murati·Brockman
- P-9 Operators 종합: Altman·Amodei·Nadella·Pichai·Zuckerberg·Suleyman
- P-10 Hardware 양강: Jensen Huang · Lisa Su
- P-11 PO·PM·PL 역량 통합: 5-Domain × 3-Level