외부 OCR 서비스를 찾아 헤매던 시간이 아까웠습니다. macOS 안에는 한국어 OCR·온디바이스 LLM·음성 전사가 이미 들어 있었고, 이 내장 엔진들을 “부릴” 에이전트만 있으면 하루 만에 파이프라인 3개가 만들어집니다. 내장 Agentic 기능 × Agentic 도구 — 이 곱셈이 이 글의 결론입니다. (AX 시리즈)
① macOS 내장 Vision 프레임워크의 OCR(광학 문자 인식)만으로 스크린샷 7,384장을 전수 처리 — 7,309장(99%)을 텍스트로 추출해 지식 베이스로 이관했습니다. 무인 4시간 50분, 비용 0원, 외부 전송 0건.
② 같은 날 에이전트가 3개 프로그램을 추가로 작성 — 온디바이스 LLM(거대 언어 모델) 태깅 7,309건(Foundation Models), 강의 녹음→한국어 회의록(SpeechTranscriber), 표 구조 보존 스캔(RecognizeDocumentsRequest). 전부 무료·로컬입니다.
③ 핵심은 도구가 아니라 작업 방식입니다 — “인박스 915건을 분류해줘” 한 문장에 에이전트가 베스트 프랙티스 리서치 → 결정 트리 설계 → 87건 평가·이동 → 검증·커밋까지 약 15분에 수행했고, 사람은 방향 제시와 비가역 결정(삭제)만 맡았습니다.
“몰라서 아까웠던 시간” — 제 맥 안에 이미 있었습니다
고백부터 하겠습니다. 저는 그동안 스크린샷에서 텍스트를 뽑을 일이 있으면 외부 OCR 도구를 검색했습니다. 웹 서비스에 이미지를 올리고, 변환 품질에 실망하고, 한국어 지원 여부를 따지고… 그렇게 쓴 시간이 있습니다.
그런데 macOS 26 기준으로, 제 맥 안에는 이미 이런 것들이 들어 있었습니다.
- Vision — 한국어 OCR (정확도 모드 + 언어 보정), 문서 구조(표) 인식, 배경 제거
- Foundation Models — 약 3B 파라미터 온디바이스 LLM (요약·추출·구조화 출력, 한국어 지원)
- SpeechTranscriber — 장시간 오디오 한국어 전사 (ko-KR 온디바이스)
- Natural Language — 한국어 의미 임베딩 (NLContextualEmbedding)
전부 무료이고, 전부 온디바이스입니다. 사진 한 장도 외부 서버로 나가지 않습니다. 문제는 단 하나 — 이 엔진들은 API(응용 프로그램 인터페이스)로만 존재해서, 스크립트를 짜야 쓸 수 있다는 것입니다. 그리고 바로 그 지점에서 Agentic 도구(저의 경우 Claude Code)가 곱해집니다. 스크립트는 에이전트가 짜면 되니까요.
이 글은 2026년 6월 10일 하루 동안 이 조합으로 사진 7,384장, Apple Notes 705건, Obsidian 인박스 915건을 정리한 실측 기록입니다.
스크린샷 7,384장, 99% 이관, 0원 — 그리고 에이전트가 스스로 단 서킷브레이커
시작은 사진 앨범 정리였습니다. 제 사진 라이브러리에는 “정보를 위해 찍은” 스크린샷 — 강의 자료, 영수증, 카톡 캡처, 지도, 예약 확인 — 이 7,384장 쌓여 있었습니다. 기억의 공간(앨범)에 정보가 쌓이는 전형적인 문제입니다.
에이전트가 작성한 파이프라인은 단순합니다. Photos 앱에서 스크린샷을 AppleScript로 내보내고 → Vision의 한국어+영어 정확도 모드로 텍스트를 추출하고 → 40자 이상 의미 있는 텍스트가 나오면 월별 markdown 파일로 지식 베이스에 이관합니다.
한국어 인식 품질은 체감상 유료 서비스와 구분이 어려웠습니다. 손글씨가 아닌 화면 캡처 기준으로는 사실상 완벽에 가깝고, 표가 섞인 이미지도 줄 단위로는 정확히 읽습니다.
같은 날 만든 프로그램 3건 — 내장 엔진은 OCR만이 아닙니다
이관이 끝나자 욕심이 생겼습니다. “Vision이 이 정도면, 다른 내장 엔진들은?” 에이전트에게 macOS 내장 AI 프레임워크 Top 10을 리서치시키고, 그중 3개를 당일 파이프라인으로 구축했습니다.
① capture-tag — 온디바이스 LLM이 7,309건을 분류했습니다 (Foundation Models)
이관된 OCR 텍스트 7,309건을 macOS 내장 LLM(약 3B 파라미터)에게 전건 분류시켰습니다. 항목마다 주제 태그 1~3개, 한 줄 요약, 그리고 처분 판정(승격=지식으로 재사용 / 보관=참고용 / 폐기후보=시효 지남)을 구조화 출력(JSON 스키마 강제)으로 받았습니다.
결과 (실측): 승격 5,314 · 보관 1,985 · 폐기후보 10. 상위 태그는 건강 899 · 여행 687 · 프로젝트관리 482 · AI 477 — 제 삶의 관심사 분포가 그대로 드러났습니다. 수행시간은 정확히 2시간 0분(건당 약 1초, 백그라운드 무인 가동)이었고, 클라우드 LLM이었다면 7,309회 호출 비용이 들었을 작업이 0원입니다.
정직한 한계도 적습니다. OCR 잡음이 심한 텍스트는 모델이 언어 가드로 거부(약 29%)해서, 에이전트가 한글+영문만 남기는 정제 후 재시도 → 그래도 안 되면 “미분류·보관” 폴백 처리하는 2단 로직을 추가했습니다(미분류 826건). 소형 모델은 범용 지식 질의에는 부적합하고, 요약·추출·분류가 적정 용도입니다. 또 승격 비율 82%는 소형 모델의 관대한 판정으로 보이며, 태그 축 재검토를 운영 과제로 남겼습니다.
② lecture-transcribe — 강의 녹음이 한국어 회의록 초안이 됩니다 (SpeechTranscriber)
macOS 26의 SpeechTranscriber는 ko-KR을 포함한 30개 로케일을 온디바이스로 전사합니다. 녹음 파일(m4a)을 내장 도구로 16kHz wav로 정규화 → 전사 → 8개 섹션 회의록 markdown 초안까지 한 명령으로 잇는 파이프라인을 만들었습니다. 강사인 저에게는 “워크숍 녹음 → 복기 노트”가 통째로 자동화된 셈입니다.
여기에도 함정이 둘 있었습니다 — 한국어 모델 자산은 첫 사용 전 1회 다운로드가 필요하고, volatileResults 옵션을 켜지 않으면 최종 결과가 아예 산출되지 않습니다. 둘 다 에이전트가 공식 API 문서와 실기기 검증으로 잡아냈습니다.
③ photo-ocr-docscan — 표를 “표인 채로” 추출합니다 (RecognizeDocumentsRequest)
①의 일반 OCR은 표를 줄글로 풀어버립니다. macOS 26의 신형 Vision API는 문서의 구조(문단·표·리스트)를 계층으로 반환합니다. 영수증·일정표·평가표 이미지를 넣으면 markdown 표로 그대로 나오는 v2 엔진을 만들었습니다. 셀 단위 한국어도 정확했고, 현재 v1 안정 운영 후 엔진 교체 대기 중입니다.
이 표가 사실 이 글에서 가장 실용적인 부분일지도 모릅니다 — 그리고 이 함정들을 문서 검색·실기기 테스트·코드 수정의 루프로 혼자 통과한 것이 에이전트라는 점이 Part 3의 주제입니다.
“분류해줘” 한 문장이 보고서가 되기까지 — Agentic 효과의 본체
같은 날 마지막 작업은 Obsidian 지식 베이스의 인박스 정리였습니다. 제가 입력한 지시는 사실상 한 문장입니다.
“00_Inbox 내용들을 분석하여 자료로서의 가치가 있는 것과 없는 것을 분류해줘. 이를 위한 Top 10 베스트 프랙티스를 리서치해주고, 해당 로직에 맞춰 평가 및 분류이동 시켜줘.”
에이전트가 수행한 것은 다음과 같습니다.
- 리서치 — PARA(행동 가능성 우선)·BASB(보존 4기준)·Zettelkasten(수집가의 오류 경계)·GTD(2분 룰) 등 PKM(개인 지식 관리) 베스트 프랙티스 Top 10을 출처와 함께 수집
- 설계 — 제 폴더 체계에 맞춘 7노드 가치 판정 결정 트리 합성
- 실행 — 87개 노트 전수 평가 → 71건 이동 · 18건 폐기후보 분리. 이동 전 git 복구점 커밋, 폐기는 영구 삭제가 아닌 휴지통 보존
- 검증 — 중복 의심은 파일명·크기가 아니라 본문 diff 실측으로 판정 (3중 중복 클러스터 2개 발견 — 더 발전된 정본이 이미 다른 폴더에 있었습니다), 허브 노트의 깨진 링크 4건 보정, 전역 잔존 깨진 참조 0 확인
이 네 단계 전체 — 지시 입력부터 베스트 프랙티스 리서치, 87건 평가·이동, 검증·커밋까지 — 에 걸린 시간은 약 15분입니다. 사람이 직접 했다면 리서치만으로 반나절이 갔을 일입니다.
제가 한 일은 두 가지뿐입니다 — 방향을 정한 것, 그리고 비가역 결정에 개입한 것. 사진 7,309장의 최종 삭제는 에이전트가 휴지통 후보를 앨범으로 모아주면 제가 직접 확인하고 지웠습니다. HITL(Human-in-the-Loop, 사람 개입 확정) — 되돌릴 수 없는 결정은 사람이 맡는다는 원칙은 이런 개인 데이터 작업에서도 그대로 유효합니다.
이 흐름이 제가 말하는 Agentic 효과입니다. 도구 하나하나(OCR, LLM, 전사)는 “기능”이지만, 리서치→설계→실행→검증을 잇고 장애에서 스스로 복구하는 것은 “에이전트”입니다. macOS가 전자를 무료로 내장하고 있고, Agentic 도구가 후자를 맡으면 — 둘의 곱이 하루치 산출물이 됩니다.
내장 Agentic 기능 × Agentic 도구
수행시간에서 주목할 점은 무인(無人)이라는 단어입니다. 사진 4시간 50분과 태깅 2시간은 제가 다른 일을 하는 동안 백그라운드에서 돌았고, 제 실제 투입 시간은 지시·중간 확인·비가역 승인을 합쳐 30분 남짓입니다. “수행시간 7시간”이 아니라 “내 시간 30분에 7시간어치 처리”가 정확한 독법입니다.
실천 제안은 세 줄입니다.
- 인벤토리부터 — 내 맥에 뭐가 들어 있는지 모르면 외부 서비스부터 검색하게 됩니다. Vision·Foundation Models·SpeechTranscriber·Natural Language·PDFKit·Shortcuts CLI — 이 목록만 알아도 “아까운 시간”이 사라집니다.
- 에이전트에게 “내장 우선”을 지시하세요 — “macOS 내장 프레임워크로 먼저 시도해줘” 한 줄이면, 에이전트가 스크립트 작성·실기기 검증·함정 회피까지 해냅니다. API라서 못 쓰는 게 아니라, API라서 에이전트가 쓰기 좋습니다.
- 비가역 결정만 사람이 — 삭제·외부 전송·배포는 HITL로 남기세요. 나머지는 맡겨도 됩니다. 복구점(git)과 휴지통 경유를 기본 규칙으로 걸어두면 안전합니다.