macOS 내장 엔진 × 에이전트 — 트래픽 라이트 윈도우와 Dock이 보이는 macOS 데스크톱 화면 안에 이미지 OCR·온디바이스 LLM·음성 텍스트 변환·문서 구조화 4개 엔진 타일이 떠 있고, AGENT 로봇 암이 앰버색 제어선으로 Dock 아이콘들을 지휘하는 MacBook 아이소메트릭 일러스트, 7,309 카드 카운터 (AX Series)

외부 OCR 서비스를 찾아 헤매던 시간이 아까웠습니다. macOS 안에는 한국어 OCR·온디바이스 LLM·음성 전사가 이미 들어 있었고, 이 내장 엔진들을 “부릴” 에이전트만 있으면 하루 만에 파이프라인 3개가 만들어집니다. 내장 Agentic 기능 × Agentic 도구 — 이 곱셈이 이 글의 결론입니다. (AX 시리즈)

바쁜 분을 위한 3줄 요약

① macOS 내장 Vision 프레임워크의 OCR(광학 문자 인식)만으로 스크린샷 7,384장을 전수 처리 — 7,309장(99%)을 텍스트로 추출해 지식 베이스로 이관했습니다. 무인 4시간 50분, 비용 0원, 외부 전송 0건.
② 같은 날 에이전트가 3개 프로그램을 추가로 작성 — 온디바이스 LLM(거대 언어 모델) 태깅 7,309건(Foundation Models), 강의 녹음→한국어 회의록(SpeechTranscriber), 표 구조 보존 스캔(RecognizeDocumentsRequest). 전부 무료·로컬입니다.
③ 핵심은 도구가 아니라 작업 방식입니다 — “인박스 915건을 분류해줘” 한 문장에 에이전트가 베스트 프랙티스 리서치 → 결정 트리 설계 → 87건 평가·이동 → 검증·커밋까지 약 15분에 수행했고, 사람은 방향 제시와 비가역 결정(삭제)만 맡았습니다.

들어가며

“몰라서 아까웠던 시간” — 제 맥 안에 이미 있었습니다

고백부터 하겠습니다. 저는 그동안 스크린샷에서 텍스트를 뽑을 일이 있으면 외부 OCR 도구를 검색했습니다. 웹 서비스에 이미지를 올리고, 변환 품질에 실망하고, 한국어 지원 여부를 따지고… 그렇게 쓴 시간이 있습니다.

그런데 macOS 26 기준으로, 제 맥 안에는 이미 이런 것들이 들어 있었습니다.

Vision — 한국어 OCR (정확도 모드 + 언어 보정), 문서 구조(표) 인식, 배경 제거
Foundation Models — 약 3B 파라미터 온디바이스 LLM (요약·추출·구조화 출력, 한국어 지원)
SpeechTranscriber — 장시간 오디오 한국어 전사 (ko-KR 온디바이스)
Natural Language — 한국어 의미 임베딩 (NLContextualEmbedding)

전부 무료이고, 전부 온디바이스입니다. 사진 한 장도 외부 서버로 나가지 않습니다. 문제는 단 하나 — 이 엔진들은 API(응용 프로그램 인터페이스)로만 존재해서, 스크립트를 짜야 쓸 수 있다는 것입니다. 그리고 바로 그 지점에서 Agentic 도구(저의 경우 Claude Code)가 곱해집니다. 스크립트는 에이전트가 짜면 되니까요.

이 글은 2026년 6월 10일 하루 동안 이 조합으로 사진 7,384장, Apple Notes 705건, Obsidian 인박스 915건을 정리한 실측 기록입니다.

PART 1 · VISION OCR

스크린샷 7,384장, 99% 이관, 0원 — 그리고 에이전트가 스스로 단 서킷브레이커

시작은 사진 앨범 정리였습니다. 제 사진 라이브러리에는 “정보를 위해 찍은” 스크린샷 — 강의 자료, 영수증, 카톡 캡처, 지도, 예약 확인 — 이 7,384장 쌓여 있었습니다. 기억의 공간(앨범)에 정보가 쌓이는 전형적인 문제입니다.

에이전트가 작성한 파이프라인은 단순합니다. Photos 앱에서 스크린샷을 AppleScript로 내보내고 → Vision의 한국어+영어 정확도 모드로 텍스트를 추출하고 → 40자 이상 의미 있는 텍스트가 나오면 월별 markdown 파일로 지식 베이스에 이관합니다.

표 1 · Vision OCR 파이프라인 실측 결과

지표	수치
처리	7,384장 전수
텍스트 추출·이관	7,309장 (99.0%)
사진으로 보존 / 오류	75장 / 0건
산출물	월별 markdown 126개 파일 (7.8MB)
수행시간	4시간 50분 (Photos 장애 복구 포함 · 무인 가동)
비용 / 외부 전송	0원 / 0건

Source: 파이프라인 상태 로그(_state.jsonl) 집계 · 2026-06-10 필자 실측.

한국어 인식 품질은 체감상 유료 서비스와 구분이 어려웠습니다. 손글씨가 아닌 화면 캡처 기준으로는 사실상 완벽에 가깝고, 표가 섞인 이미지도 줄 단위로는 정확히 읽습니다.

Agentic 도구의 진가가 드러난 장면 — 처리 도중 Photos 앱 상태가 나빠지면서 내보내기가 조용히 0건을 반환하기 시작했습니다. 오류도 없이 4,513장이 헛돌았습니다. 에이전트는 로그에서 이 패턴을 감지하고, 서킷브레이커(연속 오류 15건이면 Photos 재시작, 30건이면 중단)를 스스로 코드에 추가한 뒤 재가동해 끝까지 완주했습니다. 사람이 했다면 “왜 안 되지”로 한나절을 썼을 일입니다.

PART 2 · 3 PIPELINES

같은 날 만든 프로그램 3건 — 내장 엔진은 OCR만이 아닙니다

이관이 끝나자 욕심이 생겼습니다. “Vision이 이 정도면, 다른 내장 엔진들은?” 에이전트에게 macOS 내장 AI 프레임워크 Top 10을 리서치시키고, 그중 3개를 당일 파이프라인으로 구축했습니다.

① capture-tag — 온디바이스 LLM이 7,309건을 분류했습니다 (Foundation Models)

이관된 OCR 텍스트 7,309건을 macOS 내장 LLM(약 3B 파라미터)에게 전건 분류시켰습니다. 항목마다 주제 태그 1~3개, 한 줄 요약, 그리고 처분 판정(승격=지식으로 재사용 / 보관=참고용 / 폐기후보=시효 지남)을 구조화 출력(JSON 스키마 강제)으로 받았습니다.

결과 (실측): 승격 5,314 · 보관 1,985 · 폐기후보 10. 상위 태그는 건강 899 · 여행 687 · 프로젝트관리 482 · AI 477 — 제 삶의 관심사 분포가 그대로 드러났습니다. 수행시간은 정확히 2시간 0분(건당 약 1초, 백그라운드 무인 가동)이었고, 클라우드 LLM이었다면 7,309회 호출 비용이 들었을 작업이 0원입니다.

정직한 한계도 적습니다. OCR 잡음이 심한 텍스트는 모델이 언어 가드로 거부(약 29%)해서, 에이전트가 한글+영문만 남기는 정제 후 재시도 → 그래도 안 되면 “미분류·보관” 폴백 처리하는 2단 로직을 추가했습니다(미분류 826건). 소형 모델은 범용 지식 질의에는 부적합하고, 요약·추출·분류가 적정 용도입니다. 또 승격 비율 82%는 소형 모델의 관대한 판정으로 보이며, 태그 축 재검토를 운영 과제로 남겼습니다.

② lecture-transcribe — 강의 녹음이 한국어 회의록 초안이 됩니다 (SpeechTranscriber)

macOS 26의 SpeechTranscriber는 ko-KR을 포함한 30개 로케일을 온디바이스로 전사합니다. 녹음 파일(m4a)을 내장 도구로 16kHz wav로 정규화 → 전사 → 8개 섹션 회의록 markdown 초안까지 한 명령으로 잇는 파이프라인을 만들었습니다. 강사인 저에게는 “워크숍 녹음 → 복기 노트”가 통째로 자동화된 셈입니다.

여기에도 함정이 둘 있었습니다 — 한국어 모델 자산은 첫 사용 전 1회 다운로드가 필요하고, volatileResults 옵션을 켜지 않으면 최종 결과가 아예 산출되지 않습니다. 둘 다 에이전트가 공식 API 문서와 실기기 검증으로 잡아냈습니다.

③ photo-ocr-docscan — 표를 “표인 채로” 추출합니다 (RecognizeDocumentsRequest)

①의 일반 OCR은 표를 줄글로 풀어버립니다. macOS 26의 신형 Vision API는 문서의 구조(문단·표·리스트)를 계층으로 반환합니다. 영수증·일정표·평가표 이미지를 넣으면 markdown 표로 그대로 나오는 v2 엔진을 만들었습니다. 셀 단위 한국어도 정확했고, 현재 v1 안정 운영 후 엔진 교체 대기 중입니다.

표 2 · 함정 노트 — 에이전트가 하루에 밟고 지나간 것들

함정	증상	해법
Photos 조용한 실패	내보내기가 오류 없이 0건 반환	서킷브레이커 (15건 연속 → 앱 재시작)
Foundation Models 매크로	구조화 출력 매크로가 단일 파일 스크립트에서 불가	동적 스키마(DynamicGenerationSchema)로 우회
FM 언어 가드	OCR 잡음 입력을 언어 미지원으로 거부	한글+영문 정제 재시도 + 폴백
SpeechTranscriber 무음	최종 전사 결과 미산출	volatileResults 활성 + 16kHz 정규화

Source: 필자 파이프라인 구축 로그 · 2026-06-10 · 전부 실기기 재현 검증.

이 표가 사실 이 글에서 가장 실용적인 부분일지도 모릅니다 — 그리고 이 함정들을 문서 검색·실기기 테스트·코드 수정의 루프로 혼자 통과한 것이 에이전트라는 점이 Part 3의 주제입니다.

PART 3 · AGENTIC EFFECT

“분류해줘” 한 문장이 보고서가 되기까지 — Agentic 효과의 본체

같은 날 마지막 작업은 Obsidian 지식 베이스의 인박스 정리였습니다. 제가 입력한 지시는 사실상 한 문장입니다.

“00_Inbox 내용들을 분석하여 자료로서의 가치가 있는 것과 없는 것을 분류해줘. 이를 위한 Top 10 베스트 프랙티스를 리서치해주고, 해당 로직에 맞춰 평가 및 분류이동 시켜줘.”

에이전트가 수행한 것은 다음과 같습니다.

리서치 — PARA(행동 가능성 우선)·BASB(보존 4기준)·Zettelkasten(수집가의 오류 경계)·GTD(2분 룰) 등 PKM(개인 지식 관리) 베스트 프랙티스 Top 10을 출처와 함께 수집
설계 — 제 폴더 체계에 맞춘 7노드 가치 판정 결정 트리 합성
실행 — 87개 노트 전수 평가 → 71건 이동 · 18건 폐기후보 분리. 이동 전 git 복구점 커밋, 폐기는 영구 삭제가 아닌 휴지통 보존
검증 — 중복 의심은 파일명·크기가 아니라 본문 diff 실측으로 판정 (3중 중복 클러스터 2개 발견 — 더 발전된 정본이 이미 다른 폴더에 있었습니다), 허브 노트의 깨진 링크 4건 보정, 전역 잔존 깨진 참조 0 확인

이 네 단계 전체 — 지시 입력부터 베스트 프랙티스 리서치, 87건 평가·이동, 검증·커밋까지 — 에 걸린 시간은 약 15분입니다. 사람이 직접 했다면 리서치만으로 반나절이 갔을 일입니다.

제가 한 일은 두 가지뿐입니다 — 방향을 정한 것, 그리고 비가역 결정에 개입한 것. 사진 7,309장의 최종 삭제는 에이전트가 휴지통 후보를 앨범으로 모아주면 제가 직접 확인하고 지웠습니다. HITL(Human-in-the-Loop, 사람 개입 확정) — 되돌릴 수 없는 결정은 사람이 맡는다는 원칙은 이런 개인 데이터 작업에서도 그대로 유효합니다.

이 흐름이 제가 말하는 Agentic 효과입니다. 도구 하나하나(OCR, LLM, 전사)는 “기능”이지만, 리서치→설계→실행→검증을 잇고 장애에서 스스로 복구하는 것은 “에이전트”입니다. macOS가 전자를 무료로 내장하고 있고, Agentic 도구가 후자를 맡으면 — 둘의 곱이 하루치 산출물이 됩니다.

결론

내장 Agentic 기능 × Agentic 도구

표 3 · 하루의 수지 결산

작업	규모	엔진	수행시간	비용
스크린샷 OCR 이관	7,384장 → 7,309건	Vision	4시간 50분 (무인)	0원
온디바이스 LLM 태깅	7,309건	Foundation Models	2시간 0분 (무인)	0원
Apple Notes 이관·삭제	705건 → 700 md	JXA + pandoc	약 20분	0원
강의 전사 파이프라인	구축 완료	SpeechTranscriber	당일 구축	0원
표 구조 스캔 v2	구축 완료	Vision (신형)	당일 구축	0원
인박스 전수 분류	87건 평가 · 71건 이동	에이전트 + 리서치	약 15분	LLM 사용분

Source: 필자 실측 · 2026-06-10 하루 기준 · 수행시간은 세션 로그·산출물 타임스탬프 기준.

수행시간에서 주목할 점은 무인(無人)이라는 단어입니다. 사진 4시간 50분과 태깅 2시간은 제가 다른 일을 하는 동안 백그라운드에서 돌았고, 제 실제 투입 시간은 지시·중간 확인·비가역 승인을 합쳐 30분 남짓입니다. “수행시간 7시간”이 아니라 “내 시간 30분에 7시간어치 처리”가 정확한 독법입니다.

실천 제안은 세 줄입니다.

인벤토리부터 — 내 맥에 뭐가 들어 있는지 모르면 외부 서비스부터 검색하게 됩니다. Vision·Foundation Models·SpeechTranscriber·Natural Language·PDFKit·Shortcuts CLI — 이 목록만 알아도 “아까운 시간”이 사라집니다.
에이전트에게 “내장 우선”을 지시하세요 — “macOS 내장 프레임워크로 먼저 시도해줘” 한 줄이면, 에이전트가 스크립트 작성·실기기 검증·함정 회피까지 해냅니다. API라서 못 쓰는 게 아니라, API라서 에이전트가 쓰기 좋습니다.
비가역 결정만 사람이 — 삭제·외부 전송·배포는 HITL로 남기세요. 나머지는 맡겨도 됩니다. 복구점(git)과 휴지통 경유를 기본 규칙으로 걸어두면 안전합니다.

개인 데이터(사진·노트·녹음)는 클라우드에 올리기 가장 망설여지는 자산입니다. 그래서 역설적으로, 온디바이스 AI가 가장 빛나는 곳도 개인 데이터입니다. 당신의 맥은 이미 AI 워크스테이션입니다 — 부릴 에이전트만 곁에 두시면 됩니다.

Source: 필자 실측 (2026-06-10, macOS 26.5.1) — 파이프라인 스크립트 6종 · 상태 로그(이관 7,309/보존 75) · 온디바이스 태깅 집계(승격 5,314/보관 1,985/폐기후보 10) · 지식 베이스 커밋 2건. 수행시간은 세션 로그·산출물 파일 타임스탬프 실측 기준입니다(사진 11:01→15:53 · Notes 11:22→11:41 · 태깅 17:23→19:23 · 인박스 19:29→19:43 KST). 프레임워크 가용성·한국어 지원은 전부 본 머신 실기기 검증 기준이며, macOS 26 미만 버전에서는 Foundation Models·SpeechTranscriber·RecognizeDocumentsRequest가 제공되지 않습니다.

👉 함께 읽기 — Mac@Work 2026 — 맥 20년차 유저의 도구 모음 (Mac@Life 2013·Mac@Work 2018 시리즈 3차)

AGENTIC PM 시리즈 — 전체 80편 · Lv1 활용→Lv2 워크플로→Lv3 빌드→Lv4 거버넌스 · 10분야 보기 →

🧭 길잡이·수렴 (전체 진입)

🧱 개념·프레임워크 (Lv2–3)

🔄 역할·역량 전환 (Lv1–2)

🧠 사고 체계 (Lv2–3)

👤 AI 인물·리더 (Lv1)

📈 AX 전략·조직 전환 (Lv4)

🏢 현장 검증·사례 (Lv1–4)

🔧 하네스·에이전트·RAG 구축 (Lv3)

🧪 AI 개발·SDLC 실험 (Lv3)

⚖️ 모델·도구·맥 환경 실측 (Lv3)

🏛️ 공공·SI 사업관리 (Lv2–4)

당신의 맥은 이미 AI 워크스테이션입니다 — 사진 7,384장·노트 705건·인박스 915건을 0원으로 정리한 하루

“몰라서 아까웠던 시간” — 제 맥 안에 이미 있었습니다

스크린샷 7,384장, 99% 이관, 0원 — 그리고 에이전트가 스스로 단 서킷브레이커

같은 날 만든 프로그램 3건 — 내장 엔진은 OCR만이 아닙니다

① capture-tag — 온디바이스 LLM이 7,309건을 분류했습니다 (Foundation Models)

② lecture-transcribe — 강의 녹음이 한국어 회의록 초안이 됩니다 (SpeechTranscriber)

③ photo-ocr-docscan — 표를 “표인 채로” 추출합니다 (RecognizeDocumentsRequest)

“분류해줘” 한 문장이 보고서가 되기까지 — Agentic 효과의 본체

내장 Agentic 기능 × Agentic 도구

이 글 공유하기:

이것이 좋아요:

Project Research에서 더 알아보기