
멀티 에이전트 개발의 본질은 속도가 아니라 태스크 분해 능력입니다. AI 에이전트 11명에게 스프린트를 통째로 맡긴 실험이, 코드를 잘 나누는 것이 AI 시대 PM의 핵심 역량임을 숫자로 증명했습니다.
① 아이템 9개를 에이전트 11명에게 병렬 분배 — 시간은 32% 단축(68분→46분), 토큰은 15% 증가(1,225K→1,409K)했습니다.
② 11명 중 3명이 실패했지만 최종 1,552개 테스트 전부 통과, 롤백 0건 — 85% 자동화 + 15% 감독의 결과입니다.
③ 독립 아이템 3개 이상이면 팀 모드, 파일이 겹치거나 아이템당 코드 라인 수(LOC) 50 미만이면 단독 모드입니다.
- 11명 AI 에이전트에게 9개 아이템을 병렬 분해했을 때, 시간은 32% 단축(68분→46분)되었지만 토큰은 15% 증가(1,225K→1,409K). 이 트레이드오프가 ROI 관점에서 합리적인 범위는 어디이며, 병렬화 오버헤드가 이득을 역전시키는 임계점은?
- 신규 파일 생성(CI·테스트)은 품질 높았지만 크로스 모듈 리팩토링은 품질 낮았던 의존성 패턴이 발견되었을 때, PM이 태스크 분해 단계에서 사전 감지할 체크리스트는?
- 11명 중 3명 실패(순환 참조·한국어 IME 버그·중간 중단)가 “에이전트 한계”인지 “PM의 분배 실패”인지 구분하는 기준은 무엇이고, Sprint 4의 “Task Subagent 방식”을 언제부터 적용해야 하는가?
- 최종 1,552 테스트 전부 통과·롤백 0건이라는 결과가 “85% 자동화 + 15% 감독”으로 이뤄졌다면, 그 15% 감독이 구체적으로 어디에 집중되었고, 이 비율을 30%로 올렸을 때의 품질 향상 가능성을 어떻게 측정하는가?
- PO: 멀티 에이전트 병렬화는 속도 게임이 아니라 태스크 분해 능력 게임이므로, 빠른 실행보다 정확한 분해에 PM 에너지를 집중해야 한다.
- PM: 아이템당 50 LOC 미만이면 오케스트레이션 오버헤드가 이득을 잡아먹고, 파일 겹침이 있으면 순환 참조 리스크가 급증하므로, 이 두 조건을 팀 모드/솔로 모드 게이트로 명시해야 한다.
- PL: 신규 파일 생성과 크로스 모듈 리팩토링의 품질 격차는 에이전트가 “함수 이동”은 능숙하지만 “이동 후 부작용 분석”은 약한 구조적 한계에서 비롯되므로, 이를 명시적으로 감시하는 테스트를 설계해야 한다.
스프린트를 통째로 맡겨봤습니다 — 되긴 됩니다, 조건이 있습니다
AI 소프트웨어 개발 수명주기(AI-SDLC)·Agentic Coding 주제로 또 하나의 실험을 했습니다. 혼자 순차적으로 할 일을 병렬로 쪼개서, 각각의 AI에게 동시에 시켰습니다. 결과는 흥미로웠습니다. 되긴 됩니다. 근데 조건이 있습니다.
프로젝트 파이프라인(모듈 54개, 테스트 1,426개)에 9가지 개선을 한꺼번에 적용하고 싶었습니다.
① 지속적 통합(CI) 커버리지 ② 보안 스캐닝 ③ 야간 엔드투엔드(E2E) 테스트 ④ 영문 가독성 지표 ⑤ 챕터 간 일관성 검증 ⑥ 대형 모듈 분할 ⑦ 멀티에이전트 테스트 보강 ⑧ HTML5 출력 ⑨ 에디터 피드백 루프
혼자 68분, 팀 모드 46분 — 코드는 한 줄도 치지 않았습니다
4개 스프린트로 나눠 병렬 실행했습니다. 토큰은 15% 더 썼지만 시간은 32% 줄었습니다. 산출물은 파일 30개, +4,339/−1,704 LOC, 테스트 126개 추가. 저는 코드를 한 줄도 치지 않았습니다.
11명 중 3명은 실패했습니다 — 실패에는 패턴이 있었습니다
에이전트가 반드시 성공하는 것은 아닙니다. 11명 중 3명이 문제를 일으켰습니다. 한 명은 2,768줄짜리 모듈을 분할하다 순환 참조를 만들었습니다. 의존성 그래프를 분석하지 못한 것이죠. 리더가 5분간 직접 수정해야 했습니다.
흥미로운 패턴이 보였습니다. 신규 파일 생성(CI 설정, 테스트)은 품질이 높았고, 크로스-모듈 리팩토링은 품질이 낮았습니다. 최종 결과는 1,552개 테스트 전체 통과, 롤백 0건. 하지만 멀티 에이전트는 100% 자동화가 아닙니다. 85% 자동화 + 15% 감독. 시스템 사고는 여전히 사람 몫입니다.
에이전트는 “함수를 옮겨라”는 잘하지만, “옮기면 뭐가 깨지는가”는 모릅니다.
“같은 파일을 건드리는가” — 질문 하나가 병렬화의 성패를 갈랐습니다
이번 실험에서 가장 크게 느낀 것은, 팀 모드에서 PM의 역할이 완전히 달라진다는 점이었습니다. “이 두 아이템이 같은 파일을 건드리는가?” — 이 질문 하나가 병렬화의 성패를 갈랐습니다. CI 설정 3종(독립 파일)은 에이전트 3명이 완벽하게 동시 처리했습니다. 반면 모듈 리팩토링(의존성 높음)은 에이전트가 만든 버그를 제가 직접 고쳐야 했습니다.
하나 더 있습니다. tmux team 방식보다 Task subagent 방식이 오류가 적었습니다. Sprint 4가 Sprint 1-3보다 안정적이었습니다.
코드를 잘 치는 것보다, 코드를 잘 나누는 것입니다
Agentic Coding에서 멀티 에이전트의 본질은 속도가 아닙니다. 태스크 분해 능력입니다. 즉 Architect/Domain/Spec 전문가가 일을 잘 쪼개면 32% 빨라집니다. 잘못 쪼개면 순환 참조를 디버깅하는 데 시간을 씁니다. 코드를 잘 나누는 것 — 그것이 AI 시대 PM의 핵심 역량이라는 것을, 이번 실험이 숫자로 증명했습니다.
1. 병렬화 효과는 실측으로 확인 — 시간 32% 단축, 분당 처리량 70% 증가, 토큰 15% 증가. 2. 신규 파일 생성은 강하고 크로스-모듈 리팩토링은 약합니다 — 85% 자동화 + 15% 감독. 3. 팀 모드/단독 모드 게이트는 “독립 아이템 3개 이상 · 파일 겹침 여부 · 50 LOC”입니다.
![[AI 멀티 에이전트 개발 효과성 분석]](https://i0.wp.com/projectresearch.co.kr/wp-content/uploads/2026/03/20260228-ai-%EB%A9%80%ED%8B%B0-%EC%97%90%EC%9D%B4%EC%A0%84%ED%8A%B8-%EA%B0%9C%EB%B0%9C-%ED%9A%A8%EA%B3%BC%EC%84%B1-%EB%B6%84%EC%84%9D-0002-17873960841539513.jpg?ssl=1)
![[AI 멀티 에이전트 개발 효과성 분석]](https://i0.wp.com/projectresearch.co.kr/wp-content/uploads/2026/03/ig-repair-e9e5dd35c187e1b0-1.jpg?ssl=1)
![[AI 멀티 에이전트 개발 효과성 분석]](https://i0.wp.com/projectresearch.co.kr/wp-content/uploads/2026/03/ig-repair-e9e5dd35c187e1b0-1-1.jpg?ssl=1)
![[AI 멀티 에이전트 개발 효과성 분석]](https://i0.wp.com/projectresearch.co.kr/wp-content/uploads/2026/03/ig-repair-e9e5dd35c187e1b0-2.jpg?ssl=1)
![[AI 멀티 에이전트 개발 효과성 분석]](https://i0.wp.com/projectresearch.co.kr/wp-content/uploads/2026/03/ig-repair-e9e5dd35c187e1b0-3.jpg?ssl=1)
#AgenticCoding #ClaudeCode #멀티에이전트 #AISDLC #TeamMode #AIPM
시리즈 네트워크에서 이 편과 연결된 글
- A-1 · 실전 실험
AI 코딩 에이전트 시대, 거버넌스 없이 괜찮을까? - A-2 · 실전 실험
AI가 코딩하고, AI가 관리한 1주일의 기록 - A-3 · 실전 실험
AI-SDLC 도입, 그 첫 실험의 소회 - K-3 · 사고 체계
Karpathy의 autoresearch: PM에서의 적용 사례 - K-5 · 사고 체계
Karpathy LLM OS 시각으로 본 AX PM/PL 역량 — Claude Code 소스의 교차 분석 - P-0 · AI 인물 탐구
7인의 사고 체계 종합 프레임워크
- K-1 Agentic 시대, PM의 온톨로지맵 — Obsidian을 통해 나만의 RAG를 만드는 법
- K-2 Karpathy의 LLM과 Obsidian 지식 결합
- K-3 Karpathy의 autoresearch: PM에서의 적용 사례
- K-4 Karpathy: AI의 사고 체계를 PM에 어떻게 적용할까?
- K-5 Karpathy LLM OS 시각으로 본 AX PM/PL 역량 — Claude Code 소스 교차 분석
- K-6 30시간 RAG 실측 — Karpathy llm-wiki vs obsidian-vault 양강 비교
- K-7 구글 OKF·Obsidian Vault·llm-wiki — 무엇을 어떻게 시작할까
- P-0 7인의 사고 체계 종합 프레임워크
- P-1 Karpathy: 제약 설계 + 닫힌 루프
- P-2 Sutskever: 압축이 곧 지능이다
- P-3 Hassabis: 제1원리 분해
- P-4 LeCun: 세계 모델 + 예측
- P-5 Hinton: 거버넌스 + 자기부정
- P-6 Ng: AI 전환 플레이북
- P-7 Fei-Fei Li: 인간중심 설계
- P-8 Builders 종합: Boris·Cat·Truell·Masad·Murati·Brockman
- P-9 Operators 종합: Altman·Amodei·Nadella·Pichai·Zuckerberg·Suleyman
- P-10 Hardware 양강: Jensen Huang · Lisa Su
- S-1 Agentic PM의 시대가 열리다 — LG전자 SW PM 워크숍을 마치며
- S-2 삼성전자 PMC: AI와 함께하는 PM 교육 혁신
- S-3 SKT Agent 도출을 위한 AI 퍼실리테이션 기법
- S-4 리스크는 그릇이었다 — LG전자 SW공학연구소 GenAI RISK 워크숍 NEW
- S-5 코드 한 줄 없이 손익관리팀이 만든 에이전트 — 신한EZ손해보험 NEW
- S-6 “어디까지 입력해도 되나요?” — 삼성 구매 현장의 Agentic 각성 NEW
- S-7 지금 Agentic으로 전환해야 하는 이유 — 삼성·LG·KT·Clean&Science 300여 분의 증명 NEW
- G-1 삼성전자 GAUSS PM Agent: 효과적 설계로 주니어 PM 지원하기
- G-2 주니어 PM 위한 AI 하네스 구축 가이드
- G-3 대기업 직장인을 위한 AI Agent & Skill 추천 가이드 2026
- G-4 삼성 DX 엔지니어를 위한 Codex 온보딩 — 하네스 & 개인 RAG
- A-1 AI 코딩 에이전트 시대, 거버넌스 없이 괜찮을까?
- A-2 AI가 코딩하고, AI가 관리한 1주일의 기록
- A-3 AI-SDLC 도입, 그 첫 실험의 소회
- A-4 AI 멀티 에이전트 개발 효과성 분석
- A-5 Fable 5와 보낸 첫 하루 — 모델 × 하네스 × RAG 실측 회고
- A-6 맥은 이미 AI 워크스테이션 — 사진·노트·인박스 0원 정리
- A-7 Mac@Work 2026 — 맥 20년차의 도구 모음과 Agentic 카테고리
- CC-3 Opus xhigh 솔로 vs ultracode 멀티에이전트 — 작업유형별 A/B 실측
- CC-4 내 노트 4만 개 검색 — LLM 직접 읽기 vs 전용 CLI, 하이브리드 5.5배
- CC-5 Obsidian 노트를 앱 없이 검색 — 오픈소스 byeori(벼리)
- CC-6 사내 지식을 RAG로 — 망분리·토큰0 6단계