멀티 에이전트 개발의 본질은 속도가 아니라 태스크 분해 능력입니다. AI 에이전트 11명에게 스프린트를 통째로 맡긴 실험이, 코드를 잘 나누는 것이 AI 시대 PM의 핵심 역량임을 숫자로 증명했습니다.

바쁜 분을 위한 3줄 요약

① 아이템 9개를 에이전트 11명에게 병렬 분배 — 시간은 32% 단축(68분→46분), 토큰은 15% 증가(1,225K→1,409K)했습니다.
② 11명 중 3명이 실패했지만 최종 1,552개 테스트 전부 통과, 롤백 0건 — 85% 자동화 + 15% 감독의 결과입니다.
③ 독립 아이템 3개 이상이면 팀 모드, 파일이 겹치거나 아이템당 코드 라인 수(LOC) 50 미만이면 단독 모드입니다.

이 편이 답하는 질문

11명 AI 에이전트에게 9개 아이템을 병렬 분해했을 때, 시간은 32% 단축(68분→46분)되었지만 토큰은 15% 증가(1,225K→1,409K). 이 트레이드오프가 ROI 관점에서 합리적인 범위는 어디이며, 병렬화 오버헤드가 이득을 역전시키는 임계점은?
신규 파일 생성(CI·테스트)은 품질 높았지만 크로스 모듈 리팩토링은 품질 낮았던 의존성 패턴이 발견되었을 때, PM이 태스크 분해 단계에서 사전 감지할 체크리스트는?
11명 중 3명 실패(순환 참조·한국어 IME 버그·중간 중단)가 “에이전트 한계”인지 “PM의 분배 실패”인지 구분하는 기준은 무엇이고, Sprint 4의 “Task Subagent 방식”을 언제부터 적용해야 하는가?
최종 1,552 테스트 전부 통과·롤백 0건이라는 결과가 “85% 자동화 + 15% 감독”으로 이뤄졌다면, 그 15% 감독이 구체적으로 어디에 집중되었고, 이 비율을 30%로 올렸을 때의 품질 향상 가능성을 어떻게 측정하는가?

이 시리즈를 읽는 세 개의 눈

PO: 멀티 에이전트 병렬화는 속도 게임이 아니라 태스크 분해 능력 게임이므로, 빠른 실행보다 정확한 분해에 PM 에너지를 집중해야 한다.
PM: 아이템당 50 LOC 미만이면 오케스트레이션 오버헤드가 이득을 잡아먹고, 파일 겹침이 있으면 순환 참조 리스크가 급증하므로, 이 두 조건을 팀 모드/솔로 모드 게이트로 명시해야 한다.
PL: 신규 파일 생성과 크로스 모듈 리팩토링의 품질 격차는 에이전트가 “함수 이동”은 능숙하지만 “이동 후 부작용 분석”은 약한 구조적 한계에서 비롯되므로, 이를 명시적으로 감시하는 테스트를 설계해야 한다.

들어가며 · THE EXPERIMENT

스프린트를 통째로 맡겨봤습니다 — 되긴 됩니다, 조건이 있습니다

AI 소프트웨어 개발 수명주기(AI-SDLC)·Agentic Coding 주제로 또 하나의 실험을 했습니다. 혼자 순차적으로 할 일을 병렬로 쪼개서, 각각의 AI에게 동시에 시켰습니다. 결과는 흥미로웠습니다. 되긴 됩니다. 근데 조건이 있습니다.

프로젝트 파이프라인(모듈 54개, 테스트 1,426개)에 9가지 개선을 한꺼번에 적용하고 싶었습니다.

한꺼번에 적용한 9가지 개선
① 지속적 통합(CI) 커버리지 ② 보안 스캐닝 ③ 야간 엔드투엔드(E2E) 테스트 ④ 영문 가독성 지표 ⑤ 챕터 간 일관성 검증 ⑥ 대형 모듈 분할 ⑦ 멀티에이전트 테스트 보강 ⑧ HTML5 출력 ⑨ 에디터 피드백 루프

PART 1 · THE NUMBERS

혼자 68분, 팀 모드 46분 — 코드는 한 줄도 치지 않았습니다

4개 스프린트로 나눠 병렬 실행했습니다. 토큰은 15% 더 썼지만 시간은 32% 줄었습니다. 산출물은 파일 30개, +4,339/−1,704 LOC, 테스트 126개 추가. 저는 코드를 한 줄도 치지 않았습니다.

지표	단독 모드	팀 모드 (에이전트 11명)
소요 시간	68분	46분 (−32%)
토큰 사용량	1,225K	1,409K (+15%)
분당 처리량	18K tokens/분	30.6K tokens/분 (+70%)

PART 2 · FAILURE PATTERNS

11명 중 3명은 실패했습니다 — 실패에는 패턴이 있었습니다

에이전트가 반드시 성공하는 것은 아닙니다. 11명 중 3명이 문제를 일으켰습니다. 한 명은 2,768줄짜리 모듈을 분할하다 순환 참조를 만들었습니다. 의존성 그래프를 분석하지 못한 것이죠. 리더가 5분간 직접 수정해야 했습니다.

실패 사례	원인	조치
2,768줄 모듈 분할 중 순환 참조	의존성 그래프 미분석	리더가 5분간 직접 수정
tmux 명령 실행 깨짐	한국어 입력기(IME) 버그 — 명령에 “한글” 프리픽스	claude 공식 버그 리포트 제출
중간 중단	실행 중 정지	Task 에이전트로 전환 재실행

흥미로운 패턴이 보였습니다. 신규 파일 생성(CI 설정, 테스트)은 품질이 높았고, 크로스-모듈 리팩토링은 품질이 낮았습니다. 최종 결과는 1,552개 테스트 전체 통과, 롤백 0건. 하지만 멀티 에이전트는 100% 자동화가 아닙니다. 85% 자동화 + 15% 감독. 시스템 사고는 여전히 사람 몫입니다.

에이전트는 “함수를 옮겨라”는 잘하지만, “옮기면 뭐가 깨지는가”는 모릅니다.

PART 3 · PM’S NEW VALUE

“같은 파일을 건드리는가” — 질문 하나가 병렬화의 성패를 갈랐습니다

이번 실험에서 가장 크게 느낀 것은, 팀 모드에서 PM의 역할이 완전히 달라진다는 점이었습니다. “이 두 아이템이 같은 파일을 건드리는가?” — 이 질문 하나가 병렬화의 성패를 갈랐습니다. CI 설정 3종(독립 파일)은 에이전트 3명이 완벽하게 동시 처리했습니다. 반면 모듈 리팩토링(의존성 높음)은 에이전트가 만든 버그를 제가 직접 고쳐야 했습니다.

조건	판단
독립 아이템 3개 이상	팀 모드
파일이 겹침	단독 모드
아이템당 50 LOC 미만	단독 모드 — 오케스트레이션 오버헤드가 이득을 잡아먹음

하나 더 있습니다. tmux team 방식보다 Task subagent 방식이 오류가 적었습니다. Sprint 4가 Sprint 1-3보다 안정적이었습니다.

PART 4 · LESSON

코드를 잘 치는 것보다, 코드를 잘 나누는 것입니다

Agentic Coding에서 멀티 에이전트의 본질은 속도가 아닙니다. 태스크 분해 능력입니다. 즉 Architect/Domain/Spec 전문가가 일을 잘 쪼개면 32% 빨라집니다. 잘못 쪼개면 순환 참조를 디버깅하는 데 시간을 씁니다. 코드를 잘 나누는 것 — 그것이 AI 시대 PM의 핵심 역량이라는 것을, 이번 실험이 숫자로 증명했습니다.

핵심 요약
1. 병렬화 효과는 실측으로 확인 — 시간 32% 단축, 분당 처리량 70% 증가, 토큰 15% 증가. 2. 신규 파일 생성은 강하고 크로스-모듈 리팩토링은 약합니다 — 85% 자동화 + 15% 감독. 3. 팀 모드/단독 모드 게이트는 “독립 아이템 3개 이상 · 파일 겹침 여부 · 50 LOC”입니다.

#AgenticCoding #ClaudeCode #멀티에이전트 #AISDLC #TeamMode #AIPM

함께 읽기 · Related Posts

시리즈 네트워크에서 이 편과 연결된 글

A-1 · 실전 실험
AI 코딩 에이전트 시대, 거버넌스 없이 괜찮을까?
A-2 · 실전 실험
AI가 코딩하고, AI가 관리한 1주일의 기록
A-3 · 실전 실험
AI-SDLC 도입, 그 첫 실험의 소회
K-3 · 사고 체계
Karpathy의 autoresearch: PM에서의 적용 사례
K-5 · 사고 체계
Karpathy LLM OS 시각으로 본 AX PM/PL 역량 — Claude Code 소스의 교차 분석
P-0 · AI 인물 탐구
7인의 사고 체계 종합 프레임워크

AGENTIC PM 시리즈 — 전체 87편 · Lv1 활용→Lv2 워크플로→Lv3 빌드→Lv4 거버넌스 · 10분야 보기 →

🧭 길잡이·수렴 (전체 진입)

🧱 개념·프레임워크 (Lv2–3)

🔄 역할·역량 전환 (Lv1–2)

🧠 사고 체계 (Lv2–3)

👤 AI 인물·리더 (Lv1)

📈 AX 전략·조직 전환 (Lv4)

🏢 현장 검증·사례 (Lv1–4)

🔧 하네스·에이전트·RAG 구축 (Lv3)

🧪 AI 개발·SDLC 실험 (Lv3)

⚖️ 모델·도구·맥 환경 실측 (Lv3)

🏛️ 공공·SI 사업관리 (Lv2–4)

검색

RSS 구독

[AI 멀티 에이전트 개발 효과성 분석]

스프린트를 통째로 맡겨봤습니다 — 되긴 됩니다, 조건이 있습니다

혼자 68분, 팀 모드 46분 — 코드는 한 줄도 치지 않았습니다

11명 중 3명은 실패했습니다 — 실패에는 패턴이 있었습니다

“같은 파일을 건드리는가” — 질문 하나가 병렬화의 성패를 갈랐습니다

코드를 잘 치는 것보다, 코드를 잘 나누는 것입니다

시리즈 네트워크에서 이 편과 연결된 글

이 글 공유하기:

이것이 좋아요:

Project Research에서 더 알아보기