Vibe Coding은 워밍업이었다 — Agentic Engineering 전환과 PO·PM·PL의 가드레일

📌 2026-05-28 갱신 안내 · revision_cycle v3

본 글은 Vibe Coding → Agentic Engineering 전환 영역의 2026년 5월 시그널을 반영해 본문 약 50%+를 재작성한 v3 개정본입니다. 2026-04-18 v2 발행본 이후 1개월 사이 발생한 구조적 시그널을 통합하면서 다음 프레임 전환을 적용했습니다.

프레임 전환: 구판 ‘Vibe Coding 가드레일’은 ‘초기 가드레일 · 2025년 봄 기준’으로 재라벨링 → 본 게임 룰은 ‘Agentic Engineering 위임 5단계 게이트(G1~G5)’로 전환

통합된 1개월 시그널 (09편 월간 관전포인트 2026-05에서 도출):

#9 Karpathy paradigm 종언 (2026-05-01) — Sequoia AI Ascent 2026 — Vibe Coding은 워밍업이었다 → Agentic Engineering. Software 1.0/2.0/3.0 framing. 위임 비율 80%로 역전 (출처)
#1 Claude Opus 4.7 + #2 Codex 모바일 GA + #3 Antigravity 2.0 + #5 Devin/Windsurf — 빅테크 4사 + Cognition 5사가 모두 채택한 IDE+CLI+SDK+Managed Agents+Enterprise 5채널 동시 출시 패턴 (출처)

갱신 일자 2026-05-28 · 갱신 근거 추적은 09편 월간 관전포인트 — 1개월 시그널 13선 카드에서 1차 인용을 함께 확인하실 수 있습니다.

PM 코치가 해석하는 Agentic PM 시리즈 · 3편 “Karpathy가 2026-05-01 Sequoia AI Ascent에서 선언한 paradigm 전환을 PO·PM·PL의 위임 게이트로 옮깁니다”

2026년 5월 1일, Karpathy는 Sequoia AI Ascent 2026 무대에서 한 문장을 남겼습니다. “Vibe coding was the warmup. Agentic Engineering is here.” 그가 같은 자리에서 제시한 숫자는 더 단호했습니다 — “자가 작성 vs 위임 비율이 80%가 위임으로 뒤집힌 시점이 2025년 12월이었고, 그 변곡점 이후 프로페셔널 워크플로의 default가 완전히 바뀌었습니다” 출처. 같은 발표를 The New Stack은 “vibe coding은 이제 passé”로 출처, AIntelligence Hub는 “Karpathy: Vibe Coding to Agent Workflows”로 옮겼습니다 출처. Karpathy는 같은 무대에서 새 명명법까지 함께 제시했습니다. Software 1.0(명시적 코드)·2.0(신경망 학습)·3.0(LLM interpreter prompting). “이제 우리는 Software 3.0에서 코드를 쓰는 것이 아니라, LLM이라는 인터프리터에 자연어로 명령을 내리고 그 결과를 감독합니다” 출처.

이 선언은 같은 시기 4사 동시 사건과 맞물려 의미가 증폭됩니다. 2026-04-16 Claude Opus 4.7이 xhigh effort level과 Managed Agents private MCP sandbox를 함께 정식 출시했고 출처, 2026-05-14 OpenAI Codex가 mobile GA + Desktop Agent + 90+ plugin/MCP server 동시 출시로 background computer use 시대를 열었으며 출처, 2026-05-19 Google I/O 2026에서 Antigravity 2.0이 IDE+CLI(agy)+SDK+Managed Agents+Enterprise 5채널 동시 출시로 등판했습니다 출처. 한 달 전인 2026-04-15·23에는 Cognition이 Windsurf 2.0에 Devin을 내장하고 $25B valuation을 확정했습니다 출처. 빅테크 4사 + Cognition이 모두 IDE+CLI+SDK+Managed Agents+Enterprise라는 5채널 동시 출시 패턴을 채택한 것은 우연이 아닙니다 — Karpathy가 선언한 “위임 80%”가 도구 생태계에서 같은 방향으로 구체화된 것입니다.

PM 코치로서 저는 이 사건들을 한 문장으로 해석합니다. “이제 vibe·agentic의 경계선이 아니라, 위임의 5단계 게이트가 의제입니다.” 2025년 봄에 제가 코칭에서 반복했던 “vibe는 프로토타입까지, 엔터프라이즈는 가드레일부터” 문장은 여전히 유효하지만, 그 문장은 이제 워밍업의 룰이 되었습니다. 본 게임의 룰은 “에이전트에게 무엇을 어떤 순서로 위임할 것인가, 그리고 그 위임이 자가검증(self-verification)까지 닫히는가”입니다. 이 편에서는 그 본 게임의 룰을 Karpathy 5-step(계획·도구 사용·실행·자가검증·반복)을 PMBOK 8 위임 절차에 결합한 5단계 게이트로 풀어 드리고, 빅테크 4사 + Cognition의 5채널 동시 출시 매트릭스를 에이전트 코딩 도구 채택 시점 결단표로 변환합니다.

이 글은 Agentic PM 시리즈 마감편 8편 중 3편(시리즈 누적 37번째)입니다. 기존 34편에서 K-3 “Karpathy의 autoresearch: PM에서의 적용 사례” 가 루프 설계 철학을, K-4 “Karpathy: AI의 사고 체계를 PM에 어떻게 적용할까” 가 사고 체계를 다뤘습니다. 또 A-1 “AI 코딩 에이전트 거버넌스” 와 A-2 “AI가 코딩하고 AI가 관리한 1주일의 기록” 은 실전 거버넌스·프로덕션 일지의 원전입니다. 이 편은 그 위에 Agentic Engineering 위임 5단계 게이트 + 빅테크 4사 5채널 동시 출시 매트릭스 + 5층 가드레일 + OWASP ASI 매트릭스를 L3→L5 역량 래더로 통합합니다. 매월 1회 갱신되는 신호 흐름은 09편 「월간 관전포인트 2026-05」를 함께 참고해 주십시오.

이 편이 답하는 질문

Karpathy가 2026-05-01 Sequoia AI Ascent에서 선언한 “Vibe Coding → Agentic Engineering” 전환의 의미는 무엇이고, PM이 그을 본 게임의 경계선은 어디인가요?
Software 1.0/2.0/3.0 framing은 PO·PM·PL의 위임 의사결정에 어떻게 옮겨지나요?
Agentic Engineering 위임 5단계 게이트(계획·도구·실행·자가검증·반복)는 PMBOK 8의 위임 절차와 어떻게 결합되나요?
빅테크 4사(Anthropic·OpenAI·Google·Microsoft) + Cognition의 5채널 동시 출시 패턴(IDE+CLI+SDK+Managed Agents+Enterprise)은 PM이 어느 시점에 채택해야 하나요?
엔터프라이즈 품질 붕괴(43% 재디버깅)와 OWASP Top 10 for Agentic Applications 2026(ASI01~10), AutoResearch 3대 전제조건은 위임 5단계 게이트 위에서 어떻게 정렬되나요?

이 시리즈를 읽는 세 개의 눈

역할	1-line 정체성
PO (Product Owner)	시나리오·비전·성공 메트릭 결정자
PM (Project Manager)	위임·거버넌스·검증 루프 설계자
PL (Project Lead)	품질 게이트·실험 시스템 결정자 (≠ Team Lead)

근거: lecture/lge-webex-seminar-ai-agent-pm/02-slide-fulltext.md:277-283

Part 0

Vibe Coding은 워밍업이었다: Karpathy의 paradigm 종언 선언

0.1 무대 위의 선언 — Software 1.0 → 2.0 → 3.0

2026-05-01 Sequoia AI Ascent 2026 무대에 오른 Karpathy는 자신이 1년 전 만든 용어를 스스로 사후 처리했습니다. 그의 표현은 다음과 같습니다.

“Vibe coding was the warmup. Agentic Engineering is here. The default is no longer writing 99% of the code yourself — it is delegating to agents, and overseeing them.” — Andrej Karpathy, Sequoia AI Ascent 2026 keynote, 2026-05-01 출처

The New Stack은 같은 발표를 “Vibe coding is passé”로 옮겼고 출처, AIntelligence Hub는 “Karpathy: Vibe Coding to Agent Workflows in May 2026″이라는 제목으로 같은 메시지를 정리했습니다 출처. 세 매체가 동시에 강조한 것은 자가 작성 vs 위임의 비율이 80%가 위임으로 뒤집힌 시점이 2025년 12월이었다는 점입니다. 즉, 선언 자체는 5월에 나왔지만 변곡점은 그보다 5개월 앞서 이미 지나갔던 것입니다.

Karpathy가 이 무대에서 함께 제시한 새 명명법이 Software 1.0 / 2.0 / 3.0입니다. Software 1.0은 사람이 명시적으로 if·while·for를 적는 전통 코드, Software 2.0은 데이터로 가중치를 학습시키는 신경망, Software 3.0은 LLM이라는 인터프리터에 자연어로 프롬프팅하여 동작을 지시하는 패러다임입니다 출처. 1.0 시대의 PM이 “코드를 검토”했다면, 2.0 시대의 PM은 “데이터셋과 가중치를 검토”했고, 3.0 시대의 PM은 “프롬프트와 에이전트의 행동을 검토” 합니다. 검토의 대상이 바뀐 것이 아니라, 검토의 단위(unit of review)가 매번 한 층씩 추상화되어 올라온 것입니다.

0.2 “워밍업”의 함의 — PM에게 옮기면

“warmup”이라는 표현은 단순한 수사가 아닙니다. AIntelligence Hub의 분석은 이 단어를 두 의미로 풀어냈습니다. 첫째, vibe coding은 단독 산출물로 끝나는 활동이 아니라 본 경기(=agentic engineering)를 위한 근육 풀기였다는 것 출처. 둘째, vibe coding이 만들어낸 “자연어로 의도를 전달하는 능력”은 폐기되는 것이 아니라 에이전트에게 위임 명령을 작성하는 능력으로 흡수된다는 것입니다. 즉, PO가 어제까지 “이런 기능을 만들고 싶어요”라고 vibe로 던지던 문장은, 오늘은 위임 명령서의 입력으로 그대로 재활용됩니다.

PM 코치의 해석은 이렇습니다. 워밍업이 끝났다는 것은 코칭의 의제가 바뀌었다는 뜻입니다. 2025년 봄까지 제가 코칭에서 가장 자주 던졌던 질문은 “어디까지 vibe로 허용하고 어디서부터 가드레일을 강제할 것인가”였습니다. 2026년 5월 이후 제 질문은 “위임을 어느 단위로 끊고, 각 단위의 자가검증을 어떻게 닫을 것인가” 로 옮겨졌습니다. 경계선의 문제는 5층 가드레일(Part 2.3)이 이미 해결했고, 본 게임의 문제는 위임 단위와 자가검증 closure입니다.

💬 Voice Box #1.5 — PM 코치의 paradigm 해석

Karpathy의 2026-05-01 선언을 PO·PM·PL의 언어로 옮기면 이렇습니다. PO에게는 “이제 시나리오 선언은 vibe 명령이 아니라 위임 명세서입니다 — 성공 메트릭과 검증 기준이 처음부터 포함되어야 합니다”라고 말합니다. PM에게는 “위임은 한 번에 통째로 일어나지 않습니다. 계획·도구·실행·자가검증·반복의 5단계 게이트를 차례로 닫아야 합니다”라고 말합니다. PL에게는 “Software 3.0에서 품질의 단위는 코드 라인이 아니라 에이전트 행동 시퀀스입니다. 행동 시퀀스를 재현·검증할 수 있는 하네스를 만드는 것이 PL의 새 직무 정의입니다”라고 말합니다.

0.3 “워밍업의 룰”은 어떻게 되는가 — 구판 가드레일의 자리

오해를 막기 위해 한 줄 덧붙입니다. Karpathy의 paradigm 종언 선언은 “vibe coding이 죽었다”가 아니라 “전문가 워크플로의 default가 바뀌었다”는 뜻입니다 출처. 프로토타입·해커톤·개인 탐구에서 vibe는 여전히 유효한 양식이고, 워밍업이 사라진 운동선수가 없듯 워밍업의 룰(=2025년 봄 기준 가드레일)도 본 게임 안으로 흡수됩니다. 다만 그 가드레일은 본 게임에서는 단독 골조가 아니라 위임 5단계 게이트의 입력 조건이 됩니다. 본 편의 Part 2·3은 이 흡수 관계를 보여주기 위해 구판 가드레일을 “초기 가드레일 (2025년 봄 기준)”으로 재배치한 뒤, Part 4에서 위임 5단계 게이트 위에 다시 묶습니다.

Part 1

Agentic Engineering 위임 5단계 게이트 (Karpathy 5-step × PMBOK 8)

1.0 두 표준의 결합 — Karpathy 5-step와 PMBOK 8 위임 절차

Karpathy가 Sequoia 무대에서 제시한 Agentic Engineering 5단계는 다음과 같습니다 출처.

계획(Plan) — 에이전트가 사람의 의도를 작업 그래프로 분해합니다.
도구 사용(Tool Use) — 필요한 도구·MCP 서버·외부 API를 호출합니다.
실행(Execute) — 코드 수정·파일 작성·테스트 실행 등 행동을 수행합니다.
자가검증(Self-Verify) — 결과가 목표·메트릭·평가 기준에 맞는지 스스로 점검합니다.
반복(Iterate) — 자가검증 실패 시 1단계로 돌아가 다시 계획합니다.

이 5단계를 PMBOK 8판의 위임 절차(범위·일정·원가·품질·리스크 5영역)에 결합하면 다음의 위임 5단계 게이트가 됩니다. PMBOK 8판이 AI를 별도 부록이 아니라 performance domain 전반에 편입한 맥락 출처을 적용한 결과입니다.

1.1 위임 5단계 게이트 (PM 트리거 질문 포함)

게이트	Karpathy 단계	PMBOK 8 결합	PM 트리거 질문 (1줄)
G1 계획 게이트	Plan	범위 정의 + 작업 분해	“에이전트가 받을 작업 그래프를 사람이 한 번 읽고 승인할 수 있는 형태인가요?”
G2 도구 게이트	Tool Use	조달·라이선스·보안 정책	“이번 위임에서 허용되는 도구·MCP 서버·외부 API의 allowlist가 명시되어 있나요?”
G3 실행 게이트	Execute	변경 통제 + 작업 인가	“에이전트가 수정 가능한 파일·테이블·자원의 범위가 read-only/write-allow로 라벨링되어 있나요?”
G4 자가검증 게이트	Self-Verify	품질 보증 + 평가 메트릭	“에이전트가 자신의 산출물을 평가할 자동 하네스가 존재하고, 그 하네스를 에이전트가 수정할 수 없나요?”
G5 반복 게이트	Iterate	리스크 모니터링 + 변경 요청	“자가검증 실패 시 1단계로 돌아가는 반복 한계(N회)와 사람 개입 트리거가 정의되어 있나요?”

5개 게이트를 모두 닫을 때에만 “에이전트에게 위임했다”고 선언할 수 있습니다. 하나라도 비어 있으면 그것은 위임이 아니라 방치입니다. AIntelligence Hub는 같은 맥락을 “from vibe to agent workflows requires closed-loop verification”으로 정리했습니다 출처.

1.2 5단계 게이트 × PO·PM·PL 책임 분배

게이트	PO 1줄 책임	PM 1줄 책임	PL 1줄 책임
G1 계획	작업 그래프의 비전·성공 메트릭 결단	작업 그래프 승인 절차 설계	작업 그래프 시뮬레이션 도구 운용
G2 도구	도구 카테고리별 적용 범위 정책 선언	도구 allowlist 변경 승인 경로 매핑	도구 호출 로그 수집·감사
G3 실행	변경 가능한 자원의 우선순위 결단	read-only/write-allow 라벨 거버넌스	자원별 권한 토큰 발급·만료 운영
G4 자가검증	평가 시나리오·합격 기준 선언	평가 하네스의 변경 승인 경로 매핑	하네스 락(lock)·재현 가능성 보증
G5 반복	최종 종료 조건 결단	반복 한계·인간 개입 트리거 위임	반복 텔레메트리 대시보드 운영

이 표는 Part 4의 9-cell 매트릭스(PO·PM·PL × L3·L4·L5)와 수직으로 짝을 이룹니다. 9-cell이 “역량 진입 조건”이라면 5단계 게이트는 “위임 행위의 폐쇄(closure) 조건”입니다. 두 표를 같은 회의실에 띄워두고 매주 한 칸씩 채워 가는 것이 본 게임의 운영 리듬입니다.

1.3 자가검증 게이트(G4)가 본 게임의 분수령

5개 게이트 중 가장 자주 비어 있는 것이 G4 자가검증입니다. Karpathy는 같은 발표에서 “self-verification 없이 4단계까지만 위임하는 것은 위임이 아니라 spray-and-pray”라고 말했습니다 출처. 본 시리즈의 K-3편이 다룬 AutoResearch의 3대 전제조건(Quantifiable Metric · Automated Evaluation · Single Editable File)이 정확히 이 G4 게이트의 세 부속 부품입니다. 즉, AutoResearch가 닫혔다면 G4도 닫힙니다. AutoResearch가 비어 있다면 G4 우회로는 없습니다.

ℹ️ 핵심 인사이트 위임 5단계 게이트 중 G4(자가검증)가 가장 자주 비어 있고, 가장 큰 사고의 원인이 됩니다. PM이 이번 분기에 단 하나의 산출물만 만들 수 있다면, 자가검증 하네스 + 그 하네스에 대한 락(lock) 정책을 우선 만들기를 권합니다.

Part 2

IDE 4사 동시 출시 사이클: 5 distribution shapes

2.0 동시에 같은 모양으로 등판한 5채널

2026-04~05 두 달 사이에 빅테크 4사 + Cognition은 같은 5채널 모양(IDE + CLI + SDK + Managed Agents + Enterprise)으로 동시 출시했습니다. 이 5채널이 우연의 일치라고 보기는 어렵습니다 — Karpathy가 5월 1일에 선언한 “위임 default”가 도구 생태계에서 같은 모양으로 구체화된 것입니다.

회사	IDE	CLI	SDK	Managed Agents	Enterprise	발표일	PM 채택 시점
Anthropic	Claude Code	`claude`	Claude API	Managed Agents (private MCP sandbox)	Enterprise plan	2026-04-16 (Opus 4.7 GA)	즉시 (xhigh effort + Managed Agents가 G4 게이트 보강)
OpenAI	Codex Desktop	`codex`	Responses/Agents SDK	Codex cloud agent (background computer use)	ChatGPT Enterprise	2026-05-14 (mobile GA + Desktop)	1~2주 검증 후 채택 (90+ plugin/MCP)
Google	Antigravity 2.0 IDE	`agy`	Antigravity SDK	Managed Execution	Antigravity Enterprise	2026-05-19 (Google I/O 2026)	Gemini CLI 종료(2026-06-18) 시점에 맞춰 전환
Microsoft	GitHub Copilot Workspace	`gh copilot`	Copilot SDK	GitHub Agent	Copilot Enterprise	2026 상반기 (롤링 GA)	조달·라이선스 우위로 default tier 채택
Cognition	Windsurf 2.0	Windsurf CLI	Cognition SDK	Devin Cloud Agent (1-click delegation, enterprise default)	Cognition Enterprise	2026-04-15·23 ($25B valuation)	Devin Cloud opt-in이 G3·G5 게이트 가속

출처: Claude Opus 4.7 출처 · GitHub Copilot 4.7 changelog 출처 · OpenAI Codex app 출처 · Codex changelog 출처 · TechCrunch Codex mobile 출처 · Google Antigravity 2.0 TechCrunch 출처 · MarkTechPost Antigravity 2.0 출처 · Cognition Windsurf 2.0 출처 · Cognition $25B 출처.

2.1 5채널이 가지는 PM 함의 — 위임 5단계 게이트와의 정렬

5채널은 우연의 같은 모양이 아니라 위임 5단계 게이트의 정확한 거울입니다.

IDE는 G1 계획·G3 실행을 사람과 같은 화면에서 폐쇄합니다.
CLI는 G2 도구·G5 반복을 헤드리스 자동화로 폐쇄합니다.
SDK는 G2 도구·G4 자가검증을 코드에서 폐쇄합니다.
Managed Agents는 G3 실행·G5 반복을 사람 컴퓨터 밖에서 폐쇄합니다.
Enterprise는 G2 도구·G3 실행·G5 반복을 조달·감사·정책에서 폐쇄합니다.

즉, 4사 + Cognition은 모두 위임 5단계 게이트를 closure할 수 있는 풀스택 채널을 동시에 갖춰야 한다는 결론에 동시에 도달한 것입니다. PM이 이 매트릭스를 읽는 법은 단순합니다 — 자기 조직이 어느 게이트를 가장 자주 비워두는지를 먼저 진단하고, 그 게이트를 닫아주는 채널을 우선 채택하면 됩니다. G4가 비어 있다면 SDK/Managed Agents가 우선이고, G2가 비어 있다면 Enterprise가 우선입니다.

2.2 도구 채택 시점의 PMBOK 8 결단표

5채널	PMBOK 8 매핑	채택 시점 결단 기준
IDE	작업 인가 + 변경 통제	팀이 G1·G3을 사람 손에서 닫고 싶을 때 (default tier 우선)
CLI	활동 정의 + 활동 순서	G2·G5를 야간 배치로 자동화하고 싶을 때
SDK	품질 계획 + 품질 통제	G4 자가검증 하네스를 코드 자산으로 보존하고 싶을 때
Managed Agents	자원 평준화 + 리스크 대응	G3·G5를 사람 컴퓨터 밖에서 격리하고 싶을 때
Enterprise	조달 계획 + 이해관계자 관여	G2·G3을 조달·법무·감사 통합으로 닫고 싶을 때

💬 Voice Box #1.7 — 채택 순서에 대한 PM 코치의 권고

저는 워크숍에서 “어느 회사 도구가 최선인가요?”라는 질문을 받을 때마다 답을 돌려드립니다. “먼저 5채널 중 어디가 비어 있는지부터 보세요.” 같은 조직 안에서도 G1·G3은 사내 IDE로 닫혀 있고, G4·G5만 비어 있는 경우가 많습니다. 그렇다면 SDK + Managed Agents 두 채널만 우선 채택하면 됩니다. 반대로 G2가 조달·감사 때문에 비어 있다면 Enterprise tier가 첫 번째 선택입니다. 회사를 고르는 것이 아니라 채널을 고르는 것이 본 게임의 PM 결단법입니다.

Part 3

현황 진단: "43%의 재디버깅"이 드러낸 경계선 (초기 가드레일 · 2025년 봄 기준)

이 Part는 워밍업 룰(2025년 봄~2026-02-10 시점 기준)의 정량 근거를 압축한 섹션입니다. 본 게임 룰(Karpathy 2026-05-01 선언 이후)은 Part 0·1·2에서 다뤘고, 이 Part는 본 게임 룰의 입력 조건으로 흡수됩니다.

저는 2025년 하반기부터 세 현장에서 “Vibe Coding을 우리도 도입해 보자”는 발언을 반복해서 들었고, 거의 같은 빈도로 “벌써 도입했는데 왜 프로덕션에서는 안 되지?”라는 후속 질문을 받았습니다. 공통점은 단 하나, 경계선이 비어 있었다는 것이었습니다. Karpathy의 2026-02-10 1차 선언과 Lightrun의 43% 재디버깅 숫자는 이 빈칸의 규모를 정량화한 것입니다. 2026-05-01 paradigm 선언은 이 빈칸의 책임을 위임 5단계 게이트로 이관시켰습니다.

3.1 2026 상반기 수치로 본 Vibe/Agentic 균열

지표	값	출처	시점
AI 생성 코드가 QA/스테이징 통과 후 프로덕션 수동 디버깅 필요	43%	Lightrun 2026 리포트	2026-02
AI 제안 수정 1건 확정을 위한 평균 수동 재배포 횟수	3회	Lightrun	2026-02
개발자의 주간 디버깅·검증 시간 점유율	38% (주 2일)	Lightrun	2026-02
사이버보안 전문가가 “에이전틱 AI가 2026년 1순위 공격 벡터”라고 응답	48%	Palo Alto Dark Reading 요약	2026-02
프로덕션에 AI 에이전트를 이미 배포한 조직	51%	Kiteworks 2026	2026-02
배포된 에이전트의 목적 제한을 강제할 수 없는 조직	63%	Kiteworks 2026	2026-02
오작동하는 에이전트를 종료할 수 없는 조직	60%	Kiteworks 2026	2026-02

이 표는 두 개의 그림을 동시에 보여 줍니다. 첫째, 생산성 역설이 아직 끝나지 않았다는 사실입니다. 개발자가 주당 근무시간의 38%를 디버깅과 검증에 쓴다는 것은, 2025년 METR 연구에서 “AI 도구 사용 시 오히려 19% 느려졌다”는 결과 출처가 1년 뒤에도 전혀 해소되지 않았다는 뜻입니다. METR 본인들도 2026년 2월 연구 설계를 다시 업데이트하면서 “체감 속도와 실측 속도의 괴리는 계속 벌어지고 있다”고 인정했습니다 출처.

둘째, 배포 속도가 가드레일 설계 속도를 이미 추월했다는 사실입니다. 51%의 조직이 에이전트를 프로덕션에 올렸는데 63%는 목적 제한을 강제하지 못하고 60%는 종료하지 못합니다. 배포는 배포인데 통제 스위치가 없는 배포입니다. 이 상태에서 Karpathy가 “vibe coding은 passé” 선언을 낸 것은 기술 유행의 변경이 아니라 리스크 곡선의 변곡점입니다.

Lightrun 리포트의 그 다음 숫자도 맥락을 완성합니다. 런타임 가시성 부족을 1순위 병목으로 지목한 SRE·DevOps 리더는 60%였고, AI SRE/APM 조사 실패의 44%가 실행 레벨 데이터 누락이 원인이었습니다. 현 관측 스택으로 자동 RCA(Root Cause Analysis)나 원격 복구를 신뢰하지 않는 리더가 77%에 달합니다 출처. 즉, 프로덕션의 기저에 “에이전트가 무엇을 했는지 보이지 않는” 어두운 구간이 여전히 광범위하게 남아 있다는 뜻입니다. PM이 감독 주기를 설계할 때 이 가시성 부재는 “자동 롤백의 허용 범위”에 직접 영향을 줍니다.

3.2 Karpathy가 그은 경계선과 PM의 해석 (2026-02-10 1차 선언)

Karpathy의 2026-02-10 1차 선언 원문은 다음과 같습니다.

“today (1 year later), programming via LLM agents is increasingly becoming a default workflow for professionals, except with more oversight and scrutiny.” — Karpathy, 2026-02-10 출처

이 1차 선언은 “프로토타입·데모·개인 탐구에는 vibe가 살아 있지만, 프로페셔널 워크플로우에는 oversight와 scrutiny가 기본값으로 삽입된다“는 뜻이었습니다. 2026-05-01 Sequoia 무대의 2차 선언(Part 0)은 여기에 “warmup이 끝났다 → 80% 위임이 default” 라는 정량 기준을 추가하면서 paradigm 종언을 공식화했습니다.

💬 Voice Box #1 — PM 코치의 워밍업 룰 해석

워밍업 룰은 세 줄로 압축됩니다. PO는 “어느 시나리오에서 vibe를 허용하고, 어디서 가드레일을 강제할지”를 선언합니다. PM은 “목적 제한과 종료 권한을 어떤 게이트에 배치할지”를 위임 경로로 매핑합니다. PL은 “43% 재디버깅을 만드는 구조적 결함을 막을 품질 게이트”를 설계합니다. 이 세 줄은 Part 0·1·2의 본 게임 룰(위임 5단계 게이트)의 입력 조건으로 흡수됩니다.

Part 4

개념 심층: Vibe Coding vs Agentic Engineering vs AutoResearch (초기 가드레일 · 2025년 봄 기준)

이 Part도 워밍업 룰의 정량 근거를 압축한 섹션입니다. 본 게임 룰의 입력 조건으로 사용됩니다.

aipm 레포의 CLAUDE.md 상단에 박힌 네 줄(“destructive operations 사용자 확인 전 실행 금지”, “plan mode + plansDirectory: ./docs/plans 강제”, “Proposal-only 규율”, “Phase별 체크포인트 필수”)은 vibe·agentic·autoresearch 세 개념의 차이를 코드화된 가드레일로 표현한 실전 예입니다. vibe는 “탐색”의 언어이므로 destructive 권한이 원천 차단되고, agentic은 “감독”의 언어이므로 plan mode + 체크포인트가 강제되며, autoresearch는 “루프”의 언어이므로 proposal-only 규율로 편집 경계가 락됩니다. 이 세 개념은 본 게임 룰에서는 위임 5단계 게이트의 G3(실행)·G4(자가검증)·G5(반복)에 각각 흡수됩니다.

4.1 세 가지 개념의 정의와 적용 맥락

개념	정의	사용 맥락	PM/PO/PL 적용
Vibe Coding	자연어 프롬프트로 LLM에게 반복 지시하여 코드를 생성·수정하는 워크플로우. 2025년 2월 Karpathy가 제안 시 “fun throwaway projects, demos, explorations”용이라는 단서 명기 출처	일회성 프로토타입, 해커톤, 사내 자동화 실험	PO: 시나리오 탐색용 / PM: 검증 없는 경로 / PL: 평가 대상 외
Agentic Engineering	LLM 에이전트를 오케스트레이션·감독하는 전문가 워크플로우. “기본값은 코드를 직접 쓰는 것이 99%가 아니라 에이전트를 감독하는 것” 출처	전문가 일상 개발, 엔터프라이즈 프로덕션	PO: 성공 메트릭 결단 / PM: 5층 가드레일 설계 / PL: 품질 게이트 설계
AutoResearch	closed-loop로 에이전트가 목표→제안→실행→측정→커밋/롤백을 무기한 반복하는 자동 실험 시스템. 2026-03-07 공개, 1개월 66k stars 출처	반복 가능한 최적화, 프롬프트/템플릿 튜닝, 성능 개선 루프	PO: 목표·메트릭 결단 / PM: 경계 설계 / PL: 평가 하네스 설계

세 개념은 병렬이 아니라 성숙도 스택입니다. vibe가 바닥(탐색)이고, agentic이 중간(감독 하의 생산), autoresearch가 맨 위(메트릭 기반 자동 개선)입니다. 같은 조직에서 세 개가 동시에 공존할 수 있지만, 같은 산출물 안에서는 섞이지 않아야 합니다.

이 스택을 시간순으로 다시 보면 Karpathy의 공개 타임라인이 정확히 이 계단을 오르고 있었다는 것이 드러납니다.

2025년 2월: “vibe coding” 용어 최초 제안. “fun throwaway projects, demos, and explorations”용이라는 단서 명기 출처.
2025년 12월: “AI coding agents crossed a coherence threshold”. 전문가용 기본 워크플로로 이동할 수 있는 단계 도달 출처.
2026년 2월 10일: “Agentic Engineering” 공식 제안. 감독(oversight)과 정밀 감시(scrutiny)가 기본값이 된 워크플로 선언.
2026년 3월 7일: karpathy/autoresearch 공개. closed-loop 실증.

Karpathy는 같은 인터뷰에서 “manual coding skills atrophying”을 직접 인정했고, “personality matters between agent tools”라고 덧붙였습니다 출처. 이 두 문장이 내포한 뜻은 분명합니다. 도구 성숙도가 올라갈수록 사람의 실무 역량은 “검증·감독”에 재배치되어야 한다는 것, 그리고 도구별 행동 특성은 품질 게이트에 그대로 반영되어야 한다는 것입니다.

4.2 Karpathy가 말한 “Agentic Engineering”의 6단계 루프 (AutoResearch 분해)

karpathy/autoresearch를 해부하면 다음 6단계가 드러납니다 출처.

학습/목표 코드 읽기
변경 제안
5분 이내 학습·평가 작업 실행
성능 측정
개선되면 commit, 아니면 rollback
무기한 반복

엔터프라이즈 매핑에서 중요한 것은 3·4·5단계입니다. 3단계(실행)와 4단계(측정)가 자동화되지 않으면 루프는 성립하지 않습니다. 5단계의 rollback 경로가 사람 승인 없이도 안전하면 PM은 감독 주기를 넓힐 수 있고, 반대로 rollback이 사람 손을 타면 감독 주기를 좁혀야 합니다. 즉, autoresearch는 “AI를 믿는 정도”가 아니라 “rollback의 안전성 곡선”을 설계하는 문제입니다.

AutoResearch의 실증 데이터는 다음 숫자로 요약됩니다 출처.

공개일: 2026-03-07
한 달 내 GitHub stars: 66,000+ / forks: 9,600+
2일간 실험 횟수: 700회
자동 발견 최적화: 20개
코드 규모: 학습 코드 ~630 lines + Markdown prompt 1개

Kirill Krainov의 2026-03-25 분석은 “autoresearch가 단순 prompt tuning이 아니라 에이전트가 코드 자체를 편집하기 때문에 closed-loop의 의미가 달라진다”고 정리했습니다 출처. Shopify 사례의 93회 자동 커밋 / 53% 가속은 이 편집 권한과 메트릭이 동시에 성립할 때의 생산성을 보여 주는 첫 공개 케이스입니다.

ℹ️ 핵심 인사이트 Agentic Engineering의 난이도는 모델 품질이 아닙니다. rollback 경로의 신뢰도입니다. rollback이 안전하면 루프는 돌고, rollback이 불확실하면 루프는 멈춥니다. PM이 설계할 것은 “얼마나 자동화할까”가 아니라 “얼마나 안전하게 되돌릴 수 있는가”입니다.

4.3 5층 가드레일 아키텍처 (Mermaid #1 · 초기 가드레일 매트릭스)

Part 1의 현황을 받아, PM이 설계해야 할 5층 가드레일을 다음과 같이 시각화합니다. L1~L5 각 층은 위임의 전제조건이지 실행 순서가 아닙니다.

이 구조는 원 리서치의 “5층 가드레일” 매트릭스를 PMBOK® 8th의 performance domain 편입 관점에서 재정렬한 것입니다 출처. PMBOK 8판은 AI를 별도 부록이 아니라 process groups와 performance domains 전반에 공식 편입했습니다. 즉, 가드레일은 리스크 관리 지식영역의 한 칸이 아니라 모든 도메인을 가로지르는 수직 축입니다.

4.4 도구 생태계 — 2026-04 기준 성숙도 (5채널 매트릭스의 전사)

Part 2의 5채널 매트릭스가 본 게임 룰입니다. 아래 표는 4월 시점의 워밍업 단계 정리를 보존합니다.

원 리서치 §2를 PM 관점에서 축약하면 다음 표가 됩니다. 이 표는 “어느 도구가 더 낫나”를 가리는 것이 아니라, 각 도구가 PL의 품질 게이트와 어떻게 결합되는가를 보여 줍니다.

도구	4월 변화	핵심 숫자	PL 결합 관점
Claude Code (Sonnet 4.6)	SWE-bench 1위 유지, 터미널 기반 에이전트 출처	Pro $17/월, Max $100+/월	하네스 통합 친화, allowlist 락 용이
Cursor	3-attempt 리팩터링 완성도, VS Code fork 출처	Pro $20/월	IDE-내 감독 루프 쉬움
Windsurf	2026-03-19 크레딧 → 쿼터 기반 전환, Pro $15→$20, Max $200 신설 출처	3,000라인 Express.js ESM 전환 1회 성공	Cascade 멀티-파일 트랜잭션 리뷰 필요
GitHub Copilot	Fortune 100의 90% 도입 유지, 무료 플랜 GPT-4o/Gemini 2.0/Sonnet 포함	엔터프라이즈 조달 우위	보안 스캔·라이선스 체크 결합 용이
OpenAI Codex / Google Antigravity / AWS Kiro	신규 포지션 유지	원본 동일	파이프라인 CI/CD 통합 관건

iBuildR Research의 2026-03 표준 테스트에서는 반응형 데이터 테이블을 Cursor가 2 라운드, Windsurf 3 라운드, Copilot 5 라운드 + 수동 수정으로 완성했습니다 출처. 4월 시점의 합의는 다음 한 줄입니다. “도구의 우열보다 워크플로 설계가 성과를 좌우합니다.” 같은 도구로 다른 품질이 나오는 이유는 L3 검증 파이프라인의 유무이지 모델 버전이 아닙니다 출처. PL이 먼저 할 일은 “도구 선정”이 아니라 “선택된 도구를 감싸는 게이트 설계”입니다.

NxCode의 비교 연구는 “2026년 기준 베스트 AI 코딩 툴”이라는 제목으로 세 도구의 강점을 정리하면서도, 결론부에서 “어떤 도구를 선택하더라도 품질 게이트가 없으면 같은 결과가 재현된다”고 명시했습니다 출처. 이 메시지는 PL이 도구를 이해관계자에게 설명할 때 자주 받는 질문 — “어느 도구가 제일 좋나요?” — 에 대해 “같은 게이트를 통과할 수만 있다면 어느 쪽이든 괜찮습니다”라고 돌려줄 수 있는 근거가 됩니다.

이 편의 4-프레임워크 매핑

PMBOK 8: Risk Domain 5-step · Navigate Complexity
SAFe 6: Team: Built-in Quality · Program: DevOps & Release on Demand
BABOK v3: 8.2 Requirements Verification · Configuration Management
SEBOK v2.x: Part 5 Enabling Teams · V&V

(전체 32-cell 매핑은 시리즈 진입 가이드의 부록 D에서 확인)

Part 5

비교·한계·경고: 7개 실패 앱과 OWASP ASI 매트릭스 (초기 가드레일 · 2025년 봄 기준)

워밍업 룰의 실패 사례·OWASP ASI 매트릭스·규제 타임라인을 압축 보존한 섹션입니다. 본 게임 룰에서는 위임 5단계 게이트(Part 1)와 5채널 매트릭스(Part 2)의 G4·G5 게이트로 흡수됩니다.

“Vibe Coding 실패 7건”을 추적하면 결론은 단순합니다 — 기술적 실패는 없고, 전부 설계 결정의 실패입니다. Enrichlead·Base44·Moltbook·Replit은 각자 다른 제품이었지만 같은 실수를 공유했습니다 (클라이언트사이드 권한 검사 단독, allowlist 없는 쓰기 권한, 평가 하네스에 대한 편집 권한, 롤백 경로 부재). Gartner의 40% 취소 경고와 OWASP Top 10 for Agentic Applications 2026(ASI01~10) 발표는 이 경계선 결정의 외부 강제력을 공급했고, 본 게임 룰에서는 모두 G3 실행 게이트 + G4 자가검증 게이트의 closure 조건으로 흡수됩니다.

5.1 2열 비교 — Vibe Coding의 성공 경계 vs 실패 경계

성공 경계 (Vibe 허용 가능)	실패 경계 (Vibe 즉시 금지)
일회성 프로토타입·데모·개인 탐구	고객 데이터·매출 영향·규제 대상 서비스
read-only 단일 파일 편집 범위	allowlist 없는 저장소 전체 수정 권한
자동 평가 하네스가 존재	평가 없는 “좋아 보인다” 기준
롤백이 commit 단위로 안전	롤백 없이 직접 DB/프로덕션 반영
에이전트가 본인 평가 하네스를 수정할 수 없음	에이전트가 테스트/정책 파일도 편집

5.2 실패 사례 7건 — 근본 원인의 구조

#	앱	근본 원인	피해	시점/CVE
1	Moltbook	Row Level Security 누락	API 키 1.5M + 이메일 35k + 비공개 메시지 노출	2025-2026
2	Lovable	액세스 제어 로직 역전	170개 앱, 18,000+ 사용자 노출	CVE-2025-48757
3	Base44	플랫폼 전체 인증 우회(등록/OTP 무인증)	플랫폼 모든 앱 위험	2025-07
4	Orchids	Zero-click Remote Code Execution	사용자 머신 파일 수정·코드 실행	2025-12
5	Escape.tech 5,600개 앱 스캔	체계적 취약점	2,000+ 취약점 + 400+ 시크릿 노출	2025-2026
6	Replit	AI 에이전트가 코드 프리즈 중 프로덕션 DB 삭제	임원 1,206건 / 기업 1,196건 레코드 소실	2025-2026
7	Enrichlead	클라이언트사이드 전용 권한 검사	구독 우회·API 남용·무단 DB 입력	런칭 후

출처: Autonoma 7 Real Apps That Broke in Production

7건 모두의 공통 원인은 “모델이 잘못된 코드를 뱉었다”가 아닙니다. (1) 인증/권한의 구조적 설계 결함, (2) 에이전트 수정 범위의 미정의, (3) 롤백·종료 권한의 부재입니다. Kiteworks가 지적한 “종료 불가 60%, 목적 제한 불가 63%”와 정확히 동일한 패턴입니다 출처.

5.3 OWASP Top 10 for Agentic Applications 2026 — ASI01~10

원 리서치 §5.1을 압축해 PL이 바로 매핑할 수 있도록 정리했습니다 출처.

ID	이름	1줄 위협	PL 우선순위
ASI01	Agent Goal Hijack	악의적 텍스트 주입으로 목표/계획 변조	중
ASI02	Tool Misuse and Exploitation	모호한 프롬프트로 파괴적 파라미터 도구 호출	상
ASI03	Identity and Privilege Abuse	위임 신뢰·상속 자격 악용 권한 확대	상
ASI04	Agentic Supply Chain Vulnerabilities	런타임 플러그인·MCP 서버·템플릿 변조	상
ASI05	Unexpected Code Execution	셸·스크립트·역직렬화로 안전하지 않은 코드 실행	상
ASI06	Memory and Context Poisoning	메모리·RAG DB 오염으로 향후 의사결정 변조	중
ASI07	Insecure Inter-Agent Communication	인증·암호화 없는 에이전트 간 메시지 교환	중
ASI08	Cascading Failures	작은 오류가 계획·실행·메모리·다운스트림 전파	중
ASI09	Human-Agent Trust Exploitation	사용자 과신 악용한 의사결정 조작	하
ASI10	Rogue Agents	정상 가면의 손상 에이전트가 세션을 넘어 지속	중

“상” 우선 3건(ASI02·03·05)은 Replit·Base44·Orchids 사례와 1:1로 대응합니다. PL이 품질 게이트 v0.1을 만들 때 이 세 개만 먼저 덮어도 실패 확률이 실증적으로 급감하는 이유입니다. OWASP Gen AI Security Project의 공식 발표 자료도 동일한 우선순위를 제시하며, 2026년 100+ 산업 전문가의 공동 검토를 거쳤다고 명시했습니다 출처. Teleport의 주요 시사점 정리에서도 ASI02·ASI05를 “모델 레이어가 아닌 시스템 레이어에서 막아야 하는 위협”으로 분류합니다 출처.

참고로 2026년 2월 SecurityScorecard는 공개 노출된 OpenClaw 인스턴스를 135,000+ 개 관찰했고 그중 53,000+ 개가 이전 침해와 상관관계가 있었다고 보고했습니다 출처. 같은 월 Snyk는 ClawHub에서 280+ “Leaky Skills”(API 키·PII 노출)를 찾아냈습니다. 이는 ASI04(Supply Chain)·ASI06(Memory Poisoning)이 이미 실사용 환경에서 트리거되고 있음을 뜻합니다. Trend Micro는 2026년 3월 “The Real Risk of Vibecoding” 글에서 “비개발자 vibe coder가 프로덕션에 올리는 코드의 보안 결함은 전통적 OWASP 10이 아니라 ASI 계열로 진단되어야 한다”고 명시했습니다 출처.

5.4 품질 붕괴의 구조적 원인 — CodeScene 3대 가드레일

CodeScene은 동일 현상을 세 축으로 재정리했습니다 출처.

Code Quality — CodeHealth™ 같은 정량 지표로 회귀를 추적합니다. AI가 35~69% 확률로 오류 코드를 생성한다는 전제에서, 자동 테스트 방어선 없이는 머지 자체가 위험입니다 출처.
Code Familiarity — 처음 보는 코드 수정 시 소요 시간이 93% 증가한다는 연구 기반입니다. 팀 단위 친숙도 시각화 없이는 AI가 생성한 낯선 코드가 팀의 디버깅 시간을 눈덩이처럼 키웁니다.
Test Coverage — AI 코드는 “사람이 본 적 없는 경로”를 만들기 쉽기 때문에 커버리지 경계가 PR 단계에서 강제되어야 합니다.

TFiR는 같은 주제에서 2026년의 4대 거버넌스 예측을 제시했습니다 출처.

AI-attributed regression rate / incident severity / review confidence score가 공식 지표로 채택됩니다.
제3자 검증 도구가 필수 리스크 완화 장치로 승격됩니다.
Multi-agent validation 워크플로(작성 → 비평 → 테스트 → 컴플라이언스)가 표준화됩니다.
공식 거버넌스 프레임워크(허용 AI 사용, 문서 요건, 리뷰 기대치, 에스컬레이션 경로)가 내규 수준으로 도입됩니다.

QueryPie의 2026 Edition White Paper는 여기에 “AI 에이전트 전용 권한 스코프와 Rate Limit”을 추가 가드레일로 제시하며, 특히 엔터프라이즈의 경우 사용자 ID와 에이전트 ID를 분리 발급해 로그 체인을 끊지 않는 설계를 권고합니다 출처. Iterathon의 가이드는 2026년 프로덕션 구현 관점에서 “사람 in-the-loop 근접도”, “샌드박스화된 도구 호출”, “관찰 가능성(Observability) 우선”을 3대 운영 원칙으로 꼽았습니다 출처.

5.5 규제 타임라인과 엔터프라이즈 리얼리티

규제는 Part 4의 PM L5 층에서 직접 작동합니다. 핵심 타임라인은 다음 세 줄입니다.

EU AI Act 고위험 조항: 2026년 8월부터 전면 시행됩니다 출처.
Gartner 예측: 2026년 말까지 AI 관련 법적 분쟁이 2,000건을 초과하며, 그 직접 원인으로 가드레일 부족이 지목됩니다.
Atlan 2026 엔터프라이즈 가이드: 에이전트 리스크는 데이터 도메인(소유자 불명확, 기밀 데이터 유출, 드리프트)과 운영 도메인(종료 불가, 체인 붕괴)이 결합되어 작동합니다 출처.

The New Stack은 2026년 연재에서 “vibe coding이 엔터프라이즈 리얼리티 체크에서 실패한다”고 결론 냈고 출처, 후속 글에서는 “카타스트로픽 폭발”의 조건까지 정리했습니다 출처. Level Up Coding의 2026-04 분석은 “Vibe Coding Doesn’t Scale: The Enterprise Cliff”라는 제목으로 규모 확장 시 무너지는 지점을 차트로 시각화했습니다 출처. Digital Applied는 엔터프라이즈에서 vibe coding의 보안 리스크를 산업별 데이터로 분해했습니다 출처. Long Island NY의 2026-04-09 기사는 “40% 빨라진다고 믿지만 모래 위에 짓고 있다”는 표현으로 개발자 리더들의 체감을 압축했습니다 출처.

5.6 한국 트랙 — 삼성·LG의 2026 움직임

한국 대기업은 2026년 상반기에 에이전틱 엔지니어링을 사내 표준으로 전환하는 작업을 시작했습니다.

삼성전자 DX 부문은 2026년 AI 코딩 어시스턴트 “클라인(Kline)” 베타 서비스를 시작했고, “보조”가 아니라 “SW 개발 전 과정 자율 수행” 수준을 목표로 설계했습니다 출처.
LG CNS는 기존 코딩 지원 AI를 분석·설계·품질 진단을 포함한 전과정형 플랫폼으로 확장했고, 2026년에는 기업용 에이전트 운영 환경으로 의제를 옮겼습니다. AI Tech Summit 2026은 “소버린 AI · 에이전틱 AI 전환”을 핵심 의제로 선언했습니다 출처.
Raylogue의 2026 분석은 “에이전틱 AI 원년, 한국 기업의 위치”를 중견기업까지 내려와 짚어 냈습니다 출처. CIO Korea는 같은 기간 국내 개발자 AI 지원의 실제 사용 현황을 정리했습니다 출처.

즉, 2026년 상반기에 PM 코치가 한국 대기업에 들어가서 만나는 질문은 “AI 도구를 도입할까”가 아니라 “이미 도입된 도구를 어떻게 가드레일 안에 넣을까”입니다. 이 맥락이 Part 4의 PM·PL 실행 과제를 즉시 적용 가능하게 만듭니다.

5.7 PM을 위한 의사결정 트리 (워밍업 룰 입력 도구)

원 리서치 §PM 관점의 의사결정 트리를 블로그 독자용으로 다시 정리하면 다음과 같습니다.

[신규 기능 요청]
 ├── 고객 데이터/규제/매출 영향 있는가?
 │    ├── YES → Agentic Engineering (5층 가드레일 전면 적용)
 │    └── NO  → 다음 질문
 ├── 내부 자동화/프로토타입인가?
 │    ├── YES → Vibe Coding 허용 (L1·L2만 적용)
 │    └── NO  → Agentic Engineering
 └── 데이터 접근/도구 호출 권한을 에이전트가 요구하는가?
      ├── YES → L4 OWASP 매트릭스 필수 통과
      └── NO  → L3 검증 파이프라인까지만

이 트리는 PM이 스펙 리뷰 회의에서 5분 안에 경계선을 결단하도록 도와줍니다. 질문 세 개를 차례로 던지면 L1·L2·L3·L4의 개입 범위가 자동으로 결정되고, 그 결과가 Delegation map의 해당 칸에 바로 채워집니다. 저는 이 트리를 벽에 붙여 둘 것을 권합니다. “이번 기능은 vibe인가 agentic인가”의 논쟁이 반복되는 것을 막는, 가장 경제적인 도구입니다.

5.8 실패를 초대하는 6가지 안티패턴

안티패턴	관찰 빈도	근본 원인	완화 경로
“좋아 보이면 merge”	88%에서 관찰	정량 메트릭 부재	L2 Attribution 대시보드
allowlist 없는 에이전트 쓰기 권한	Replit/Base44 패턴	Single Editable File 미적용	L3 read-only 락
클라이언트사이드 권한 검사 단독	Enrichlead 패턴	RLS/서버 검증 부재	L4 ASI03 체크
오작동 에이전트 종료 권한 미설계	60% 조직	킬 스위치 미설계	L3 Runbook
AI 기여 태깅 없는 PR 머지	88% 조직	Attribution 지표 부재	L2 PR 메타데이터
평가 하네스 자체를 에이전트가 수정 가능	autoresearch 오용 패턴	Single Editable File 위반	L3 평가 파일 락

💬 Voice Box #2 — PM 코칭 현장에서 본 흔한 함정

저는 2026년 1분기에만 워크숍 네 곳에서 “우리 팀도 autoresearch 같은 closed-loop를 붙이고 싶다”는 질문을 받았습니다. 그때마다 저는 질문을 돌려드립니다. “정량 메트릭이 하나라도 있으신가요? 자동 평가가 사람 없이 돌아가나요? 에이전트가 수정할 수 있는 파일 목록을 allowlist로 정리하셨나요?” 세 질문 중 하나라도 “아직”이라는 답이 나오면 저는 루프 설계보다 L2·L3부터 함께 정리합니다. AutoResearch는 “AI가 똑똑해서” 도는 것이 아니라 세 가지 전제조건이 채워져 있어서 도는 시스템입니다. 전제조건을 건너뛰고 루프만 붙이면, 에이전트는 곧 평가 하네스 자체를 고쳐서 metric gaming으로 수렴합니다. 그 순간 당신의 프로덕션은 “좋아 보이는 숫자 밑의 재앙”이 됩니다.

Part 6

PO·PM·PL 3-Role Translation ⭐ (위임 5단계 게이트 × 5층 가드레일 통합)

L3→L4→L5 역량 래더 (시리즈 공통 축)

L3 수행(Performance) — 팀 단위 반복 운영 + Named Owner 지정 + 기본 가드레일. 진입 조건: 주 5회 이상 AI 협업 · SOP 1건.
L4 주도(Leadership) — 조직 표준 내재화 + OKR 정렬 + 월간 대시보드. 진입 조건: 부서 간 공유 SOP · 12지표 대시보드 운영.
L5 코칭·표준화(Coaching & Standardization) — 타 조직·업계 코칭 + 외부 표준 기여. 진입 조건: 외부 강연·컨설팅·표준 기고 3건/년+.

(L1~L2 및 L 전환 Trigger 상세는 부록 C “L1~L5 성숙도 표준 정의” 참조)

이 시리즈는 8편 전체에서 단계적 과제(Day 1·Week 1·Month 1) 대신 L3→L4→L5 역량 래더를 공통 축으로 씁니다. Post 1·2에서 설명드렸지만 한 번 더 짚으면, 제가 삼성 GAUSS 5,665 Q&A 라벨링·LG PM Competition 68명 인증·SKT Agent/Skill 83건 PMO 심사 세 현장을 가로지르며 확인한 것은 “Day 1에 뭘 할까”의 답이 조직마다 완전히 다르다는 점입니다. Vibe Coding 주제는 특히 더 그렇습니다 — A 조직에서는 “vibe 허용 영역”이 이미 결정되어 있고, B 조직에서는 경계선 자체가 비어 있고, C 조직에서는 법무팀이 경계선을 가져가 버린 상태입니다. 반면 L3 수행 → L4 주도 → L5 코칭·표준화 래더는 세 조직 모두에서 같은 방향을 가리킵니다. aipm 레포가 실제로 운영하는 CLAUDE.md 거버넌스 규칙(superpowers 보완·destructive action 격리·test-first validation·worktree 격리·proposal-only 규율)은 L3~L5 래더의 각 지점에 대응하는 실제 코드화된 가드레일입니다. Part 4는 Vibe Coding 주제의 5층 가드레일과 OWASP ASI 매트릭스를 이 L3→L5 래더 위에 얹어 PO·PM·PL 각각의 진입 조건으로 해석합니다.

이 섹션을 읽는 두 개의 축

역량(Competency) — 이 시리즈의 공통 축: L3 수행 경험 → L4 주도 산출 → L5 코칭·표준화
맥락(Context) — 편별 변주 축: Vibe Coding 주제의 L3·L4·L5 “진입 조건” 1줄 명시
루브릭 근거: prompts/competency-framework-survey-prompt-pack.md:149-162

6.1 PO의 관점 — “vibe 허용 영역”과 “가드레일 강제 영역”의 결단

현황 진단

PO가 당면한 문제는 “에이전트를 쓸지 말지”가 아닙니다. “제품 시나리오 중 어느 범위까지 vibe를 허용할지”입니다. 같은 제품 안에서도 내부 운영 도구와 고객 결제 흐름은 전혀 다른 허용 곡선을 가져야 합니다. Lightrun의 43% 재디버깅 숫자는 “허용 곡선 없이 전 영역에 vibe를 뿌린 결과”라는 해석이 가능합니다 출처.

제가 최근 워크숍에서 가장 자주 쓰는 문장은 이렇습니다. “PO는 두 개의 사전을 들고 다니셔야 합니다 — 하나는 고객 가치 사전, 다른 하나는 위험도 사전.” 고객 가치 사전에는 시나리오별 KR과 성공 메트릭이 있고, 위험도 사전에는 규제/매출/고객데이터의 3축이 있습니다. 같은 시나리오를 두 사전에 동시에 올려놓을 때에만 허용 곡선이 일관성을 유지합니다. 위험도 사전이 비어 있으면 PO의 선언은 엔지니어링 현장에서 곧바로 “판단 유보”로 해석되고, 그 유보가 L1 경계선을 흐리게 만듭니다.

L3 → L4 → L5 역량 래더

L 레벨	PO 역량 정의	진입 조건 (Vibe Coding 주제)
L3 수행 경험	시나리오별 vibe/agentic 허용 곡선을 스스로 정의	제품 시나리오 상위 10개에 “vibe 허용/agentic 필수/금지” 한 단어 라벨 + 위험도 사전(규제·매출·고객데이터 3축) 존재
L4 주도 산출	제품군 전체 OKR에 허용 곡선을 정렬하고 분기 리뷰에 포함	OKR “성공 메트릭” 칸에 허용 곡선이 측정 가능한 형태로 기록, 분기 리뷰 1회 이상 완료
L5 코칭·표준화	조직 OKR 템플릿에 “Vibe/Agentic Split” 섹션을 내재화하고 타 PO 코칭	템플릿 공식 등록 + 비전 문장 1줄 압축본이 제품 전략 문서 표지에 배치 + 타 PO 2인 이상 지도 기록

6.2 PM의 관점 — 5층 가드레일과 EU AI Act 대응 위임 구조

PL은 본 시리즈에서 Project Lead를 가리킵니다 — 기술 스쿼드의 Team Lead가 아니라, 품질 게이트와 실험 시스템을 결정하는 역할로 정의합니다 (LG WebEx 세미나 정의 기반: lecture/lge-webex-seminar-ai-agent-pm/02-slide-fulltext.md:277-283).

현황 진단

PM이 직면한 문제는 위임 경계의 수직화입니다. 과거에는 일정·원가·범위만 위임하면 됐습니다. 지금은 L1 경계선, L2 평가지표, L3 검증 파이프라인, L4 OWASP 매트릭스, L5 거버넌스까지 5층을 수직으로 쌓고 각 층에 검증 주기를 배치해야 합니다. PMBOK 8판이 AI를 performance domain 전반에 편입한 맥락과 정확히 일치합니다 출처. 더구나 EU AI Act 고위험 조항이 2026년 8월부터 전면 시행되고, Gartner는 2026년 말까지 AI 관련 법적 분쟁이 2,000건을 넘어설 것으로 전망했습니다 출처. 즉, PM의 위임 경로는 법적 방어선과 동시에 움직입니다.

여기서 놓치기 쉬운 점이 하나 있습니다. 감독(oversight)은 검증(validation)과 다릅니다. 감독은 경계선을 지키는 것이고, 검증은 결과의 품질을 재는 것입니다. PM이 L3 Multi-Agent 4 Layer를 Author → Critic → Test → Compliance로 배치할 때, 앞의 두 레이어는 감독의 축, 뒤의 두 레이어는 검증의 축입니다 출처. 이 두 축을 같은 위임 map에 묶어 배치하는 것이 PM의 핵심 산출물입니다.

Kiteworks 조사는 이 맥락을 더 날카롭게 보여 줍니다. 이미 프로덕션에 에이전트를 배포한 51%의 조직 중 보안 승인을 모두 받은 곳은 14.4%에 불과하고, 88%의 조직이 AI 에이전트 관련 보안 사고를 한 번 이상 보고했습니다 출처. 즉, PM이 “승인 없는 배포”를 막는 것이 L5 거버넌스 층의 가장 단순하고도 효과적인 기여입니다. EU AI Act 2026-08 체크리스트는 그 승인 절차의 외부 강제력을 제공할 뿐이며, 내부 승인 루틴이 비어 있는 조직은 법 시행 이전부터 이미 리스크에 노출되어 있습니다.

L3 → L4 → L5 역량 래더

L 레벨	PM 역량 정의	진입 조건 (Vibe Coding 주제)
L3 수행 경험	Delegation map 초안 작성에 기여하고 Gov gate 1회 운영을 검증	현재 프로젝트 위임 map v0.1이 5층 가드레일 관점으로 매핑 + 각 층 “책임/검증” 1줄 기록
L4 주도 산출	5층 가드레일을 자기 프로젝트에서 전면 매핑하고 주간 검증 루프를 조율	Multi-Agent 4 Layer(Author→Critic→Test→Compliance) 위임 완료 + 킬 스위치·롤백 Runbook 존재
L5 코칭·표준화	조직 표준 위임 프레임을 작성하여 타 PM 조직에 게이팅(거버넌스 의미)	EU AI Act 고위험 체크리스트 + 사내 AI 사용 정책 정렬 완료, 분기 거버넌스 게이트 운영

6.3 PL의 관점 — OWASP ASI 매트릭스와 AutoResearch 3대 전제조건

현황 진단

PL의 문제는 “어떤 AI 도구를 쓸지”가 아닙니다. “AI가 통과시킨 코드를 어떻게 재검증할지”입니다. Lightrun의 43% 숫자는 QA·스테이징을 통과한 뒤의 실패이므로, 기존 테스트 하네스가 AI 특유의 실패 모드를 감지하지 못한다는 뜻입니다 출처. CodeScene이 지적한 Code Familiarity 문제(처음 보는 코드 수정 시 소요 시간 93% 증가) 출처와 합쳐 보면, 품질 게이트는 “코드 정확성 + 팀 친숙도 + AI 기여 태깅”의 3축으로 재설계되어야 합니다.

또 하나, PL은 평가 하네스 자체를 AI가 수정하지 못하도록 락(lock)을 걸어야 합니다. AutoResearch PM 가이드는 이 규칙을 “Single Editable File”로 명명하고, 에이전트가 평가 파일을 고칠 수 있는 순간 metric gaming이 시작된다고 경고합니다 출처. Verdent의 공식 가이드도 “AutoResearch가 작동하려면 편집 범위가 단일 프롬프트/스킬/템플릿 파일로 한정되어야 한다”는 규칙을 반복 강조합니다 출처. 이 규칙은 PL이 품질 게이트를 설계할 때 “편집 경계 = 위험 경계”로 해석됩니다.

PL의 실전 참고 미니 케이스를 덧붙이겠습니다. Shopify 템플릿 엔진 53% 가속 사례에서 PL 역할을 유추해 보면, 누군가는 “렌더링 시간(ms)”이라는 단일 메트릭을 결정했고, 누군가는 그 메트릭을 자동으로 집계하는 평가 시스템을 만들었고, 누군가는 에이전트가 수정할 수 있는 파일을 “템플릿 엔진 렌더러 하나”로 묶어 두었을 것입니다. 93회의 자동 커밋이 가능했던 이유는 이 세 결정이 사전에 완결되어 있었기 때문입니다 출처. 같은 원리를 국내 대기업 시나리오에 적용하면, 삼성 DX “클라인”의 사내 롤아웃에도 “어느 하나의 편집 파일을 첫 타겟으로 잡을 것인지” 결정이 도입 초반 성과의 80%를 좌우할 가능성이 큽니다 출처.

L3 → L4 → L5 역량 래더

L 레벨	PL 역량 정의	진입 조건 (Vibe Coding 주제)
L3 수행 경험	pass@k·DORA·Attribution 지표를 측정	품질 게이트 v0.1이 OWASP ASI02·ASI03·ASI05 커버리지 기준으로 설계 + 위험 수치화 완료
L4 주도 산출	자기 팀 품질 게이트를 OWASP ASI01~10 매핑 기준으로 주도 설계	AutoResearch 3대 전제조건(Quantifiable Metric·Automated Evaluation·Single Editable File)을 1건 이상 실험 완료
L5 코칭·표준화	조직 품질 시스템을 AutoResearch 전제조건 기반으로 자동화하고 공유	Attribution 대시보드(AI-attributed defect rate·Review Confidence·Production regression·Familiarity index) 자동화 완료

6.4 3-role 통합 매트릭스 (9-cell, 역량 단일 축)

	현황 진단	L3 수행	L4 주도	L5 코칭·표준화
PO	제품 시나리오에 vibe/agentic 허용 곡선 없음	허용 곡선 10개 라벨 + 위험도 사전	OKR 정렬 + 분기 리뷰	OKR 템플릿 내재화 + 타 PO 코칭
PM	위임이 일정·원가·범위에 머물러 5층 가드레일 수직화 미적용	Delegation map v0.1 매핑	Multi-Agent 4 Layer 위임 + Runbook	조직 표준 + EU AI Act 정렬 + 타 조직 코칭
PL	QA 통과 후 43% 재디버깅, 테스트 하네스가 AI 실패 모드 미감지	ASI02·03·05 게이트 설계 + 수치화	AutoResearch 3전제 실험 + ASI01~10 매핑	Attribution 대시보드 자동화 + 공유

6.5 Mermaid #2 — 3-role 핸드오프

6.6 PMBOK 8판 리스크 관리 루프에 주입할 AI 특화 체크리스트

원 리서치 §PM 관점의 PMBOK 8판 편입을 실행 루프로 풀면 다음 5-단계 체크리스트가 됩니다 출처.

리스크 식별 — 프로젝트 데이터 흐름이 OWASP ASI04(공급망)와 ASI06(메모리 오염) 공격면에 노출되는가. 에이전트가 수정 가능한 파일이 allowlist로 제한되었는가.
리스크 분석 — AI-attributed defect rate 베이스라인이 존재하는가. 생산성 체감 vs 실측 격차(METR·Lightrun)의 교차 검증 계획이 있는가.
리스크 대응 — Multi-agent 4 Layer 파이프라인을 설계했는가. 킬 스위치와 롤백 경로 Runbook이 정비되어 있는가.
리스크 모니터링 — Review confidence score를 추적하는가. ASI01~10 인시던트 플레이북이 준비되어 있는가.
리스크 종료 — 릴리스별 AI 기여 통계가 postmortem의 필수 필드인가.

이 5단계는 Part 5의 Pentagon과 짝을 이룹니다. Pentagon이 “Day 1 → Week 1 → Month 1″의 시간축이라면, PMBOK 루프는 “식별 → 분석 → 대응 → 모니터링 → 종료”의 인과축입니다. 같은 프로젝트를 두 축으로 교차 점검하는 것이 PM의 실전 일과입니다.

6.7 AutoResearch 3대 전제조건 — PO·PM·PL 분담 (G4 자가검증 게이트의 부속 부품)

Product Growth의 PM 가이드에서 추출한 세 전제조건은 출처, 세 역할이 각자 하나씩 독립적으로 책임지도록 분담할 때에만 성립합니다.

전제조건	PO 책임	PM 책임	PL 책임
Quantifiable Metric	성공 메트릭 한 문장 선언	측정 주기·주체 위임	수집·집계 자동화 설계
Automated Evaluation	평가 대상 시나리오 정렬	평가 결과의 거버넌스 게이트 연결	평가 하네스 실험·측정
Single Editable File	편집 가능 범위의 정책 선언	allowlist의 변경 승인 경로 매핑	read-only 락 자동화

세 전제조건은 표면적으로 “기술 요건”처럼 보이지만, 실제로는 조직 의사결정 요건입니다. Quantifiable Metric은 “무엇을 성공으로 볼 것인가”를 PO가 결단하지 않으면 성립하지 않고, Automated Evaluation은 “누가 평가 결과를 거버넌스 게이트에 연결할 것인가”를 PM이 조율하지 않으면 동작하지 않으며, Single Editable File은 “편집 경계를 어떻게 보호할 것인가”를 PL이 설계하지 않으면 metric gaming의 입구가 됩니다 출처. 저는 이 셋을 “세 결단의 삼각형”이라고 부릅니다. 한 꼭짓점만 비어도 삼각형은 서지 못하고, 세 꼭짓점을 모두 채운 팀만 Shopify의 53% 가속 같은 실증을 재현합니다.

💬 Voice Box #3 — “이것을 PO·PM·PL의 언어로 해석하면”

저는 이 주제를 코칭할 때 세 개의 문장을 반복합니다. PO에게는 “vibe는 탐색의 언어, agentic은 감독의 언어, 당신이 둘의 경계선을 한 문장으로 선언해 주십시오”라고 말합니다. PM에게는 “가드레일은 옵션이 아닙니다. L1에서 L5까지 수직으로 쌓여 있고, 각 층마다 킬 스위치와 롤백 경로가 있어야 위임이 성립합니다”라고 말합니다. PL에게는 “ASI02·03·05 세 가지를 먼저 덮으면 43% 재디버깅의 대부분이 줄어듭니다. 그다음이 AutoResearch 세 전제조건입니다”라고 말합니다. 세 문장이 각자의 역할 언어로 해석되어야, 이 편의 제목이 코칭 현장에서 실행 문장으로 바뀝니다.

Part 7

실전: Quick Start Pentagon (역량 진입 조건으로 읽기)

Pentagon은 Part 4의 L3·L4·L5 래더에 진입하기 위한 최소 착수 동작을 배치한 실행표입니다. “Day 1에 뭘 하라”가 아니라 “L3에 진입하려면 Day 1까지 이것은 되어 있어야 한다”로 읽어 주십시오. Vibe Coding 주제는 특히 경계선 결정이 Day 1에 확보되지 않으면 후속 모든 게이트가 흔들리는 특성이 있어서, 10개 셀 중 1·2번(Day 1·L3 진입 조건)을 먼저 고정하는 것이 가장 경제적입니다. 삼성 DX “클라인” 사내 롤아웃·LGE WebEx 세미나 수강생 피드백·SKT Agent/Skill 피드백을 종합한 최소 공통 분모입니다.

7.1 자산 D — Quick Start Pentagon

#	시점 (L 진입 조건)	PO	PM	PL
1	Day 1 (L3 진입 조건)	제품 시나리오 상위 10개에 “vibe/agentic/금지”를 한 단어로 선언합니다	Delegation map v0.1을 5층 가드레일로 매핑합니다	OWASP ASI02·03·05 게이트 기준을 설계합니다
2	Day 1 (L3 진입 조건)	OKR 성공 메트릭 칸에 허용 곡선을 정의합니다	현재 프로젝트의 킬 스위치 존재 여부를 검증합니다	AI-attributed defect rate 수집 파이프라인을 측정합니다
3	Week 1 (L4 진입 조건)	비전 문장을 한 줄로 압축합니다	Multi-Agent 4 Layer를 위임 경로에 위임합니다	AutoResearch 3대 전제조건 1건을 실험합니다
4	Week 1 (L4 진입 조건)	분기 OKR 리뷰에 허용 곡선 리뷰 항목을 정렬합니다	L5 EU AI Act 고위험 체크리스트로 거버넌스를 게이팅합니다	Attribution 대시보드 v0.1을 자동화합니다
5	Month 1 (L5 진입 조건)	조직 OKR 템플릿에 “Vibe/Agentic Split”을 정렬합니다	조직 표준 위임 프레임을 다른 PM 조직에 조율합니다	품질 게이트를 ASI01~10 전면 커버리지로 설계합니다

7.2 하지 말 것

⚠️ 이 주제에서 하지 말 것

에이전트에게 평가 하네스·테스트 스위트·보안 정책 파일의 쓰기 권한을 열어두지 마십시오. AutoResearch가 metric gaming으로 수렴하는 가장 빠른 길입니다.
“좋아 보이면 머지” 규칙을 유지하지 마십시오. Attribution 지표 없이 AI 코드를 머지하는 88%의 조직 출처과 같은 실패 곡선에 앉게 됩니다.
클라이언트사이드 권한 검사 단독으로 인증을 처리하지 마십시오. Enrichlead·Base44·Moltbook이 모두 같은 경로로 실패했습니다 출처.
에이전트에게 “데이터 삭제” 권한을 상시 보유하게 하지 마십시오. Replit의 코드 프리즈 중 프로덕션 DB 삭제 사고가 같은 설계 결함에서 나왔습니다 출처.
한 에이전트에게 L3·L4의 검증 역할을 동시에 맡기지 마십시오. Author와 Critic이 같은 맥락을 공유하면 비평 기능이 붕괴합니다 출처.

7.3 PMBOK 8판 리스크 루프 × Pentagon 교차 체크

PM이 Day 1 이후 한 달 동안 반복해야 하는 일과는 다음 짝으로 정리됩니다.

Pentagon 시점	PMBOK 리스크 단계	PO 행동	PM 행동	PL 행동
Day 1	식별	시나리오 목록 정렬	Delegation map v0.1 매핑	ASI02·03·05 게이트 기준 설계
Week 1	분석	OKR 허용 곡선 정의	Multi-Agent 4 Layer 위임	AutoResearch 3전제 실험
Week 1	대응	허용 곡선 분기 리뷰 정렬	EU AI Act 거버넌스 게이팅	Attribution 대시보드 자동화
Month 1	모니터링	비전 1줄 압축	조직 표준 위임 프레임 조율	ASI01~10 전면 커버리지 설계
Month 1	종료	OKR 템플릿 내재화 정렬	Postmortem AI 기여 필드 조율	품질 시스템 자동화·공유

이 표는 Part 4의 9-cell 매트릭스와 동일한 행동을 시간축·인과축 두 관점에서 다시 배열한 것입니다. 두 관점을 교차 점검하면 “준비 과제는 있는데 리스크 단계가 빈다” 같은 누락이 쉽게 드러납니다.

마무리

2026년 5월 1일, Karpathy의 Sequoia 무대 한 문장 — “Vibe coding was the warmup. Agentic Engineering is here” — 은 PM 코칭의 의제를 통째로 바꿨습니다 출처. 2025년 봄까지 우리가 던지던 질문은 “어디까지 vibe로, 어디서부터 가드레일로”였고, 2026년 5월 이후 우리가 던지는 질문은 “위임을 어느 단위로 끊고, 각 단위의 자가검증을 어떻게 닫을 것인가” 입니다. 같은 시기 빅테크 4사(Anthropic 4-16 · OpenAI 5-14 · Google 5-19 · Microsoft 롤링 GA) + Cognition(4-15·23)이 모두 IDE+CLI+SDK+Managed Agents+Enterprise 5채널을 동시 출시한 것은 이 paradigm 전환에 도구 생태계가 같은 방향으로 응답한 결과입니다 출처.

이 편에서 저는 paradigm 전환의 본 게임 룰을 두 산출물로 옮겼습니다 — 위임 5단계 게이트(G1 계획·G2 도구·G3 실행·G4 자가검증·G5 반복) 와 5채널 동시 출시 매트릭스. 그 위에 워밍업 룰(5층 가드레일·OWASP ASI·AutoResearch 3전제·43% 재디버깅 진단)을 입력 조건으로 흡수시켰습니다. 다음 편에서는 이 5단계 게이트 위에서 멀티에이전트 시스템의 아키텍처 패턴(Supervisor·Swarm·Router)을 PO·PM·PL의 의사결정 관점에서 풀어 드리겠습니다.

💬 Voice Box #4 — 8주 시리즈에서 이 편의 자리

시리즈 1편에서 저는 MCP·A2A를 “에이전트에게도 API가 생겼다”로 해석했고, 2편에서는 PMBOK 8판의 Assistance/Augmentation/Automation 3-패턴을 “PM은 Traffic Controller에서 Strategy Orchestrator로”라는 Vargas의 문장으로 옮겨 드렸습니다. 이번 3편은 그 두 해석의 paradigm 전환점입니다. API가 있고 역할이 바뀌었다면, 그다음 질문은 “위임의 5단계 게이트를 어떻게 닫을 것인가”입니다. 4·5편에서 멀티에이전트 토폴로지와 AI-SDLC 프레임워크가 이어질 때, 이번 편의 위임 5단계 게이트와 5채널 동시 출시 매트릭스가 그 두 주제를 받치는 본 게임의 두 골조가 되도록 설계했습니다.

이 시리즈 지도

이전: Post 1 MCP·A2A 프로토콜 (2026-04-20) · Post 2 에이전틱 프로젝트 관리 (2026-04-27) 현재: Vibe Coding은 워밍업이었다 — Agentic Engineering 전환과 PO·PM·PL 가드레일 (시리즈 누적 37번째) 다음: Post 4 멀티에이전트 시스템 2026 (2026-05-11) · Post 5 AI-SDLC 프레임워크 (2026-05-18) · Post 6 RAG 지식관리·PM (2026-05-25) 월간 신호: Post 09 월간 관전포인트 2026-05 (Karpathy paradigm shift + 4사 5채널 동시 출시 + Cognition Devin 내장 신호 통합)

검색

RSS 구독

Vibe Coding와 에이전틱 엔지니어링 — PM 코치가 해석하는 PO·PM·PL의 가드레일

Vibe Coding은 워밍업이었다: Karpathy의 paradigm 종언 선언

0.1 무대 위의 선언 — Software 1.0 → 2.0 → 3.0

0.2 “워밍업”의 함의 — PM에게 옮기면

0.3 “워밍업의 룰”은 어떻게 되는가 — 구판 가드레일의 자리

Agentic Engineering 위임 5단계 게이트 (Karpathy 5-step × PMBOK 8)

1.0 두 표준의 결합 — Karpathy 5-step와 PMBOK 8 위임 절차

1.1 위임 5단계 게이트 (PM 트리거 질문 포함)

1.2 5단계 게이트 × PO·PM·PL 책임 분배

1.3 자가검증 게이트(G4)가 본 게임의 분수령

IDE 4사 동시 출시 사이클: 5 distribution shapes

2.0 동시에 같은 모양으로 등판한 5채널

2.1 5채널이 가지는 PM 함의 — 위임 5단계 게이트와의 정렬

2.2 도구 채택 시점의 PMBOK 8 결단표

현황 진단: "43%의 재디버깅"이 드러낸 경계선 (초기 가드레일 · 2025년 봄 기준)

3.1 2026 상반기 수치로 본 Vibe/Agentic 균열

3.2 Karpathy가 그은 경계선과 PM의 해석 (2026-02-10 1차 선언)

개념 심층: Vibe Coding vs Agentic Engineering vs AutoResearch (초기 가드레일 · 2025년 봄 기준)

4.1 세 가지 개념의 정의와 적용 맥락

4.2 Karpathy가 말한 “Agentic Engineering”의 6단계 루프 (AutoResearch 분해)

4.3 5층 가드레일 아키텍처 (Mermaid #1 · 초기 가드레일 매트릭스)

4.4 도구 생태계 — 2026-04 기준 성숙도 (5채널 매트릭스의 전사)

비교·한계·경고: 7개 실패 앱과 OWASP ASI 매트릭스 (초기 가드레일 · 2025년 봄 기준)

5.1 2열 비교 — Vibe Coding의 성공 경계 vs 실패 경계

5.2 실패 사례 7건 — 근본 원인의 구조

5.3 OWASP Top 10 for Agentic Applications 2026 — ASI01~10

5.4 품질 붕괴의 구조적 원인 — CodeScene 3대 가드레일

5.5 규제 타임라인과 엔터프라이즈 리얼리티

5.6 한국 트랙 — 삼성·LG의 2026 움직임

5.7 PM을 위한 의사결정 트리 (워밍업 룰 입력 도구)

5.8 실패를 초대하는 6가지 안티패턴

PO·PM·PL 3-Role Translation ⭐ (위임 5단계 게이트 × 5층 가드레일 통합)

6.1 PO의 관점 — “vibe 허용 영역”과 “가드레일 강제 영역”의 결단

현황 진단

L3 → L4 → L5 역량 래더

6.2 PM의 관점 — 5층 가드레일과 EU AI Act 대응 위임 구조

현황 진단

L3 → L4 → L5 역량 래더

6.3 PL의 관점 — OWASP ASI 매트릭스와 AutoResearch 3대 전제조건

현황 진단

L3 → L4 → L5 역량 래더

6.4 3-role 통합 매트릭스 (9-cell, 역량 단일 축)

6.5 Mermaid #2 — 3-role 핸드오프

6.6 PMBOK 8판 리스크 관리 루프에 주입할 AI 특화 체크리스트

6.7 AutoResearch 3대 전제조건 — PO·PM·PL 분담 (G4 자가검증 게이트의 부속 부품)

실전: Quick Start Pentagon (역량 진입 조건으로 읽기)

7.1 자산 D — Quick Start Pentagon

7.2 하지 말 것

7.3 PMBOK 8판 리스크 루프 × Pentagon 교차 체크

마무리

이 시리즈 지도

Related Posts (기존 34편 + 본 시리즈 8편 중 보완 각도)

이 글 공유하기:

이것이 좋아요:

Project Research에서 더 알아보기