Vibe Coding은 워밍업이었다 — Agentic Engineering 전환과 PO·PM·PL의 가드레일
본 글은 Vibe Coding → Agentic Engineering 전환 영역의 2026년 5월 시그널을 반영해 본문 약 50%+를 재작성한 v3 개정본입니다. 2026-04-18 v2 발행본 이후 1개월 사이 발생한 구조적 시그널을 통합하면서 다음 프레임 전환을 적용했습니다.
프레임 전환: 구판 ‘Vibe Coding 가드레일’은 ‘초기 가드레일 · 2025년 봄 기준’으로 재라벨링 → 본 게임 룰은 ‘Agentic Engineering 위임 5단계 게이트(G1~G5)’로 전환
통합된 1개월 시그널 (09편 월간 관전포인트 2026-05에서 도출):
- #9 Karpathy paradigm 종언 (2026-05-01) — Sequoia AI Ascent 2026 — Vibe Coding은 워밍업이었다 → Agentic Engineering. Software 1.0/2.0/3.0 framing. 위임 비율 80%로 역전 (출처)
- #1 Claude Opus 4.7 + #2 Codex 모바일 GA + #3 Antigravity 2.0 + #5 Devin/Windsurf — 빅테크 4사 + Cognition 5사가 모두 채택한 IDE+CLI+SDK+Managed Agents+Enterprise 5채널 동시 출시 패턴 (출처)
갱신 일자 2026-05-28 · 갱신 근거 추적은 09편 월간 관전포인트 — 1개월 시그널 13선 카드에서 1차 인용을 함께 확인하실 수 있습니다.
PM 코치가 해석하는 Agentic PM 시리즈 · 3편 “Karpathy가 2026-05-01 Sequoia AI Ascent에서 선언한 paradigm 전환을 PO·PM·PL의 위임 게이트로 옮깁니다”
2026년 5월 1일, Karpathy는 Sequoia AI Ascent 2026 무대에서 한 문장을 남겼습니다. “Vibe coding was the warmup. Agentic Engineering is here.” 그가 같은 자리에서 제시한 숫자는 더 단호했습니다 — “자가 작성 vs 위임 비율이 80%가 위임으로 뒤집힌 시점이 2025년 12월이었고, 그 변곡점 이후 프로페셔널 워크플로의 default가 완전히 바뀌었습니다” 출처. 같은 발표를 The New Stack은 “vibe coding은 이제 passé”로 출처, AIntelligence Hub는 “Karpathy: Vibe Coding to Agent Workflows”로 옮겼습니다 출처. Karpathy는 같은 무대에서 새 명명법까지 함께 제시했습니다. Software 1.0(명시적 코드)·2.0(신경망 학습)·3.0(LLM interpreter prompting). “이제 우리는 Software 3.0에서 코드를 쓰는 것이 아니라, LLM이라는 인터프리터에 자연어로 명령을 내리고 그 결과를 감독합니다” 출처.
이 선언은 같은 시기 4사 동시 사건과 맞물려 의미가 증폭됩니다. 2026-04-16 Claude Opus 4.7이 xhigh effort level과 Managed Agents private MCP sandbox를 함께 정식 출시했고 출처, 2026-05-14 OpenAI Codex가 mobile GA + Desktop Agent + 90+ plugin/MCP server 동시 출시로 background computer use 시대를 열었으며 출처, 2026-05-19 Google I/O 2026에서 Antigravity 2.0이 IDE+CLI(agy)+SDK+Managed Agents+Enterprise 5채널 동시 출시로 등판했습니다 출처. 한 달 전인 2026-04-15·23에는 Cognition이 Windsurf 2.0에 Devin을 내장하고 $25B valuation을 확정했습니다 출처. 빅테크 4사 + Cognition이 모두 IDE+CLI+SDK+Managed Agents+Enterprise라는 5채널 동시 출시 패턴을 채택한 것은 우연이 아닙니다 — Karpathy가 선언한 “위임 80%”가 도구 생태계에서 같은 방향으로 구체화된 것입니다.
PM 코치로서 저는 이 사건들을 한 문장으로 해석합니다. “이제 vibe·agentic의 경계선이 아니라, 위임의 5단계 게이트가 의제입니다.” 2025년 봄에 제가 코칭에서 반복했던 “vibe는 프로토타입까지, 엔터프라이즈는 가드레일부터” 문장은 여전히 유효하지만, 그 문장은 이제 워밍업의 룰이 되었습니다. 본 게임의 룰은 “에이전트에게 무엇을 어떤 순서로 위임할 것인가, 그리고 그 위임이 자가검증(self-verification)까지 닫히는가”입니다. 이 편에서는 그 본 게임의 룰을 Karpathy 5-step(계획·도구 사용·실행·자가검증·반복)을 PMBOK 8 위임 절차에 결합한 5단계 게이트로 풀어 드리고, 빅테크 4사 + Cognition의 5채널 동시 출시 매트릭스를 에이전트 코딩 도구 채택 시점 결단표로 변환합니다.
이 글은 Agentic PM 시리즈 마감편 8편 중 3편(시리즈 누적 37번째)입니다. 기존 34편에서 K-3 “Karpathy의 autoresearch: PM에서의 적용 사례” 가 루프 설계 철학을, K-4 “Karpathy: AI의 사고 체계를 PM에 어떻게 적용할까” 가 사고 체계를 다뤘습니다. 또 A-1 “AI 코딩 에이전트 거버넌스” 와 A-2 “AI가 코딩하고 AI가 관리한 1주일의 기록” 은 실전 거버넌스·프로덕션 일지의 원전입니다. 이 편은 그 위에 Agentic Engineering 위임 5단계 게이트 + 빅테크 4사 5채널 동시 출시 매트릭스 + 5층 가드레일 + OWASP ASI 매트릭스를 L3→L5 역량 래더로 통합합니다. 매월 1회 갱신되는 신호 흐름은 09편 「월간 관전포인트 2026-05」를 함께 참고해 주십시오.
- Karpathy가 2026-05-01 Sequoia AI Ascent에서 선언한 “Vibe Coding → Agentic Engineering” 전환의 의미는 무엇이고, PM이 그을 본 게임의 경계선은 어디인가요?
- Software 1.0/2.0/3.0 framing은 PO·PM·PL의 위임 의사결정에 어떻게 옮겨지나요?
- Agentic Engineering 위임 5단계 게이트(계획·도구·실행·자가검증·반복)는 PMBOK 8의 위임 절차와 어떻게 결합되나요?
- 빅테크 4사(Anthropic·OpenAI·Google·Microsoft) + Cognition의 5채널 동시 출시 패턴(IDE+CLI+SDK+Managed Agents+Enterprise)은 PM이 어느 시점에 채택해야 하나요?
- 엔터프라이즈 품질 붕괴(43% 재디버깅)와 OWASP Top 10 for Agentic Applications 2026(ASI01~10), AutoResearch 3대 전제조건은 위임 5단계 게이트 위에서 어떻게 정렬되나요?
근거: lecture/lge-webex-seminar-ai-agent-pm/02-slide-fulltext.md:277-283
Vibe Coding은 워밍업이었다: Karpathy의 paradigm 종언 선언
0.1 무대 위의 선언 — Software 1.0 → 2.0 → 3.0
2026-05-01 Sequoia AI Ascent 2026 무대에 오른 Karpathy는 자신이 1년 전 만든 용어를 스스로 사후 처리했습니다. 그의 표현은 다음과 같습니다.
“Vibe coding was the warmup. Agentic Engineering is here. The default is no longer writing 99% of the code yourself — it is delegating to agents, and overseeing them.” — Andrej Karpathy, Sequoia AI Ascent 2026 keynote, 2026-05-01 출처
The New Stack은 같은 발표를 “Vibe coding is passé”로 옮겼고 출처, AIntelligence Hub는 “Karpathy: Vibe Coding to Agent Workflows in May 2026″이라는 제목으로 같은 메시지를 정리했습니다 출처. 세 매체가 동시에 강조한 것은 자가 작성 vs 위임의 비율이 80%가 위임으로 뒤집힌 시점이 2025년 12월이었다는 점입니다. 즉, 선언 자체는 5월에 나왔지만 변곡점은 그보다 5개월 앞서 이미 지나갔던 것입니다.
Karpathy가 이 무대에서 함께 제시한 새 명명법이 Software 1.0 / 2.0 / 3.0입니다. Software 1.0은 사람이 명시적으로 if·while·for를 적는 전통 코드, Software 2.0은 데이터로 가중치를 학습시키는 신경망, Software 3.0은 LLM이라는 인터프리터에 자연어로 프롬프팅하여 동작을 지시하는 패러다임입니다 출처. 1.0 시대의 PM이 “코드를 검토”했다면, 2.0 시대의 PM은 “데이터셋과 가중치를 검토”했고, 3.0 시대의 PM은 “프롬프트와 에이전트의 행동을 검토” 합니다. 검토의 대상이 바뀐 것이 아니라, 검토의 단위(unit of review)가 매번 한 층씩 추상화되어 올라온 것입니다.
0.2 “워밍업”의 함의 — PM에게 옮기면
“warmup”이라는 표현은 단순한 수사가 아닙니다. AIntelligence Hub의 분석은 이 단어를 두 의미로 풀어냈습니다. 첫째, vibe coding은 단독 산출물로 끝나는 활동이 아니라 본 경기(=agentic engineering)를 위한 근육 풀기였다는 것 출처. 둘째, vibe coding이 만들어낸 “자연어로 의도를 전달하는 능력”은 폐기되는 것이 아니라 에이전트에게 위임 명령을 작성하는 능력으로 흡수된다는 것입니다. 즉, PO가 어제까지 “이런 기능을 만들고 싶어요”라고 vibe로 던지던 문장은, 오늘은 위임 명령서의 입력으로 그대로 재활용됩니다.
PM 코치의 해석은 이렇습니다. 워밍업이 끝났다는 것은 코칭의 의제가 바뀌었다는 뜻입니다. 2025년 봄까지 제가 코칭에서 가장 자주 던졌던 질문은 “어디까지 vibe로 허용하고 어디서부터 가드레일을 강제할 것인가”였습니다. 2026년 5월 이후 제 질문은 “위임을 어느 단위로 끊고, 각 단위의 자가검증을 어떻게 닫을 것인가” 로 옮겨졌습니다. 경계선의 문제는 5층 가드레일(Part 2.3)이 이미 해결했고, 본 게임의 문제는 위임 단위와 자가검증 closure입니다.
💬 Voice Box #1.5 — PM 코치의 paradigm 해석
Karpathy의 2026-05-01 선언을 PO·PM·PL의 언어로 옮기면 이렇습니다. PO에게는 “이제 시나리오 선언은 vibe 명령이 아니라 위임 명세서입니다 — 성공 메트릭과 검증 기준이 처음부터 포함되어야 합니다”라고 말합니다. PM에게는 “위임은 한 번에 통째로 일어나지 않습니다. 계획·도구·실행·자가검증·반복의 5단계 게이트를 차례로 닫아야 합니다”라고 말합니다. PL에게는 “Software 3.0에서 품질의 단위는 코드 라인이 아니라 에이전트 행동 시퀀스입니다. 행동 시퀀스를 재현·검증할 수 있는 하네스를 만드는 것이 PL의 새 직무 정의입니다”라고 말합니다.
0.3 “워밍업의 룰”은 어떻게 되는가 — 구판 가드레일의 자리
오해를 막기 위해 한 줄 덧붙입니다. Karpathy의 paradigm 종언 선언은 “vibe coding이 죽었다”가 아니라 “전문가 워크플로의 default가 바뀌었다”는 뜻입니다 출처. 프로토타입·해커톤·개인 탐구에서 vibe는 여전히 유효한 양식이고, 워밍업이 사라진 운동선수가 없듯 워밍업의 룰(=2025년 봄 기준 가드레일)도 본 게임 안으로 흡수됩니다. 다만 그 가드레일은 본 게임에서는 단독 골조가 아니라 위임 5단계 게이트의 입력 조건이 됩니다. 본 편의 Part 2·3은 이 흡수 관계를 보여주기 위해 구판 가드레일을 “초기 가드레일 (2025년 봄 기준)”으로 재배치한 뒤, Part 4에서 위임 5단계 게이트 위에 다시 묶습니다.
Agentic Engineering 위임 5단계 게이트 (Karpathy 5-step × PMBOK 8)
1.0 두 표준의 결합 — Karpathy 5-step와 PMBOK 8 위임 절차
Karpathy가 Sequoia 무대에서 제시한 Agentic Engineering 5단계는 다음과 같습니다 출처.
- 계획(Plan) — 에이전트가 사람의 의도를 작업 그래프로 분해합니다.
- 도구 사용(Tool Use) — 필요한 도구·MCP 서버·외부 API를 호출합니다.
- 실행(Execute) — 코드 수정·파일 작성·테스트 실행 등 행동을 수행합니다.
- 자가검증(Self-Verify) — 결과가 목표·메트릭·평가 기준에 맞는지 스스로 점검합니다.
- 반복(Iterate) — 자가검증 실패 시 1단계로 돌아가 다시 계획합니다.
이 5단계를 PMBOK 8판의 위임 절차(범위·일정·원가·품질·리스크 5영역)에 결합하면 다음의 위임 5단계 게이트가 됩니다. PMBOK 8판이 AI를 별도 부록이 아니라 performance domain 전반에 편입한 맥락 출처을 적용한 결과입니다.
1.1 위임 5단계 게이트 (PM 트리거 질문 포함)
5개 게이트를 모두 닫을 때에만 “에이전트에게 위임했다”고 선언할 수 있습니다. 하나라도 비어 있으면 그것은 위임이 아니라 방치입니다. AIntelligence Hub는 같은 맥락을 “from vibe to agent workflows requires closed-loop verification”으로 정리했습니다 출처.
1.2 5단계 게이트 × PO·PM·PL 책임 분배
이 표는 Part 4의 9-cell 매트릭스(PO·PM·PL × L3·L4·L5)와 수직으로 짝을 이룹니다. 9-cell이 “역량 진입 조건”이라면 5단계 게이트는 “위임 행위의 폐쇄(closure) 조건”입니다. 두 표를 같은 회의실에 띄워두고 매주 한 칸씩 채워 가는 것이 본 게임의 운영 리듬입니다.
1.3 자가검증 게이트(G4)가 본 게임의 분수령
5개 게이트 중 가장 자주 비어 있는 것이 G4 자가검증입니다. Karpathy는 같은 발표에서 “self-verification 없이 4단계까지만 위임하는 것은 위임이 아니라 spray-and-pray”라고 말했습니다 출처. 본 시리즈의 K-3편이 다룬 AutoResearch의 3대 전제조건(Quantifiable Metric · Automated Evaluation · Single Editable File)이 정확히 이 G4 게이트의 세 부속 부품입니다. 즉, AutoResearch가 닫혔다면 G4도 닫힙니다. AutoResearch가 비어 있다면 G4 우회로는 없습니다.
ℹ️ 핵심 인사이트 위임 5단계 게이트 중 G4(자가검증)가 가장 자주 비어 있고, 가장 큰 사고의 원인이 됩니다. PM이 이번 분기에 단 하나의 산출물만 만들 수 있다면, 자가검증 하네스 + 그 하네스에 대한 락(lock) 정책을 우선 만들기를 권합니다.
IDE 4사 동시 출시 사이클: 5 distribution shapes
2.0 동시에 같은 모양으로 등판한 5채널
2026-04~05 두 달 사이에 빅테크 4사 + Cognition은 같은 5채널 모양(IDE + CLI + SDK + Managed Agents + Enterprise)으로 동시 출시했습니다. 이 5채널이 우연의 일치라고 보기는 어렵습니다 — Karpathy가 5월 1일에 선언한 “위임 default”가 도구 생태계에서 같은 모양으로 구체화된 것입니다.
출처: Claude Opus 4.7 출처 · GitHub Copilot 4.7 changelog 출처 · OpenAI Codex app 출처 · Codex changelog 출처 · TechCrunch Codex mobile 출처 · Google Antigravity 2.0 TechCrunch 출처 · MarkTechPost Antigravity 2.0 출처 · Cognition Windsurf 2.0 출처 · Cognition $25B 출처.
2.1 5채널이 가지는 PM 함의 — 위임 5단계 게이트와의 정렬
5채널은 우연의 같은 모양이 아니라 위임 5단계 게이트의 정확한 거울입니다.
- IDE는 G1 계획·G3 실행을 사람과 같은 화면에서 폐쇄합니다.
- CLI는 G2 도구·G5 반복을 헤드리스 자동화로 폐쇄합니다.
- SDK는 G2 도구·G4 자가검증을 코드에서 폐쇄합니다.
- Managed Agents는 G3 실행·G5 반복을 사람 컴퓨터 밖에서 폐쇄합니다.
- Enterprise는 G2 도구·G3 실행·G5 반복을 조달·감사·정책에서 폐쇄합니다.
즉, 4사 + Cognition은 모두 위임 5단계 게이트를 closure할 수 있는 풀스택 채널을 동시에 갖춰야 한다는 결론에 동시에 도달한 것입니다. PM이 이 매트릭스를 읽는 법은 단순합니다 — 자기 조직이 어느 게이트를 가장 자주 비워두는지를 먼저 진단하고, 그 게이트를 닫아주는 채널을 우선 채택하면 됩니다. G4가 비어 있다면 SDK/Managed Agents가 우선이고, G2가 비어 있다면 Enterprise가 우선입니다.
2.2 도구 채택 시점의 PMBOK 8 결단표
💬 Voice Box #1.7 — 채택 순서에 대한 PM 코치의 권고
저는 워크숍에서 “어느 회사 도구가 최선인가요?”라는 질문을 받을 때마다 답을 돌려드립니다. “먼저 5채널 중 어디가 비어 있는지부터 보세요.” 같은 조직 안에서도 G1·G3은 사내 IDE로 닫혀 있고, G4·G5만 비어 있는 경우가 많습니다. 그렇다면 SDK + Managed Agents 두 채널만 우선 채택하면 됩니다. 반대로 G2가 조달·감사 때문에 비어 있다면 Enterprise tier가 첫 번째 선택입니다. 회사를 고르는 것이 아니라 채널을 고르는 것이 본 게임의 PM 결단법입니다.
현황 진단: "43%의 재디버깅"이 드러낸 경계선 (초기 가드레일 · 2025년 봄 기준)
이 Part는 워밍업 룰(2025년 봄~2026-02-10 시점 기준)의 정량 근거를 압축한 섹션입니다. 본 게임 룰(Karpathy 2026-05-01 선언 이후)은 Part 0·1·2에서 다뤘고, 이 Part는 본 게임 룰의 입력 조건으로 흡수됩니다.
저는 2025년 하반기부터 세 현장에서 “Vibe Coding을 우리도 도입해 보자”는 발언을 반복해서 들었고, 거의 같은 빈도로 “벌써 도입했는데 왜 프로덕션에서는 안 되지?”라는 후속 질문을 받았습니다. 공통점은 단 하나, 경계선이 비어 있었다는 것이었습니다. Karpathy의 2026-02-10 1차 선언과 Lightrun의 43% 재디버깅 숫자는 이 빈칸의 규모를 정량화한 것입니다. 2026-05-01 paradigm 선언은 이 빈칸의 책임을 위임 5단계 게이트로 이관시켰습니다.
3.1 2026 상반기 수치로 본 Vibe/Agentic 균열
이 표는 두 개의 그림을 동시에 보여 줍니다. 첫째, 생산성 역설이 아직 끝나지 않았다는 사실입니다. 개발자가 주당 근무시간의 38%를 디버깅과 검증에 쓴다는 것은, 2025년 METR 연구에서 “AI 도구 사용 시 오히려 19% 느려졌다”는 결과 출처가 1년 뒤에도 전혀 해소되지 않았다는 뜻입니다. METR 본인들도 2026년 2월 연구 설계를 다시 업데이트하면서 “체감 속도와 실측 속도의 괴리는 계속 벌어지고 있다”고 인정했습니다 출처.
둘째, 배포 속도가 가드레일 설계 속도를 이미 추월했다는 사실입니다. 51%의 조직이 에이전트를 프로덕션에 올렸는데 63%는 목적 제한을 강제하지 못하고 60%는 종료하지 못합니다. 배포는 배포인데 통제 스위치가 없는 배포입니다. 이 상태에서 Karpathy가 “vibe coding은 passé” 선언을 낸 것은 기술 유행의 변경이 아니라 리스크 곡선의 변곡점입니다.
Lightrun 리포트의 그 다음 숫자도 맥락을 완성합니다. 런타임 가시성 부족을 1순위 병목으로 지목한 SRE·DevOps 리더는 60%였고, AI SRE/APM 조사 실패의 44%가 실행 레벨 데이터 누락이 원인이었습니다. 현 관측 스택으로 자동 RCA(Root Cause Analysis)나 원격 복구를 신뢰하지 않는 리더가 77%에 달합니다 출처. 즉, 프로덕션의 기저에 “에이전트가 무엇을 했는지 보이지 않는” 어두운 구간이 여전히 광범위하게 남아 있다는 뜻입니다. PM이 감독 주기를 설계할 때 이 가시성 부재는 “자동 롤백의 허용 범위”에 직접 영향을 줍니다.
3.2 Karpathy가 그은 경계선과 PM의 해석 (2026-02-10 1차 선언)
Karpathy의 2026-02-10 1차 선언 원문은 다음과 같습니다.
“today (1 year later), programming via LLM agents is increasingly becoming a default workflow for professionals, except with more oversight and scrutiny.” — Karpathy, 2026-02-10 출처
이 1차 선언은 “프로토타입·데모·개인 탐구에는 vibe가 살아 있지만, 프로페셔널 워크플로우에는 oversight와 scrutiny가 기본값으로 삽입된다“는 뜻이었습니다. 2026-05-01 Sequoia 무대의 2차 선언(Part 0)은 여기에 “warmup이 끝났다 → 80% 위임이 default” 라는 정량 기준을 추가하면서 paradigm 종언을 공식화했습니다.
💬 Voice Box #1 — PM 코치의 워밍업 룰 해석
워밍업 룰은 세 줄로 압축됩니다. PO는 “어느 시나리오에서 vibe를 허용하고, 어디서 가드레일을 강제할지”를 선언합니다. PM은 “목적 제한과 종료 권한을 어떤 게이트에 배치할지”를 위임 경로로 매핑합니다. PL은 “43% 재디버깅을 만드는 구조적 결함을 막을 품질 게이트”를 설계합니다. 이 세 줄은 Part 0·1·2의 본 게임 룰(위임 5단계 게이트)의 입력 조건으로 흡수됩니다.
개념 심층: Vibe Coding vs Agentic Engineering vs AutoResearch (초기 가드레일 · 2025년 봄 기준)
이 Part도 워밍업 룰의 정량 근거를 압축한 섹션입니다. 본 게임 룰의 입력 조건으로 사용됩니다.
aipm 레포의 CLAUDE.md 상단에 박힌 네 줄(“destructive operations 사용자 확인 전 실행 금지”, “plan mode + plansDirectory: ./docs/plans 강제”, “Proposal-only 규율”, “Phase별 체크포인트 필수”)은 vibe·agentic·autoresearch 세 개념의 차이를 코드화된 가드레일로 표현한 실전 예입니다. vibe는 “탐색”의 언어이므로 destructive 권한이 원천 차단되고, agentic은 “감독”의 언어이므로 plan mode + 체크포인트가 강제되며, autoresearch는 “루프”의 언어이므로 proposal-only 규율로 편집 경계가 락됩니다. 이 세 개념은 본 게임 룰에서는 위임 5단계 게이트의 G3(실행)·G4(자가검증)·G5(반복)에 각각 흡수됩니다.
4.1 세 가지 개념의 정의와 적용 맥락
세 개념은 병렬이 아니라 성숙도 스택입니다. vibe가 바닥(탐색)이고, agentic이 중간(감독 하의 생산), autoresearch가 맨 위(메트릭 기반 자동 개선)입니다. 같은 조직에서 세 개가 동시에 공존할 수 있지만, 같은 산출물 안에서는 섞이지 않아야 합니다.
이 스택을 시간순으로 다시 보면 Karpathy의 공개 타임라인이 정확히 이 계단을 오르고 있었다는 것이 드러납니다.
- 2025년 2월: “vibe coding” 용어 최초 제안. “fun throwaway projects, demos, and explorations”용이라는 단서 명기 출처.
- 2025년 12월: “AI coding agents crossed a coherence threshold”. 전문가용 기본 워크플로로 이동할 수 있는 단계 도달 출처.
- 2026년 2월 10일: “Agentic Engineering” 공식 제안. 감독(oversight)과 정밀 감시(scrutiny)가 기본값이 된 워크플로 선언.
- 2026년 3월 7일:
karpathy/autoresearch공개. closed-loop 실증.
Karpathy는 같은 인터뷰에서 “manual coding skills atrophying”을 직접 인정했고, “personality matters between agent tools”라고 덧붙였습니다 출처. 이 두 문장이 내포한 뜻은 분명합니다. 도구 성숙도가 올라갈수록 사람의 실무 역량은 “검증·감독”에 재배치되어야 한다는 것, 그리고 도구별 행동 특성은 품질 게이트에 그대로 반영되어야 한다는 것입니다.
4.2 Karpathy가 말한 “Agentic Engineering”의 6단계 루프 (AutoResearch 분해)
karpathy/autoresearch를 해부하면 다음 6단계가 드러납니다 출처.
- 학습/목표 코드 읽기
- 변경 제안
- 5분 이내 학습·평가 작업 실행
- 성능 측정
- 개선되면 commit, 아니면 rollback
- 무기한 반복
엔터프라이즈 매핑에서 중요한 것은 3·4·5단계입니다. 3단계(실행)와 4단계(측정)가 자동화되지 않으면 루프는 성립하지 않습니다. 5단계의 rollback 경로가 사람 승인 없이도 안전하면 PM은 감독 주기를 넓힐 수 있고, 반대로 rollback이 사람 손을 타면 감독 주기를 좁혀야 합니다. 즉, autoresearch는 “AI를 믿는 정도”가 아니라 “rollback의 안전성 곡선”을 설계하는 문제입니다.
AutoResearch의 실증 데이터는 다음 숫자로 요약됩니다 출처.
- 공개일: 2026-03-07
- 한 달 내 GitHub stars: 66,000+ / forks: 9,600+
- 2일간 실험 횟수: 700회
- 자동 발견 최적화: 20개
- 코드 규모: 학습 코드 ~630 lines + Markdown prompt 1개
Kirill Krainov의 2026-03-25 분석은 “autoresearch가 단순 prompt tuning이 아니라 에이전트가 코드 자체를 편집하기 때문에 closed-loop의 의미가 달라진다”고 정리했습니다 출처. Shopify 사례의 93회 자동 커밋 / 53% 가속은 이 편집 권한과 메트릭이 동시에 성립할 때의 생산성을 보여 주는 첫 공개 케이스입니다.
ℹ️ 핵심 인사이트 Agentic Engineering의 난이도는 모델 품질이 아닙니다. rollback 경로의 신뢰도입니다. rollback이 안전하면 루프는 돌고, rollback이 불확실하면 루프는 멈춥니다. PM이 설계할 것은 “얼마나 자동화할까”가 아니라 “얼마나 안전하게 되돌릴 수 있는가”입니다.
4.3 5층 가드레일 아키텍처 (Mermaid #1 · 초기 가드레일 매트릭스)
Part 1의 현황을 받아, PM이 설계해야 할 5층 가드레일을 다음과 같이 시각화합니다. L1~L5 각 층은 위임의 전제조건이지 실행 순서가 아닙니다.
이 구조는 원 리서치의 “5층 가드레일” 매트릭스를 PMBOK® 8th의 performance domain 편입 관점에서 재정렬한 것입니다 출처. PMBOK 8판은 AI를 별도 부록이 아니라 process groups와 performance domains 전반에 공식 편입했습니다. 즉, 가드레일은 리스크 관리 지식영역의 한 칸이 아니라 모든 도메인을 가로지르는 수직 축입니다.
4.4 도구 생태계 — 2026-04 기준 성숙도 (5채널 매트릭스의 전사)
Part 2의 5채널 매트릭스가 본 게임 룰입니다. 아래 표는 4월 시점의 워밍업 단계 정리를 보존합니다.
원 리서치 §2를 PM 관점에서 축약하면 다음 표가 됩니다. 이 표는 “어느 도구가 더 낫나”를 가리는 것이 아니라, 각 도구가 PL의 품질 게이트와 어떻게 결합되는가를 보여 줍니다.
iBuildR Research의 2026-03 표준 테스트에서는 반응형 데이터 테이블을 Cursor가 2 라운드, Windsurf 3 라운드, Copilot 5 라운드 + 수동 수정으로 완성했습니다 출처. 4월 시점의 합의는 다음 한 줄입니다. “도구의 우열보다 워크플로 설계가 성과를 좌우합니다.” 같은 도구로 다른 품질이 나오는 이유는 L3 검증 파이프라인의 유무이지 모델 버전이 아닙니다 출처. PL이 먼저 할 일은 “도구 선정”이 아니라 “선택된 도구를 감싸는 게이트 설계”입니다.
NxCode의 비교 연구는 “2026년 기준 베스트 AI 코딩 툴”이라는 제목으로 세 도구의 강점을 정리하면서도, 결론부에서 “어떤 도구를 선택하더라도 품질 게이트가 없으면 같은 결과가 재현된다”고 명시했습니다 출처. 이 메시지는 PL이 도구를 이해관계자에게 설명할 때 자주 받는 질문 — “어느 도구가 제일 좋나요?” — 에 대해 “같은 게이트를 통과할 수만 있다면 어느 쪽이든 괜찮습니다”라고 돌려줄 수 있는 근거가 됩니다.
- PMBOK 8: Risk Domain 5-step · Navigate Complexity
- SAFe 6: Team: Built-in Quality · Program: DevOps & Release on Demand
- BABOK v3: 8.2 Requirements Verification · Configuration Management
- SEBOK v2.x: Part 5 Enabling Teams · V&V
(전체 32-cell 매핑은 시리즈 진입 가이드의 부록 D에서 확인)
비교·한계·경고: 7개 실패 앱과 OWASP ASI 매트릭스 (초기 가드레일 · 2025년 봄 기준)
워밍업 룰의 실패 사례·OWASP ASI 매트릭스·규제 타임라인을 압축 보존한 섹션입니다. 본 게임 룰에서는 위임 5단계 게이트(Part 1)와 5채널 매트릭스(Part 2)의 G4·G5 게이트로 흡수됩니다.
“Vibe Coding 실패 7건”을 추적하면 결론은 단순합니다 — 기술적 실패는 없고, 전부 설계 결정의 실패입니다. Enrichlead·Base44·Moltbook·Replit은 각자 다른 제품이었지만 같은 실수를 공유했습니다 (클라이언트사이드 권한 검사 단독, allowlist 없는 쓰기 권한, 평가 하네스에 대한 편집 권한, 롤백 경로 부재). Gartner의 40% 취소 경고와 OWASP Top 10 for Agentic Applications 2026(ASI01~10) 발표는 이 경계선 결정의 외부 강제력을 공급했고, 본 게임 룰에서는 모두 G3 실행 게이트 + G4 자가검증 게이트의 closure 조건으로 흡수됩니다.
5.1 2열 비교 — Vibe Coding의 성공 경계 vs 실패 경계
5.2 실패 사례 7건 — 근본 원인의 구조
출처: Autonoma 7 Real Apps That Broke in Production
7건 모두의 공통 원인은 “모델이 잘못된 코드를 뱉었다”가 아닙니다. (1) 인증/권한의 구조적 설계 결함, (2) 에이전트 수정 범위의 미정의, (3) 롤백·종료 권한의 부재입니다. Kiteworks가 지적한 “종료 불가 60%, 목적 제한 불가 63%”와 정확히 동일한 패턴입니다 출처.
5.3 OWASP Top 10 for Agentic Applications 2026 — ASI01~10
원 리서치 §5.1을 압축해 PL이 바로 매핑할 수 있도록 정리했습니다 출처.
“상” 우선 3건(ASI02·03·05)은 Replit·Base44·Orchids 사례와 1:1로 대응합니다. PL이 품질 게이트 v0.1을 만들 때 이 세 개만 먼저 덮어도 실패 확률이 실증적으로 급감하는 이유입니다. OWASP Gen AI Security Project의 공식 발표 자료도 동일한 우선순위를 제시하며, 2026년 100+ 산업 전문가의 공동 검토를 거쳤다고 명시했습니다 출처. Teleport의 주요 시사점 정리에서도 ASI02·ASI05를 “모델 레이어가 아닌 시스템 레이어에서 막아야 하는 위협”으로 분류합니다 출처.
참고로 2026년 2월 SecurityScorecard는 공개 노출된 OpenClaw 인스턴스를 135,000+ 개 관찰했고 그중 53,000+ 개가 이전 침해와 상관관계가 있었다고 보고했습니다 출처. 같은 월 Snyk는 ClawHub에서 280+ “Leaky Skills”(API 키·PII 노출)를 찾아냈습니다. 이는 ASI04(Supply Chain)·ASI06(Memory Poisoning)이 이미 실사용 환경에서 트리거되고 있음을 뜻합니다. Trend Micro는 2026년 3월 “The Real Risk of Vibecoding” 글에서 “비개발자 vibe coder가 프로덕션에 올리는 코드의 보안 결함은 전통적 OWASP 10이 아니라 ASI 계열로 진단되어야 한다”고 명시했습니다 출처.
5.4 품질 붕괴의 구조적 원인 — CodeScene 3대 가드레일
CodeScene은 동일 현상을 세 축으로 재정리했습니다 출처.
- Code Quality — CodeHealth™ 같은 정량 지표로 회귀를 추적합니다. AI가 35~69% 확률로 오류 코드를 생성한다는 전제에서, 자동 테스트 방어선 없이는 머지 자체가 위험입니다 출처.
- Code Familiarity — 처음 보는 코드 수정 시 소요 시간이 93% 증가한다는 연구 기반입니다. 팀 단위 친숙도 시각화 없이는 AI가 생성한 낯선 코드가 팀의 디버깅 시간을 눈덩이처럼 키웁니다.
- Test Coverage — AI 코드는 “사람이 본 적 없는 경로”를 만들기 쉽기 때문에 커버리지 경계가 PR 단계에서 강제되어야 합니다.
TFiR는 같은 주제에서 2026년의 4대 거버넌스 예측을 제시했습니다 출처.
- AI-attributed regression rate / incident severity / review confidence score가 공식 지표로 채택됩니다.
- 제3자 검증 도구가 필수 리스크 완화 장치로 승격됩니다.
- Multi-agent validation 워크플로(작성 → 비평 → 테스트 → 컴플라이언스)가 표준화됩니다.
- 공식 거버넌스 프레임워크(허용 AI 사용, 문서 요건, 리뷰 기대치, 에스컬레이션 경로)가 내규 수준으로 도입됩니다.
QueryPie의 2026 Edition White Paper는 여기에 “AI 에이전트 전용 권한 스코프와 Rate Limit”을 추가 가드레일로 제시하며, 특히 엔터프라이즈의 경우 사용자 ID와 에이전트 ID를 분리 발급해 로그 체인을 끊지 않는 설계를 권고합니다 출처. Iterathon의 가이드는 2026년 프로덕션 구현 관점에서 “사람 in-the-loop 근접도”, “샌드박스화된 도구 호출”, “관찰 가능성(Observability) 우선”을 3대 운영 원칙으로 꼽았습니다 출처.
5.5 규제 타임라인과 엔터프라이즈 리얼리티
규제는 Part 4의 PM L5 층에서 직접 작동합니다. 핵심 타임라인은 다음 세 줄입니다.
- EU AI Act 고위험 조항: 2026년 8월부터 전면 시행됩니다 출처.
- Gartner 예측: 2026년 말까지 AI 관련 법적 분쟁이 2,000건을 초과하며, 그 직접 원인으로 가드레일 부족이 지목됩니다.
- Atlan 2026 엔터프라이즈 가이드: 에이전트 리스크는 데이터 도메인(소유자 불명확, 기밀 데이터 유출, 드리프트)과 운영 도메인(종료 불가, 체인 붕괴)이 결합되어 작동합니다 출처.
The New Stack은 2026년 연재에서 “vibe coding이 엔터프라이즈 리얼리티 체크에서 실패한다”고 결론 냈고 출처, 후속 글에서는 “카타스트로픽 폭발”의 조건까지 정리했습니다 출처. Level Up Coding의 2026-04 분석은 “Vibe Coding Doesn’t Scale: The Enterprise Cliff”라는 제목으로 규모 확장 시 무너지는 지점을 차트로 시각화했습니다 출처. Digital Applied는 엔터프라이즈에서 vibe coding의 보안 리스크를 산업별 데이터로 분해했습니다 출처. Long Island NY의 2026-04-09 기사는 “40% 빨라진다고 믿지만 모래 위에 짓고 있다”는 표현으로 개발자 리더들의 체감을 압축했습니다 출처.
5.6 한국 트랙 — 삼성·LG의 2026 움직임
한국 대기업은 2026년 상반기에 에이전틱 엔지니어링을 사내 표준으로 전환하는 작업을 시작했습니다.
- 삼성전자 DX 부문은 2026년 AI 코딩 어시스턴트 “클라인(Kline)” 베타 서비스를 시작했고, “보조”가 아니라 “SW 개발 전 과정 자율 수행” 수준을 목표로 설계했습니다 출처.
- LG CNS는 기존 코딩 지원 AI를 분석·설계·품질 진단을 포함한 전과정형 플랫폼으로 확장했고, 2026년에는 기업용 에이전트 운영 환경으로 의제를 옮겼습니다. AI Tech Summit 2026은 “소버린 AI · 에이전틱 AI 전환”을 핵심 의제로 선언했습니다 출처.
- Raylogue의 2026 분석은 “에이전틱 AI 원년, 한국 기업의 위치”를 중견기업까지 내려와 짚어 냈습니다 출처. CIO Korea는 같은 기간 국내 개발자 AI 지원의 실제 사용 현황을 정리했습니다 출처.
즉, 2026년 상반기에 PM 코치가 한국 대기업에 들어가서 만나는 질문은 “AI 도구를 도입할까”가 아니라 “이미 도입된 도구를 어떻게 가드레일 안에 넣을까”입니다. 이 맥락이 Part 4의 PM·PL 실행 과제를 즉시 적용 가능하게 만듭니다.
5.7 PM을 위한 의사결정 트리 (워밍업 룰 입력 도구)
원 리서치 §PM 관점의 의사결정 트리를 블로그 독자용으로 다시 정리하면 다음과 같습니다.
[신규 기능 요청]
├── 고객 데이터/규제/매출 영향 있는가?
│ ├── YES → Agentic Engineering (5층 가드레일 전면 적용)
│ └── NO → 다음 질문
├── 내부 자동화/프로토타입인가?
│ ├── YES → Vibe Coding 허용 (L1·L2만 적용)
│ └── NO → Agentic Engineering
└── 데이터 접근/도구 호출 권한을 에이전트가 요구하는가?
├── YES → L4 OWASP 매트릭스 필수 통과
└── NO → L3 검증 파이프라인까지만
이 트리는 PM이 스펙 리뷰 회의에서 5분 안에 경계선을 결단하도록 도와줍니다. 질문 세 개를 차례로 던지면 L1·L2·L3·L4의 개입 범위가 자동으로 결정되고, 그 결과가 Delegation map의 해당 칸에 바로 채워집니다. 저는 이 트리를 벽에 붙여 둘 것을 권합니다. “이번 기능은 vibe인가 agentic인가”의 논쟁이 반복되는 것을 막는, 가장 경제적인 도구입니다.
5.8 실패를 초대하는 6가지 안티패턴
💬 Voice Box #2 — PM 코칭 현장에서 본 흔한 함정
저는 2026년 1분기에만 워크숍 네 곳에서 “우리 팀도 autoresearch 같은 closed-loop를 붙이고 싶다”는 질문을 받았습니다. 그때마다 저는 질문을 돌려드립니다. “정량 메트릭이 하나라도 있으신가요? 자동 평가가 사람 없이 돌아가나요? 에이전트가 수정할 수 있는 파일 목록을 allowlist로 정리하셨나요?” 세 질문 중 하나라도 “아직”이라는 답이 나오면 저는 루프 설계보다 L2·L3부터 함께 정리합니다. AutoResearch는 “AI가 똑똑해서” 도는 것이 아니라 세 가지 전제조건이 채워져 있어서 도는 시스템입니다. 전제조건을 건너뛰고 루프만 붙이면, 에이전트는 곧 평가 하네스 자체를 고쳐서 metric gaming으로 수렴합니다. 그 순간 당신의 프로덕션은 “좋아 보이는 숫자 밑의 재앙”이 됩니다.
PO·PM·PL 3-Role Translation ⭐ (위임 5단계 게이트 × 5층 가드레일 통합)
- L3 수행(Performance) — 팀 단위 반복 운영 + Named Owner 지정 + 기본 가드레일. 진입 조건: 주 5회 이상 AI 협업 · SOP 1건.
- L4 주도(Leadership) — 조직 표준 내재화 + OKR 정렬 + 월간 대시보드. 진입 조건: 부서 간 공유 SOP · 12지표 대시보드 운영.
- L5 코칭·표준화(Coaching & Standardization) — 타 조직·업계 코칭 + 외부 표준 기여. 진입 조건: 외부 강연·컨설팅·표준 기고 3건/년+.
(L1~L2 및 L 전환 Trigger 상세는 부록 C “L1~L5 성숙도 표준 정의” 참조)
이 시리즈는 8편 전체에서 단계적 과제(Day 1·Week 1·Month 1) 대신 L3→L4→L5 역량 래더를 공통 축으로 씁니다. Post 1·2에서 설명드렸지만 한 번 더 짚으면, 제가 삼성 GAUSS 5,665 Q&A 라벨링·LG PM Competition 68명 인증·SKT Agent/Skill 83건 PMO 심사 세 현장을 가로지르며 확인한 것은 “Day 1에 뭘 할까”의 답이 조직마다 완전히 다르다는 점입니다. Vibe Coding 주제는 특히 더 그렇습니다 — A 조직에서는 “vibe 허용 영역”이 이미 결정되어 있고, B 조직에서는 경계선 자체가 비어 있고, C 조직에서는 법무팀이 경계선을 가져가 버린 상태입니다. 반면 L3 수행 → L4 주도 → L5 코칭·표준화 래더는 세 조직 모두에서 같은 방향을 가리킵니다. aipm 레포가 실제로 운영하는 CLAUDE.md 거버넌스 규칙(superpowers 보완·destructive action 격리·test-first validation·worktree 격리·proposal-only 규율)은 L3~L5 래더의 각 지점에 대응하는 실제 코드화된 가드레일입니다. Part 4는 Vibe Coding 주제의 5층 가드레일과 OWASP ASI 매트릭스를 이 L3→L5 래더 위에 얹어 PO·PM·PL 각각의 진입 조건으로 해석합니다.
- 역량(Competency) — 이 시리즈의 공통 축: L3 수행 경험 → L4 주도 산출 → L5 코칭·표준화
- 맥락(Context) — 편별 변주 축: Vibe Coding 주제의 L3·L4·L5 “진입 조건” 1줄 명시
- 루브릭 근거:
prompts/competency-framework-survey-prompt-pack.md:149-162
6.1 PO의 관점 — “vibe 허용 영역”과 “가드레일 강제 영역”의 결단
현황 진단
PO가 당면한 문제는 “에이전트를 쓸지 말지”가 아닙니다. “제품 시나리오 중 어느 범위까지 vibe를 허용할지”입니다. 같은 제품 안에서도 내부 운영 도구와 고객 결제 흐름은 전혀 다른 허용 곡선을 가져야 합니다. Lightrun의 43% 재디버깅 숫자는 “허용 곡선 없이 전 영역에 vibe를 뿌린 결과”라는 해석이 가능합니다 출처.
제가 최근 워크숍에서 가장 자주 쓰는 문장은 이렇습니다. “PO는 두 개의 사전을 들고 다니셔야 합니다 — 하나는 고객 가치 사전, 다른 하나는 위험도 사전.” 고객 가치 사전에는 시나리오별 KR과 성공 메트릭이 있고, 위험도 사전에는 규제/매출/고객데이터의 3축이 있습니다. 같은 시나리오를 두 사전에 동시에 올려놓을 때에만 허용 곡선이 일관성을 유지합니다. 위험도 사전이 비어 있으면 PO의 선언은 엔지니어링 현장에서 곧바로 “판단 유보”로 해석되고, 그 유보가 L1 경계선을 흐리게 만듭니다.
L3 → L4 → L5 역량 래더
6.2 PM의 관점 — 5층 가드레일과 EU AI Act 대응 위임 구조
PL은 본 시리즈에서 Project Lead를 가리킵니다 — 기술 스쿼드의 Team Lead가 아니라, 품질 게이트와 실험 시스템을 결정하는 역할로 정의합니다 (LG WebEx 세미나 정의 기반:
lecture/lge-webex-seminar-ai-agent-pm/02-slide-fulltext.md:277-283).
현황 진단
PM이 직면한 문제는 위임 경계의 수직화입니다. 과거에는 일정·원가·범위만 위임하면 됐습니다. 지금은 L1 경계선, L2 평가지표, L3 검증 파이프라인, L4 OWASP 매트릭스, L5 거버넌스까지 5층을 수직으로 쌓고 각 층에 검증 주기를 배치해야 합니다. PMBOK 8판이 AI를 performance domain 전반에 편입한 맥락과 정확히 일치합니다 출처. 더구나 EU AI Act 고위험 조항이 2026년 8월부터 전면 시행되고, Gartner는 2026년 말까지 AI 관련 법적 분쟁이 2,000건을 넘어설 것으로 전망했습니다 출처. 즉, PM의 위임 경로는 법적 방어선과 동시에 움직입니다.
여기서 놓치기 쉬운 점이 하나 있습니다. 감독(oversight)은 검증(validation)과 다릅니다. 감독은 경계선을 지키는 것이고, 검증은 결과의 품질을 재는 것입니다. PM이 L3 Multi-Agent 4 Layer를 Author → Critic → Test → Compliance로 배치할 때, 앞의 두 레이어는 감독의 축, 뒤의 두 레이어는 검증의 축입니다 출처. 이 두 축을 같은 위임 map에 묶어 배치하는 것이 PM의 핵심 산출물입니다.
Kiteworks 조사는 이 맥락을 더 날카롭게 보여 줍니다. 이미 프로덕션에 에이전트를 배포한 51%의 조직 중 보안 승인을 모두 받은 곳은 14.4%에 불과하고, 88%의 조직이 AI 에이전트 관련 보안 사고를 한 번 이상 보고했습니다 출처. 즉, PM이 “승인 없는 배포”를 막는 것이 L5 거버넌스 층의 가장 단순하고도 효과적인 기여입니다. EU AI Act 2026-08 체크리스트는 그 승인 절차의 외부 강제력을 제공할 뿐이며, 내부 승인 루틴이 비어 있는 조직은 법 시행 이전부터 이미 리스크에 노출되어 있습니다.
L3 → L4 → L5 역량 래더
6.3 PL의 관점 — OWASP ASI 매트릭스와 AutoResearch 3대 전제조건
현황 진단
PL의 문제는 “어떤 AI 도구를 쓸지”가 아닙니다. “AI가 통과시킨 코드를 어떻게 재검증할지”입니다. Lightrun의 43% 숫자는 QA·스테이징을 통과한 뒤의 실패이므로, 기존 테스트 하네스가 AI 특유의 실패 모드를 감지하지 못한다는 뜻입니다 출처. CodeScene이 지적한 Code Familiarity 문제(처음 보는 코드 수정 시 소요 시간 93% 증가) 출처와 합쳐 보면, 품질 게이트는 “코드 정확성 + 팀 친숙도 + AI 기여 태깅”의 3축으로 재설계되어야 합니다.
또 하나, PL은 평가 하네스 자체를 AI가 수정하지 못하도록 락(lock)을 걸어야 합니다. AutoResearch PM 가이드는 이 규칙을 “Single Editable File”로 명명하고, 에이전트가 평가 파일을 고칠 수 있는 순간 metric gaming이 시작된다고 경고합니다 출처. Verdent의 공식 가이드도 “AutoResearch가 작동하려면 편집 범위가 단일 프롬프트/스킬/템플릿 파일로 한정되어야 한다”는 규칙을 반복 강조합니다 출처. 이 규칙은 PL이 품질 게이트를 설계할 때 “편집 경계 = 위험 경계”로 해석됩니다.
PL의 실전 참고 미니 케이스를 덧붙이겠습니다. Shopify 템플릿 엔진 53% 가속 사례에서 PL 역할을 유추해 보면, 누군가는 “렌더링 시간(ms)”이라는 단일 메트릭을 결정했고, 누군가는 그 메트릭을 자동으로 집계하는 평가 시스템을 만들었고, 누군가는 에이전트가 수정할 수 있는 파일을 “템플릿 엔진 렌더러 하나”로 묶어 두었을 것입니다. 93회의 자동 커밋이 가능했던 이유는 이 세 결정이 사전에 완결되어 있었기 때문입니다 출처. 같은 원리를 국내 대기업 시나리오에 적용하면, 삼성 DX “클라인”의 사내 롤아웃에도 “어느 하나의 편집 파일을 첫 타겟으로 잡을 것인지” 결정이 도입 초반 성과의 80%를 좌우할 가능성이 큽니다 출처.
L3 → L4 → L5 역량 래더
6.4 3-role 통합 매트릭스 (9-cell, 역량 단일 축)
6.5 Mermaid #2 — 3-role 핸드오프
6.6 PMBOK 8판 리스크 관리 루프에 주입할 AI 특화 체크리스트
원 리서치 §PM 관점의 PMBOK 8판 편입을 실행 루프로 풀면 다음 5-단계 체크리스트가 됩니다 출처.
- 리스크 식별 — 프로젝트 데이터 흐름이 OWASP ASI04(공급망)와 ASI06(메모리 오염) 공격면에 노출되는가. 에이전트가 수정 가능한 파일이 allowlist로 제한되었는가.
- 리스크 분석 — AI-attributed defect rate 베이스라인이 존재하는가. 생산성 체감 vs 실측 격차(METR·Lightrun)의 교차 검증 계획이 있는가.
- 리스크 대응 — Multi-agent 4 Layer 파이프라인을 설계했는가. 킬 스위치와 롤백 경로 Runbook이 정비되어 있는가.
- 리스크 모니터링 — Review confidence score를 추적하는가. ASI01~10 인시던트 플레이북이 준비되어 있는가.
- 리스크 종료 — 릴리스별 AI 기여 통계가 postmortem의 필수 필드인가.
이 5단계는 Part 5의 Pentagon과 짝을 이룹니다. Pentagon이 “Day 1 → Week 1 → Month 1″의 시간축이라면, PMBOK 루프는 “식별 → 분석 → 대응 → 모니터링 → 종료”의 인과축입니다. 같은 프로젝트를 두 축으로 교차 점검하는 것이 PM의 실전 일과입니다.
6.7 AutoResearch 3대 전제조건 — PO·PM·PL 분담 (G4 자가검증 게이트의 부속 부품)
Product Growth의 PM 가이드에서 추출한 세 전제조건은 출처, 세 역할이 각자 하나씩 독립적으로 책임지도록 분담할 때에만 성립합니다.
세 전제조건은 표면적으로 “기술 요건”처럼 보이지만, 실제로는 조직 의사결정 요건입니다. Quantifiable Metric은 “무엇을 성공으로 볼 것인가”를 PO가 결단하지 않으면 성립하지 않고, Automated Evaluation은 “누가 평가 결과를 거버넌스 게이트에 연결할 것인가”를 PM이 조율하지 않으면 동작하지 않으며, Single Editable File은 “편집 경계를 어떻게 보호할 것인가”를 PL이 설계하지 않으면 metric gaming의 입구가 됩니다 출처. 저는 이 셋을 “세 결단의 삼각형”이라고 부릅니다. 한 꼭짓점만 비어도 삼각형은 서지 못하고, 세 꼭짓점을 모두 채운 팀만 Shopify의 53% 가속 같은 실증을 재현합니다.
💬 Voice Box #3 — “이것을 PO·PM·PL의 언어로 해석하면”
저는 이 주제를 코칭할 때 세 개의 문장을 반복합니다. PO에게는 “vibe는 탐색의 언어, agentic은 감독의 언어, 당신이 둘의 경계선을 한 문장으로 선언해 주십시오”라고 말합니다. PM에게는 “가드레일은 옵션이 아닙니다. L1에서 L5까지 수직으로 쌓여 있고, 각 층마다 킬 스위치와 롤백 경로가 있어야 위임이 성립합니다”라고 말합니다. PL에게는 “ASI02·03·05 세 가지를 먼저 덮으면 43% 재디버깅의 대부분이 줄어듭니다. 그다음이 AutoResearch 세 전제조건입니다”라고 말합니다. 세 문장이 각자의 역할 언어로 해석되어야, 이 편의 제목이 코칭 현장에서 실행 문장으로 바뀝니다.
실전: Quick Start Pentagon (역량 진입 조건으로 읽기)
Pentagon은 Part 4의 L3·L4·L5 래더에 진입하기 위한 최소 착수 동작을 배치한 실행표입니다. “Day 1에 뭘 하라”가 아니라 “L3에 진입하려면 Day 1까지 이것은 되어 있어야 한다”로 읽어 주십시오. Vibe Coding 주제는 특히 경계선 결정이 Day 1에 확보되지 않으면 후속 모든 게이트가 흔들리는 특성이 있어서, 10개 셀 중 1·2번(Day 1·L3 진입 조건)을 먼저 고정하는 것이 가장 경제적입니다. 삼성 DX “클라인” 사내 롤아웃·LGE WebEx 세미나 수강생 피드백·SKT Agent/Skill 피드백을 종합한 최소 공통 분모입니다.
7.1 자산 D — Quick Start Pentagon
7.2 하지 말 것
⚠️ 이 주제에서 하지 말 것
- 에이전트에게 평가 하네스·테스트 스위트·보안 정책 파일의 쓰기 권한을 열어두지 마십시오. AutoResearch가 metric gaming으로 수렴하는 가장 빠른 길입니다.
- “좋아 보이면 머지” 규칙을 유지하지 마십시오. Attribution 지표 없이 AI 코드를 머지하는 88%의 조직 출처과 같은 실패 곡선에 앉게 됩니다.
- 클라이언트사이드 권한 검사 단독으로 인증을 처리하지 마십시오. Enrichlead·Base44·Moltbook이 모두 같은 경로로 실패했습니다 출처.
- 에이전트에게 “데이터 삭제” 권한을 상시 보유하게 하지 마십시오. Replit의 코드 프리즈 중 프로덕션 DB 삭제 사고가 같은 설계 결함에서 나왔습니다 출처.
- 한 에이전트에게 L3·L4의 검증 역할을 동시에 맡기지 마십시오. Author와 Critic이 같은 맥락을 공유하면 비평 기능이 붕괴합니다 출처.
7.3 PMBOK 8판 리스크 루프 × Pentagon 교차 체크
PM이 Day 1 이후 한 달 동안 반복해야 하는 일과는 다음 짝으로 정리됩니다.
이 표는 Part 4의 9-cell 매트릭스와 동일한 행동을 시간축·인과축 두 관점에서 다시 배열한 것입니다. 두 관점을 교차 점검하면 “준비 과제는 있는데 리스크 단계가 빈다” 같은 누락이 쉽게 드러납니다.
마무리
2026년 5월 1일, Karpathy의 Sequoia 무대 한 문장 — “Vibe coding was the warmup. Agentic Engineering is here” — 은 PM 코칭의 의제를 통째로 바꿨습니다 출처. 2025년 봄까지 우리가 던지던 질문은 “어디까지 vibe로, 어디서부터 가드레일로”였고, 2026년 5월 이후 우리가 던지는 질문은 “위임을 어느 단위로 끊고, 각 단위의 자가검증을 어떻게 닫을 것인가” 입니다. 같은 시기 빅테크 4사(Anthropic 4-16 · OpenAI 5-14 · Google 5-19 · Microsoft 롤링 GA) + Cognition(4-15·23)이 모두 IDE+CLI+SDK+Managed Agents+Enterprise 5채널을 동시 출시한 것은 이 paradigm 전환에 도구 생태계가 같은 방향으로 응답한 결과입니다 출처.
이 편에서 저는 paradigm 전환의 본 게임 룰을 두 산출물로 옮겼습니다 — 위임 5단계 게이트(G1 계획·G2 도구·G3 실행·G4 자가검증·G5 반복) 와 5채널 동시 출시 매트릭스. 그 위에 워밍업 룰(5층 가드레일·OWASP ASI·AutoResearch 3전제·43% 재디버깅 진단)을 입력 조건으로 흡수시켰습니다. 다음 편에서는 이 5단계 게이트 위에서 멀티에이전트 시스템의 아키텍처 패턴(Supervisor·Swarm·Router)을 PO·PM·PL의 의사결정 관점에서 풀어 드리겠습니다.
💬 Voice Box #4 — 8주 시리즈에서 이 편의 자리
시리즈 1편에서 저는 MCP·A2A를 “에이전트에게도 API가 생겼다”로 해석했고, 2편에서는 PMBOK 8판의 Assistance/Augmentation/Automation 3-패턴을 “PM은 Traffic Controller에서 Strategy Orchestrator로”라는 Vargas의 문장으로 옮겨 드렸습니다. 이번 3편은 그 두 해석의 paradigm 전환점입니다. API가 있고 역할이 바뀌었다면, 그다음 질문은 “위임의 5단계 게이트를 어떻게 닫을 것인가”입니다. 4·5편에서 멀티에이전트 토폴로지와 AI-SDLC 프레임워크가 이어질 때, 이번 편의 위임 5단계 게이트와 5채널 동시 출시 매트릭스가 그 두 주제를 받치는 본 게임의 두 골조가 되도록 설계했습니다.
이 시리즈 지도
이전: Post 1 MCP·A2A 프로토콜 (2026-04-20) · Post 2 에이전틱 프로젝트 관리 (2026-04-27) 현재: Vibe Coding은 워밍업이었다 — Agentic Engineering 전환과 PO·PM·PL 가드레일 (시리즈 누적 37번째) 다음: Post 4 멀티에이전트 시스템 2026 (2026-05-11) · Post 5 AI-SDLC 프레임워크 (2026-05-18) · Post 6 RAG 지식관리·PM (2026-05-25) 월간 신호: Post 09 월간 관전포인트 2026-05 (Karpathy paradigm shift + 4사 5채널 동시 출시 + Cognition Devin 내장 신호 통합)
Related Posts (기존 34편 + 본 시리즈 8편 중 보완 각도)
- 09 · 월간 관전포인트 2026-05 — Agentic Engineering 전환과 5채널 동시 출시 — 본 편의 paradigm 선언·4사 5채널 출시 신호의 월간 원전 (Signal 1·2·3·5·9 통합)
- A-1 · AI 코딩 에이전트 시대, 거버넌스 없이 괜찮을까? — 본 편 5층 가드레일(워밍업 룰)의 거버넌스 축 원전
- A-2 · AI가 코딩하고, AI가 관리한 1주일의 기록 — Vibe Coding 프로덕션 운영 1주 일지, 본 편의 43% 재디버깅 숫자를 현장 일지로 재검증
- K-3 · Karpathy의 autoresearch: PM에서의 적용 사례 — 본 편 G4 자가검증 게이트의 부속 부품(AutoResearch 3대 전제조건) PM 해석 원전
- K-4 · Karpathy: AI의 사고 체계를 PM에 어떻게 적용할까? — Karpathy 사고체계, 본 편의 Software 1.0→2.0→3.0 framing 배경
- B-3 · AI 시대, PM/PL의 역량이 근본부터 바뀌어야 하는 이유 — 본 편 L3→L5 래더의 역량 변화 원전
Tags: Agentic PM 2026 Q2, PO-PM-PL 3-role, AX Delivery OS, Vibe Coding, Agentic Engineering, OWASP ASI
- P-0 7인의 사고 체계 종합 프레임워크
- P-1 Karpathy: 제약 설계 + 닫힌 루프
- P-2 Sutskever: 압축이 곧 지능이다
- P-3 Hassabis: 제1원리 분해
- P-4 LeCun: 세계 모델 + 예측
- P-5 Hinton: 거버넌스 + 자기부정
- P-6 Ng: AI 전환 플레이북
- P-7 Fei-Fei Li: 인간중심 설계
- P-8 Builders 종합: Boris·Cat·Truell·Masad·Murati·Brockman
- P-9 Operators 종합: Altman·Amodei·Nadella·Pichai·Zuckerberg·Suleyman
- P-10 Hardware 양강: Jensen Huang · Lisa Su
- P-11 PO·PM·PL 역량 통합: 5-Domain × 3-Level