에이전틱 코드 리뷰

최근 코딩 에이전트의 성능이 급격히 향상되면서 소프트웨어 개발의 난이도 중심이 코드 작성에서 ‘생성된 코드를 신뢰할지 판단하는 일’로 이동했습니다. AI는 코드 산출량을 크게 늘리지만, 동시에 품질과 리뷰 가능성을 떨어뜨려 실제 가치 증가는 미미하다는 분석이 나오고 있습니다. 이는 개발자들이 더 많은 코드를 작성하지만, 그 코드를 검증하고 이해하는 데 드는 비용이 훨씬 커졌다는 의미입니다.

Faros AI, CodeRabbit, GitClear 등 여러 기관의 2025~2026년 데이터는 이러한 현상을 명확히 보여줍니다. 4,000개 팀, 22,000명 개발자를 대상으로 한 Faros AI 측정 결과, AI 도입 후 코드 이탈률(churn)이 861% 증가하고, 인시던트 대비 PR 비율은 242.7% 늘었습니다. 개발자당 결함률은 9%에서 54%로 급증했으며, 중앙값 리뷰 소요 시간은 441.5% 증가했습니다. CodeRabbit 연구에서는 AI 공동 작성 코드가 사람만 작성한 코드보다 약 1.7배 많은 이슈를 동반하며, 특히 로직, 정확성, 보안, 가독성 문제에서 두드러진 증가세를 보였습니다. GitClear 데이터에 따르면 AI 사용자의 원시 산출량은 비사용자 대비 4배에 달하지만, 실제 생산성 향상은 1년 전 대비 12%에 불과했습니다. 이처럼 AI는 코드 생성량을 폭발적으로 늘리지만, 그에 따른 품질 저하와 검증 부담은 개발 프로세스의 새로운 병목 현상을 초래하고 있습니다.

이러한 상황에서 코드 리뷰의 목적과 방식에 대한 근본적인 재고가 필요합니다. 기존의 코드 리뷰는 작성자의 의도를 파악하고 그 추론을 점검하는 역할이었지만, AI가 생성한 코드는 그 의도가 기록되지 않아 리뷰어가 처음부터 의도를 재구성해야 하는 부담을 안게 됩니다. 이는 리뷰에 더 많은 시간과 노력을 요구하며, 결과적으로 리뷰 없이 머지(merge)되는 PR(Pull Request)이 늘어나는 원인이 됩니다. 따라서 기업들은 AI가 생성한 코드의 ‘사라진 의도’를 복구할 수 있는 도구와 프로세스를 구축해야 합니다. AI 에이전트가 어떤 의도로 코드를 생성하고 어떤 대안을 배제했는지 결정 로그(decision log)로 캡처하는 방식이 한 예가 될 수 있습니다.

조직 규모와 프로젝트의 위험도(blast radius)에 따라 리뷰 전략도 달라져야 합니다. 솔로 개발자나 초기 단계의 프로젝트는 테스트와 자동화에 강하게 의존하며 중요한 부분만 리뷰하는 유연한 접근이 가능합니다. 반면, 대규모 조직이나 사용자 수가 많은 시스템은 높은 위험도를 가지므로, 첫 번째 패스와 반복적인 작업은 AI에 맡기되, 핵심 경로(load-bearing paths)에는 반드시 사람의 검토를 유지해야 합니다. Anthropic, CodeRabbit, Greptile 등 전용 AI 리뷰 도구들은 이미 상당한 수준에 도달했으며, 서로 다른 강점을 가진 여러 도구를 병렬로 활용하여 다양한 유형의 버그를 탐지하는 이질적(heterogeneity) 접근 방식이 효과적입니다. 궁극적으로는 ‘사람이 루프 안에(human in the loop)’ 있는 것에서 ‘사람이 루프 위에(human on the loop)’ 있는 것으로 전환하여, 모든 PR을 읽기보다 시스템을 감사하고 중요한 부분에만 집중하는 전략이 필요합니다. AI가 이미 리뷰의 많은 부분을 수행하고 있다는 현실을 인정하고, 이를 의도적으로 활용하는 것이 생산성과 품질을 동시에 확보하는 길입니다.