최근 구글(Google), 앤트로픽(Anthropic), 오픈AI(OpenAI), 커서(Cursor) 등 주요 AI 기업들이 AI 코딩 도구의 성과를 'AI가 생성한 코드 비율'이나 'AI가 작성한 코드 라인 수'와 같은 양적 지표로 강조하고 있습니다. 예를 들어, 구글은 신규 코드의 75%를 AI가 생성한다고 주장하고, 앤트로픽은 클로드(Claude)가 프로덕션 코드의 약 80%를 작성하며 엔지니어가 분기당 8배 더 많은 코드를 배포한다고 말합니다. 하지만 이러한 접근 방식은 과거 개발자 생산성을 코드 라인 수로 평가하던 시대의 오류를 반복하는 '허영 지표(vanity metric)'에 불과하다는 비판이 제기되고 있습니다.
과거 깃허브(GitHub) 코파일럿(Copilot)이 '작업 완료 속도 55% 향상'과 같은 성과(outcome) 지표를 제시했던 것과 달리, 현재 AI 벤더들의 주장은 대부분 '볼륨(volume)'에 초점을 맞추고 있습니다. 'AI가 코드의 75%를 작성했다'는 주장은 실제 배포 속도 향상이나 장애 감소, 고객 만족도 개선 등과 무관하게 사실일 수 있으며, AI 채택률이 높아질수록 이 수치는 계속 상승할 수 있습니다. 이는 AI 벤더들이 채택률을 부풀리기 위한 동기에서 비롯된 것으로 보이며, 실제 연구 결과 또한 AI의 생산성 향상에 대해 엇갈린 결론을 내리고 있습니다. 일부 연구는 주니어 개발자의 작업 완료율 26% 향상을 보고했지만, 다른 연구에서는 AI 사용 시 숙련된 개발자의 작업 속도가 19% 느려졌다는 결과도 있었습니다.
이러한 양적 지표의 문제는 단순히 홍보 문구를 넘어 예산, 성과 기대치, 인력 계획 등 기업의 중요한 의사결정에 영향을 미친다는 점입니다. 실제로 잭 도시(Jack Dorsey)의 블록(Block)과 아틀라시안(Atlassian) 같은 기업들이 AI를 명분으로 대규모 감원을 단행하며 'AI로 더 적은 인력으로 더 많이, 더 잘 할 수 있다'고 주장했습니다. 그러나 비평가들은 이러한 감원이 과잉 채용이나 투자자 압력 등 다른 이유로 내려진 결정에 AI가 PR 역할을 하는 것일 수 있다고 지적합니다. 진정한 생산성 향상은 월간 활성 사용자(MAU), 전환율, 매출 등 고객 가치와 직결되는 지표로 나타나야 하며, AI가 생성한 코드 비율 같은 허영 지표가 감원의 정당한 근거가 될 수는 없다는 것입니다.
결론적으로, AI 도입은 피할 수 없는 흐름이며 모든 엔지니어가 AI 도구를 활용해야 한다는 데에는 이견이 없습니다. 하지만 AI 도입 자체가 목표가 아니라, 이를 통해 달성하고자 하는 실제 성과에 집중해야 합니다. 엔지니어링 성과 측정에는 이미 DORA 지표(배포 빈도, 변경 리드 타임, 변경 실패율, 서비스 복구 시간), 시스템 신뢰성, 의미 있는 변경 비율, 그리고 궁극적으로 매출과 고객 가치 기여도와 같은 검증된 방식들이 존재합니다. AI 시대에는 일하는 방식은 AI-first로 전환하되, 성과를 측정하는 방식은 이러한 검증된 지표를 고수해야 합니다. 기업들은 '이것이 성과인가, 아니면 단순한 볼륨인가?'라는 질문을 던지며 AI의 실제 가치를 냉철하게 평가해야 할 때입니다.