최근 인기 파일 동기화 도구인 rsync 프로젝트에서 인공지능(AI) 도구 클로드(Claude)가 코드 작성에 보조적으로 활용된 후 버그가 급증했다는 논란이 확산되었습니다. 특히 v3.4.3 릴리스의 회귀(regression) 버그와 해당 릴리스에 포함된 클로드 커밋을 연결하며, AI가 안정적인 소프트웨어에 문제를 일으킨다는 주장이 제기되었습니다. 이에 한 통계학 전공자가 데이터 기반의 심층 분석을 통해 이 주장의 사실 여부를 검증했습니다.
분석은 rsync v2.4.6부터 v3.4.3까지 총 36개 릴리스의 버그 데이터를 활용했으며, 클로드 커밋이 포함된 릴리스는 v3.4.2와 v3.4.3 두 건뿐이었습니다. 핵심 지표는 '심각도 가중 버그/10커밋(sev/10c)'으로, 버그 심각도를 0~100점으로 평가한 뒤 이를 정규화하여 총 커밋 수로 나눈 값입니다. v3.4.2는 50커밋 중 9개 클로드 커밋, 버그 0개로 0.00 sev/10c를 기록했고, v3.4.3은 34커밋 중 28개 클로드 커밋, 버그 17개로 3.29 sev/10c를 기록했습니다. 이 수치들은 과거 릴리스들의 사분위 범위(IQR) 내에 있거나 근접하여, 통계적으로 이상치(outlier)로 보기 어렵다는 결론이 나왔습니다. 정확 순열 검정(p값 46%)과 피셔의 정확 검정(p값 74%, 오즈비 1.06)에서도 클로드 릴리스가 무작위 릴리스보다 나쁘다는 유의미한 증거는 없었습니다. 특히, 클로드 도입 전 릴리스인 v3.4.1은 9개 커밋에 59개 버그, 39.39 sev/10c로 전체 데이터 중 가장 높은 버그율을 기록하기도 했습니다.
이번 분석은 AI가 소프트웨어 개발에 미치는 영향에 대한 논쟁에 중요한 데이터 기반의 맥락을 제공합니다. 클로드 릴리스의 변경 라인 수는 훨씬 많았지만, 커밋 수나 심각도 가중 버그 수가 통계적으로 유의미하게 더 많지는 않았습니다. 이는 AI가 코드 변경량을 늘릴 수는 있어도, 반드시 버그율 증가로 이어지는 것은 아니라는 점을 시사합니다. 다만, 이 분석은 커밋 복잡도나 보안 작업 강도 같은 교란 요인을 완전히 통제하지 못한다는 한계가 있습니다. 일부에서는 LLM 사용이 알려진 보안 이슈 증가로 이어지고, 이로 인해 평소보다 많은 변경과 회귀가 발생했을 수 있다는 의견도 제기되었습니다. 결국, 문제는 클로드 자체보다는 보안 강화 등으로 인한 코드 변경량 증가와 그에 따른 잠재적 위험 관리의 중요성을 강조하는 것으로 보입니다.