오픈소스 프로젝트 'git-annex'가 최근 LLM(대규모 언어모델)이 생성한 코드를 포함한 의존성을 제거하기 위해 약 한 달간 100시간을 투입하는 대대적인 작업을 진행했습니다. 이 프로젝트의 개발자 조이 헤스(Joey Hess)는 LLM 코드가 포함된 의존성 없이 빌드되는 것을 목표로 삼았으며, 현재까지는 이를 달성한 것으로 보입니다. 이번 작업은 단순히 개별 코드의 문제가 아니라, 소프트웨어의 전체 의존성 트리를 지속적으로 추적하고 검토해야 하는 현실적인 부담을 여실히 보여주었습니다.
점검 과정에서 LLM 생성 코드의 여러 문제점이 구체적으로 드러났습니다. 예를 들어, 대규모 LLM 생성 변경이 다음 릴리스에서 아무런 설명 없이 되돌려지거나, 26,000줄 규모의 코드베이스에 10,000줄에 달하는 변경이 단일 커밋으로 이루어졌음에도 커밋 메시지는 1,489줄의 일관성 없는 내용으로 채워진 사례가 발견되었습니다. 또한, 다른 프로젝트의 코드를 복사하라는 LLM 프롬프트가 사용되어 저작권 침해 위험에 노출될 뻔한 경우도 있었습니다. 이러한 사례들은 LLM이 생성한 코드가 단순한 취향 문제를 넘어, 프로젝트의 유지보수성, 신뢰성, 그리고 협업 문화에 심각한 악영향을 미칠 수 있음을 시사합니다.
이번 'git-annex'의 사례는 LLM 생성 코드의 무분별한 사용이 소프트웨어 생태계 전반에 미칠 수 있는 파급 효과에 대한 중요한 경고음입니다. 비록 LLM이 설정 추가나 포맷팅 변경과 같은 기계적인 작업을 쉽게 처리할 수 있게 해주지만, 그 결과물이 커뮤니티의 신뢰를 저해하고 프로젝트 참여에 직접적인 비용을 발생시킬 수 있다는 점을 간과해서는 안 됩니다. 일부 개발자들은 LLM 코드로 인해 '레몬 시장(lemons market)'과 같이 품질 좋은 소프트웨어가 저품질 소프트웨어에 밀려나고, 결국 사용자들이 소프트웨어 전반에 대한 신뢰를 잃게 될 것을 우려하고 있습니다. 이는 Software Freedom Conservancy나 FSF(자유 소프트웨어 재단)와 같은 조직 차원의 대응이 필요하다는 목소리로 이어지고 있으며, LLM 시대의 소프트웨어 개발 윤리와 표준에 대한 깊은 논의가 시급함을 보여줍니다.