오픈AI의 코드 생성 인공지능(AI) 모델인 코덱스(Codex)에서 심각한 버그가 발견되었습니다. 이 버그는 코덱스 사용자의 로컬 SSD에 연간 최대 640TB(테라바이트)에 달하는 방대한 양의 피드백 로그 데이터를 지속적으로 기록하여, SSD의 수명을 급격히 단축시킬 수 있는 것으로 드러났습니다. 이는 일반 소비자용 1TB SSD의 보증 쓰기 수명(TBW)을 1년도 안 되어 소진시킬 수 있는 치명적인 문제입니다.
한 사용자가 21일간의 시스템 가동 후 약 37TB의 데이터가 SSD에 기록된 것을 확인했으며, 이 중 대부분이 코덱스 SQLite 로그 파일 때문인 것으로 분석했습니다. 이 문제는 SQLite 데이터베이스가 약 50만 개의 행만 유지하면서도 AUTOINCREMENT 카운터가 55억 개 이상 진행되는 '쓰기 증폭(write amplification)' 현상에서 비롯됩니다. 즉, 데이터가 끊임없이 삽입되고 삭제되는 과정에서 실제 저장되는 양보다 훨씬 많은 쓰기 작업이 발생하고 있었습니다. 특히, TRACE 레벨의 상세 로그와 OpenTelemetry 미러링 로그, 원시 웹소켓/SSE 페이로드 로깅 등이 전체 로그의 96%를 차지하며 불필요한 쓰기 작업을 유발하는 주요 원인으로 지목되었습니다.
이 버그는 코덱스 사용자들이 인지하지 못하는 사이에 고가의 SSD 하드웨어를 손상시킬 수 있다는 점에서 심각합니다. 특히 개발자나 AI 연구자처럼 코덱스를 장시간 사용하는 사용자들에게는 치명적인 영향을 미칠 수 있습니다. 오픈AI는 이 문제를 해결하기 위해 기본 로깅 레벨을 TRACE에서 더 낮은 수준으로 조정하여 불필요한 로그 기록을 줄이는 패치를 신속히 적용해야 할 것입니다. 이러한 문제는 소프트웨어 개발 과정에서 로깅 설정의 중요성과 하드웨어 수명에 미치는 영향을 다시 한번 상기시켜 줍니다.