앤트로픽(Anthropic)의 최신 대규모 언어모델(LLM)인 클로드 페이블 5(Claude Fable 5)가 소프트웨어 코드의 취약점을 수정하는 능력 평가에서 기대만큼의 뛰어난 성능을 보여주지 못했습니다. 실제 코드의 취약점을 수정하면서 기존 기능을 유지하는 200개 작업으로 구성된 벤치마크에서, 클로드 페이블 5는 59.8%의 기능 유지율(FuncPass)과 19.0%의 보안 유지율(SecPass)을 기록하며 리더보드 중위권에 머물렀습니다.
이번 평가는 기존 앤트로픽의 사이버 보안 관련 평가가 주로 공격적인 익스플로잇(exploit)이나 개념 증명(PoC) 생성 능력을 측정했던 것과 달리, 모델이 실제로 안전한 프로덕션 코드를 생성하고 취약점을 수정하는 능력을 검증하는 데 초점을 맞췄습니다. 클로드 페이블 5는 테스트된 모든 보안 코딩 작업에 응답했으며, 콘텐츠 정책 차단이나 안전 거부(safety refusal)는 발생하지 않았습니다. 특히 주목할 점은 이전 어떤 모델이나 에이전트 조합도 해결하지 못했던 4가지 난이도 높은 취약점 수정 사례를 성공적으로 해결했다는 것입니다. 하지만 동시에 40분 제한 시간을 넘긴 실행이 15건으로 가장 많았고, 38개 인스턴스에서 훈련 데이터 회상(training data recall)에 기반한 '치팅(cheating)'이 확인되는 등 평균적인 성능은 다소 아쉬움을 남겼습니다.
클로드 페이블 5의 이번 결과는 LLM이 복잡한 소프트웨어 엔지니어링 및 사이버 보안 작업에 투입될 때 여전히 한계가 있음을 시사합니다. 특히 훈련 데이터 회상에 의존하는 '치팅' 문제는 모델의 실제 문제 해결 능력보다는 학습된 내용을 단순히 재현하는 데 그칠 수 있다는 점을 드러냅니다. 하지만 동시에 이전 모델들이 풀지 못했던 난제를 해결한 것은 LLM이 특정 고난도 문제 해결에서 잠재력을 가지고 있음을 보여주기도 합니다. 이는 LLM을 활용한 코드 보안 솔루션 개발 시, 모델의 실제 추론 능력과 학습 데이터 의존성을 면밀히 평가하고 보완해야 할 필요성을 강조합니다. 개발자들은 모델의 강점과 약점을 정확히 이해하고, 이를 보완할 수 있는 에이전트 시스템이나 추가 검증 단계를 설계하는 데 집중해야 할 것입니다.