대규모 언어모델(LLM)이 다양한 애플리케이션의 핵심으로 자리 잡으면서, 이들의 성능과 안전성을 평가하는 방식 또한 중요해지고 있습니다. 특히 LLM을 평가 도구(LLM-as-judge)로 활용하여 다른 LLM의 안전성 여부를 판단하는 경우가 많습니다. 이때 일반적으로 샘플링 온도(temperature)를 0으로 설정하면 모델의 출력이 결정론적(deterministic)이 되어 매번 동일한 결과를 얻을 수 있다고 알려져 왔습니다. 하지만 최근 연구는 이러한 통념이 실제로는 그렇지 않음을 보여줍니다.
히로키 탐바(Hiroki Tamba)의 연구에 따르면, 일본 AISI의 오픈소스 안전성 평가 도구인 'aisev'를 분석한 결과, LLM-as-judge의 평가 재현성(reproducibility)에 심각한 문제가 드러났습니다. 첫째, 평가 도구가 LLM을 호출할 때 온도나 시드(seed) 값을 명시적으로 설정하지 않으면, LLM 제공자가 기본값인 1.0을 적용하여 결정 경계(decision boundary)에 있는 항목들의 통과/실패 여부가 실행마다 최대 50%까지 달라지는 현상이 나타났습니다. 둘째, 온도를 0으로 고정하여 탐욕적 디코딩(greedy decoding)을 강제하더라도, 두 개의 LLM 제공자와 세 가지 모델 등급, 다섯 가지 샘플링 설정을 아우르는 690번의 API 호출 중 7개의 경계선 항목 중 1~2개는 여전히 재현되지 않는 것으로 확인되었습니다. 특히 클로드 오푸스(Claude Opus) 4.7/4.8 버전은 아예 온도 설정을 지원하지 않아 이러한 문제에 대한 기본적인 해결책조차 적용할 수 없게 되었습니다.
이러한 결과는 LLM 기반 평가 시스템, 특히 안전성 평가의 신뢰성에 대한 근본적인 질문을 던집니다. 단일 실행 결과만을 보고하는 현재의 평가 방식은 실제로는 노이즈(noise)를 안전성 속성인 것처럼 오인하게 만들 수 있습니다. 연구팀은 평가 도구들이 단순히 점수뿐만 아니라 평가자 불일치(grader disagreement)와 같은 지표를 핵심적인 건전성 지표로 다루어야 한다고 제안합니다. 이는 LLM을 활용한 평가 시스템을 구축하거나 의존하는 모든 개발자와 기업에게 중요한 시사점을 제공하며, 평가의 투명성과 신뢰성을 높이기 위한 새로운 접근 방식이 필요함을 강조합니다.
