yozm.tech
피드로 돌아가기
arXiv (cs.LG)AI 재작성

LLM 평가의 숨겨진 복불복: 온도를 0으로 해도 결과가 바뀐다?

대규모 언어모델(LLM)을 평가 도구(LLM-as-judge)로 활용할 때, 샘플링 온도(temperature)를 0으로 설정하면 결과가 항상 동일할 것이라는 통념이 깨졌습니다. 일본 AISI의 오픈소스 평가 도구 'aisev'를 분석한 결과, 온도를 0으로 고정해도 일부 항목에서 평가 결과가 뒤바뀌는 현상이 발견되었습니다. 이는 LLM 기반 안전성 평가의 신뢰성에 중요한 의문을 제기합니다.

6일 전·2026.06.26·읽기 2·Hiroki Tamba

대규모 언어모델(LLM)이 다양한 애플리케이션의 핵심으로 자리 잡으면서, 이들의 성능과 안전성을 평가하는 방식 또한 중요해지고 있습니다. 특히 LLM을 평가 도구(LLM-as-judge)로 활용하여 다른 LLM의 안전성 여부를 판단하는 경우가 많습니다. 이때 일반적으로 샘플링 온도(temperature)를 0으로 설정하면 모델의 출력이 결정론적(deterministic)이 되어 매번 동일한 결과를 얻을 수 있다고 알려져 왔습니다. 하지만 최근 연구는 이러한 통념이 실제로는 그렇지 않음을 보여줍니다.

히로키 탐바(Hiroki Tamba)의 연구에 따르면, 일본 AISI의 오픈소스 안전성 평가 도구인 'aisev'를 분석한 결과, LLM-as-judge의 평가 재현성(reproducibility)에 심각한 문제가 드러났습니다. 첫째, 평가 도구가 LLM을 호출할 때 온도나 시드(seed) 값을 명시적으로 설정하지 않으면, LLM 제공자가 기본값인 1.0을 적용하여 결정 경계(decision boundary)에 있는 항목들의 통과/실패 여부가 실행마다 최대 50%까지 달라지는 현상이 나타났습니다. 둘째, 온도를 0으로 고정하여 탐욕적 디코딩(greedy decoding)을 강제하더라도, 두 개의 LLM 제공자와 세 가지 모델 등급, 다섯 가지 샘플링 설정을 아우르는 690번의 API 호출 중 7개의 경계선 항목 중 1~2개는 여전히 재현되지 않는 것으로 확인되었습니다. 특히 클로드 오푸스(Claude Opus) 4.7/4.8 버전은 아예 온도 설정을 지원하지 않아 이러한 문제에 대한 기본적인 해결책조차 적용할 수 없게 되었습니다.

이러한 결과는 LLM 기반 평가 시스템, 특히 안전성 평가의 신뢰성에 대한 근본적인 질문을 던집니다. 단일 실행 결과만을 보고하는 현재의 평가 방식은 실제로는 노이즈(noise)를 안전성 속성인 것처럼 오인하게 만들 수 있습니다. 연구팀은 평가 도구들이 단순히 점수뿐만 아니라 평가자 불일치(grader disagreement)와 같은 지표를 핵심적인 건전성 지표로 다루어야 한다고 제안합니다. 이는 LLM을 활용한 평가 시스템을 구축하거나 의존하는 모든 개발자와 기업에게 중요한 시사점을 제공하며, 평가의 투명성과 신뢰성을 높이기 위한 새로운 접근 방식이 필요함을 강조합니다.

1인 창업자를 위한 기회 분석
AI 분석 · 참고용이며 검증이 필요합니다
4/10
보통
4점인가

문제는 명확하지만, 이를 해결하는 것이 1인 창업자에게는 기술적 난이도와 데이터셋 확보 측면에서 쉽지 않습니다. 또한, 시장의 니즈가 아직 명확하게 드러나지 않았습니다.

문제 / 미충족 수요

LLM을 활용한 평가(LLM-as-judge)의 결과가 샘플링 온도(temperature)를 0으로 설정해도 재현되지 않아 평가의 신뢰성이 낮다는 문제가 있습니다.

한국 시장
국내 불명한국에서도 LLM 기반 평가 시스템 활용이 늘고 있으나, 재현성 문제에 대한 인식이 낮을 수 있습니다.
수익 모델

B2B SaaS 구독, API 종량제 · 돈 내는 주체: LLM 기반 평가 시스템을 구축하거나 운영하는 기업, LLM 개발사, AI 모델의 안전성 및 신뢰성 검증이 필요한 규제 기관

1인 실현 가능성
3/5

LLM API 연동 및 평가 로직 구현은 가능하나, 다양한 LLM 및 도메인에 대한 전문 지식과 데이터셋 구축이 필요합니다.

진입 지점 (Wedge)

특정 도메인(예: 금융, 의료)에 특화된 LLM 평가 재현성 검증 및 개선 SaaS

이번 주 첫 실험

LLM 평가 재현성 문제에 대한 국내 개발자/기업의 인식을 설문조사하고, 어떤 도메인에서 가장 큰 불편함을 겪는지 파악합니다.

Original source
이 글은 arXiv (cs.LG)의 기사를 yozm.tech가 한국어로 재작성한 버전입니다.
원문 보기