대규모 언어모델(LLM)은 복잡한 질문에 대해 그럴듯한 답변을 내놓지만, 답변에 이르는 추론(reasoning) 과정이 불안정하거나 모순되는 경우가 많습니다. 특히 여러 단계를 거치는 연역적 추론(deductive reasoning)에서 이러한 실패 사례가 두드러지는데, 이는 LLM의 신뢰성을 떨어뜨리는 주요 원인으로 지적됩니다. 기존에는 주로 LLM이 생성한 여러 답변의 '분산(dispersion)'을 측정하여 신뢰도를 평가했지만, 이는 모델이 자체적으로 여러 추론 후보들을 얼마나 일관성 있게 평가하는지에 대한 중요한 정보를 놓치고 있었습니다.
최근 ICLR 2026 워크숍에서 발표된 연구는 이러한 한계를 극복하기 위해 '구조적 불확실성(structural uncertainty)'이라는 새로운 프레임워크를 제안했습니다. 이 방법은 LLM에게 특정 질문에 대한 여러 가지 추론 후보 솔루션을 생성하도록 한 다음, 모델 스스로 이 솔루션들 간의 쌍별 선호도(pairwise preferences)를 판단하도록 요청합니다. 이렇게 수집된 자체 선호도(self-preferences)는 브래들리-테리(Bradley-Terry) 모델링과 페이지랭크(PageRank) 알고리즘을 통해 순위 분포로 집계되며, '시행 간 순위 불안정성(across-trial ranking instability)'과 '시행 내 후보 모호성(within-trial candidate ambiguity)'이라는 두 가지 엔트로피 기반 구성 요소로 분해됩니다. 전자는 모델이 여러 번의 시도에서 동일한 추론 경로에 대해 얼마나 일관된 순위를 부여하는지를, 후자는 단일 시도 내에서 여러 추론 경로들이 얼마나 경쟁적인지를 나타냅니다.
다섯 가지 LLM과 여덟 가지 벤치마크에 걸쳐 진행된 실험 결과, 구조적 불확실성 신호는 기존의 답변 분산 측정 방식과 상호보완적인 정보를 제공하는 것으로 나타났습니다. 특히 논리 및 수학적 추론 작업에서는 이 두 가지 신호를 결합했을 때 신뢰할 수 없는 LLM 응답을 더 정확하게 식별할 수 있었습니다. 반면, 사실 검색(factual retrieval)과 같은 작업에서는 구조적 신호가 균일하게 나타나, 추론 수준의 일관성 평가가 유용하지 않은 영역임을 진단했습니다. 또한, '시행 내 후보 모호성'은 정확도와 양의 상관관계를 보여, 여러 그럴듯한 해결 경로가 경쟁하는 상황에서는 모델이 더 정확할 수 있음을 시사했습니다. 반대로 '시행 간 순위 불안정성'은 정확도와 음의 상관관계를 보여, 불안정한 추론이 신뢰할 수 없는 결과를 초래함을 나타냈습니다. 이 연구는 구조적 불확실성이 보편적인 신뢰도 측정기라기보다는, LLM의 논리적 추론 일관성을 평가하는 상황 민감형 도구로서 가치가 있음을 강조합니다.