대규모 언어모델(LLM)은 실제 환경에서 여러 차례 대화를 주고받으며 새로운 정보를 얻고, 이를 통해 주변 환경에 대한 불확실성을 줄여나가는 방식으로 작동합니다. 합리적인 행동을 위해서는 관찰되지 않은 요소들을 추론하고, 증거가 쌓일수록 이에 대한 신념(belief)을 업데이트해야 합니다. 하지만 대부분의 LLM 평가는 단일 턴에서 모델의 최종 답변만을 측정하여, 이러한 신념 업데이트 과정은 제대로 살펴보지 못했습니다.
이러한 간극을 해소하기 위해 아르카이브(arXiv)에 발표된 논문은 '베이즈벤치(BayesBench)'라는 새로운 평가 도구를 소개했습니다. 베이즈벤치는 LLM이 다중 턴 환경에서 합리적인 베이즈 추론(Bayesian reasoning)과 얼마나 유사하게 신념을 업데이트하는지 측정합니다. 이 도구는 세 가지 복잡성 수준의 시뮬레이션 환경을 제공합니다. 첫째, 베이즈 추정(Bayesian estimation)은 모델이 순차적인 증거로부터 미지의 매개변수를 추론하는 과제입니다. 둘째, 베이즈 예측(Bayesian prediction)은 추론된 잠재 변수에 대한 신념을 바탕으로 결과를 예측하는 것입니다. 마지막으로, 잠재 프레임 베이즈 예측(latent-framed Bayesian prediction)은 사용자 페르소나(user-persona)를 통해 관찰이 필터링되므로, 잠재 상태와 페르소나를 동시에 추론해야 하는 가장 복잡한 과제입니다.
연구팀은 30억 개에서 700억 개에 이르는 파라미터를 가진 7개 LLM을 대상으로 베이즈벤치 평가를 진행했습니다. 그 결과, 모델의 규모가 커질수록 잠재 추론(latent inference) 및 증거 축적(evidence accumulation) 능력이 향상되며, 때로는 베이즈 사후 확률(Bayesian posterior)과 거의 일치하는 신념 업데이트를 보여주기도 했습니다. 그러나 이러한 개선이 항상 하위 예측(downstream prediction)으로 이어지지는 않았습니다. 이는 잠재 구조를 추론하는 능력과 이를 바탕으로 목표 결과에 대한 신념을 합리적으로 업데이트하는 능력 사이에 여전히 간극이 존재함을 시사합니다. 즉, LLM이 정보를 잘 이해하는 것과 그 정보를 바탕으로 올바른 판단을 내리는 것은 별개의 문제일 수 있다는 의미입니다.