대규모 언어모델(LLM)을 다른 LLM의 성능을 평가하는 'LLM 심사위원(LLM-Judge)'으로 활용하는 방식이 주목받고 있지만, 최근 연구에서 이러한 평가 방식의 한계가 드러났습니다. LLM 심사위원들이 특정 안전 규칙에 지나치게 경직된 사전 지식(rigid priors)을 적용하여, 실제로는 안전한 콘텐츠임에도 불구하고 맥락을 고려하지 않고 '유해하다'고 잘못 판단하는 경향을 보인다는 것입니다.
이 연구는 LLM 심사위원이 특정 키워드나 문구에만 반응하여, 전체적인 대화의 맥락이나 의도를 파악하지 못하는 문제를 지적합니다. 예를 들어, 의료 관련 대화에서 '암'이나 '치료'와 같은 단어가 포함되면, 모델은 이를 잠재적으로 위험한 의료 조언으로 분류할 수 있습니다. 이는 실제로는 유용한 정보임에도 불구하고, 모델이 미리 설정된 안전 필터에 갇혀 오판하는 결과를 초래합니다. 이러한 경직된 판단은 LLM의 유연한 활용을 방해하고, 개발자들이 의도치 않게 유용한 기능을 제한하게 만들 수 있습니다.
이러한 발견은 LLM 개발 및 평가 방식에 중요한 시사점을 제공합니다. 단순히 사전 정의된 규칙이나 키워드에 기반한 안전성 평가를 넘어, 인간의 판단처럼 맥락과 의도를 종합적으로 고려할 수 있는 정교한 평가 시스템이 필요하다는 의미입니다. 이는 LLM이 더욱 안전하고 유용하게 활용될 수 있도록, 평가 모델 자체의 미세조정(fine-tuning)과 다양한 시나리오 기반의 테스트를 강화해야 함을 보여줍니다. 결국, LLM의 잠재력을 최대한 발휘하려면, 그 평가 도구 또한 인간의 복잡한 언어 이해 능력을 모방하도록 발전해야 할 것입니다.