대규모 언어모델(LLM)이 정형화된 임상 데이터 분석에 점차 활용되고 있지만, 모델 스스로 자신의 지식 한계를 인지하는지에 대한 의문이 제기되어 왔습니다. 최근 연구에 따르면 LLM은 자신이 무엇을 모르는지조차 알지 못하는 '인식론적 맹점(epistemic blind spots)'을 가지고 있으며, 이는 특히 민감한 임상 환경에서 심각한 문제를 야기할 수 있습니다.
이 연구는 Qwen 2.5 7B LLM과 XGBoost 모델을 임상 예측 작업에 비교하며 교차 모델 귀인 발산(cross-model attribution divergence) 분석을 수행했습니다. 그 결과, LLM이 언어로 표현하는 자신감은 실제 예측 정확도와 무관하게 거의 일정한 수치(0.856~0.937)를 보였으며, 이는 프롬프트 형식에 더 민감하게 반응할 뿐 예측 품질과는 관련이 없었습니다. 또한, LLM은 XGBoost가 거의 완벽하게 예측하는 어려운 사례에서는 정확도가 64.8%로 떨어지는 반면, XGBoost가 중간 정도의 불확실성을 보일 때는 73.8% 대 73.1%로 유사한 정확도를 보이는 '역난이도 효과(inverse difficulty effect)'를 보였습니다. 하지만 소수 학습(few-shot examples)과 SHAP(SHapley Additive exPlanations) 기반 특성 증거를 함께 적용하자, 훈련 없이도 귀인 불일치 점수(Attribution Disagreement Score, ADS)가 1.54에서 0.38로 크게 감소하고 정확도는 49%에서 75.3%로 향상되었습니다. 더 나아가, 귀인 발산 신호를 활용한 교차 모델 보정기(cross-model calibrator)는 LLM의 신뢰도를 환자별로 추정하여 예상 보정 오차(expected calibration error)를 0.254에서 0.080으로 줄이는 데 성공했습니다.
이러한 발견은 LLM이 정형 데이터, 특히 임상과 같은 고위험 분야에서 '콜드 스타트(cold start)' 문제를 겪고 있음을 시사합니다. 즉, 충분한 사전 지식이나 맥락 없이 새로운 유형의 데이터를 접할 때 모델의 성능과 신뢰도가 크게 떨어진다는 것입니다. 연구에서 제시된 교차 모델 귀인 발산 분석과 보정기 접근 방식은 LLM의 내부 작동 방식에 접근하거나 반복적인 추론 없이도 모델의 신뢰도를 객관적으로 평가하고 개선할 수 있는 실용적인 해법을 제공합니다. 이는 LLM이 의료, 금융 등 신뢰성이 중요한 분야에서 보다 안전하고 효과적으로 활용될 수 있는 길을 열어줄 것으로 기대됩니다.