인공지능(AI) 시스템, 특히 대규모 언어모델(LLM)의 결과에 대한 '설명 가능성(Explainability)'은 AI 기술이 사회 전반에 걸쳐 폭넓게 채택되기 위한 핵심 요소로 부상하고 있습니다. 하지만 '좋은 설명'이란 무엇인가에 대한 명확한 정의가 없이는 효과적인 AI 설명 시스템을 구축하기 어렵다는 지적이 많았습니다. 최근 루이 마혼(Louis Mahon) 등 영국 연구진은 이 오랜 철학적 논쟁에 AI 맥락을 접목하여 '좋은 설명'에 대한 새로운 정의를 제안했습니다.
연구진은 '좋은 설명'의 정의를 내리기 위해 반사실적 설명(counterfactual explanations) 개념에서 영감을 받았습니다. 반사실적 설명은 '만약 입력값이 달랐다면 결과는 어떻게 달라졌을까?'와 같이, 특정 결과가 나오지 않게 하려면 어떤 조건이 바뀌어야 하는지를 보여주는 방식입니다. 여기에 더해, 연구진은 설명을 듣는 사람(interlocutor)이 특정 사실에 대해 가지고 있는 '사전 믿음(prior beliefs)'을 반드시 고려해야 한다고 강조했습니다. 즉, 설명은 듣는 사람의 기존 지식과 관점에 맞춰 제공되어야 더 효과적이라는 것입니다. 이들은 이러한 정의를 바탕으로 LLM의 출력을 설명하는 것이 왜 특히 어려운지에 대한 분석을 제시했습니다.
이러한 '좋은 설명'의 새로운 정의는 AI 설명 가능성(XAI) 연구 분야에 중요한 시사점을 제공합니다. 단순히 AI의 내부 작동 방식을 투명하게 보여주는 것을 넘어, 사용자의 이해 수준과 배경 지식을 고려한 맞춤형 설명의 필요성을 강조하기 때문입니다. 특히 LLM과 같이 복잡하고 비선형적인 모델의 경우, 단일하고 객관적인 설명보다는 사용자의 질문 의도와 맥락에 따라 유연하게 변형되는 설명 방식이 더욱 중요해질 것입니다. 이는 AI 시스템의 신뢰성을 높이고, 사용자가 AI 결정을 더 잘 이해하고 수용할 수 있도록 돕는 데 기여할 것으로 기대됩니다.