대규모 언어모델(LLM)이 마치 사람처럼 사고하고 느끼는 듯한 인상을 줄 때가 많습니다. 하지만 최근 한 연구는 이러한 LLM의 '의인화' 경향에 대해 비판적인 시각을 제시하며, 우리가 LLM의 능력을 과대평가하고 있을 수 있다고 경고합니다. 이 연구는 LLM의 특정 속성이 인간 고유의 것이 아님을 증명하기 위해 고전 전략 게임인 '에이지 오브 엠파이어 II(Age of Empires II)'를 흥미로운 실험 도구로 활용했습니다.
연구진은 에이지 오브 엠파이어 II 게임 엔진 내부에 단순한 신경망을 구현하고 훈련시키는 데 성공했습니다. 이 신경망은 특정 프롬프트에 대해 LLM과 유사한 방식으로 반응하도록 설계되었습니다. 예를 들어, 게임 속 신경망에 '외롭다'고 입력하면 '안됐다, 친구를 만나보는 게 어때? 이런 상황에는 친밀함이 도움이 돼'와 같은 응답을 내놓는 식입니다. 이는 튜링 완전(Turing-complete)한 환경이라면 LLM과 동등한 엔티티를 구현할 수 있으며, LLM의 의인화된 행동이 특정 '기질(substrate)'에만 국한되지 않는다는 점을 시사합니다. 즉, LLM이 보이는 인간적인 반응은 그 자체의 고유한 지능이나 감정이라기보다, 충분히 복잡한 시스템이라면 어떤 환경에서도 모방될 수 있는 현상일 수 있다는 것입니다.
이 연구는 LLM의 능력을 평가할 때 명확한 측정 기준과 가정이 필요하다는 중요한 메시지를 던집니다. 단순히 LLM의 자연어 출력이 인간과 유사하다는 이유만으로 '이해', '도덕성', '자아 인식' 같은 속성을 부여하거나 가정하는 것은 잘못된 결론으로 이어질 수 있습니다. LLM 연구자들은 의인화 속성을 전제로 실험을 설계하기보다는, LLM이 그러한 속성을 고유하게 가지지 않는다는 '귀무가설(null hypothesis)'을 기본 가정으로 삼아야 한다고 주장합니다. 이는 LLM의 실제 능력을 보다 객관적이고 엄밀하게 평가하고, 인공지능(AI)에 대한 대중의 오해를 줄이는 데 기여할 것입니다.