최근 한 연구에서 15만 5천 개의 매개변수(parameter)를 가진 작은 트랜스포머 모델이 놀라운 능력을 선보였습니다. 이 모델은 시각적인 지도나 좌표를 전혀 본 적 없이, 오직 '이동'을 나타내는 기호(예: 위, 아래, 왼쪽, 오른쪽)의 연속적인 흐름만을 입력받아 학습했습니다. 그럼에도 불구하고, 모델은 내부적으로 자신이 움직이는 가상의 세계에 대한 지도를 스스로 구축하고 이를 행동에 활용하는 모습을 보여주었습니다.
연구팀은 '마인드 리더(linear probe)'라는 도구를 이용해 모델의 숨겨진 활성화(activation) 상태를 실시간으로 읽어냈습니다. 그 결과, 모델이 현재 위치에 대한 정보를 98.8%의 정확도로 디코딩할 수 있음을 확인했습니다. 더 나아가, 연구자들은 모델의 내부 '믿음(belief)'을 인위적으로 조작하여(activation patching), 모델이 실제로는 벽인 곳을 출구로 인식하거나 존재하지 않는 램프를 '보는' 등 조작된 믿음에 따라 행동이 변화하는 것을 관찰했습니다. 이는 모델이 단순히 기호를 예측하는 것을 넘어, 내부적으로 구축한 세계 모델이 실제 행동에 인과적으로(causally) 영향을 미친다는 것을 증명합니다.
이러한 발견은 대규모 언어모델(LLM)을 포함한 복잡한 AI 시스템의 '블랙박스' 내부를 이해하는 데 중요한 단서를 제공합니다. 오셀로 게임의 움직임만 학습한 오셀로-GPT(Othello-GPT)가 내부적으로 오셀로 보드 상태를 표현하거나, 라마(Llama) 같은 LLM이 실제 세계의 공간과 시간을 선형적으로 인코딩한다는 기존 연구들과 맥락을 같이 합니다. 이번 연구는 비교적 작은 모델을 통해 이 현상을 명확하게 입증함으로써, AI가 외부 정보를 직접적으로 주입받지 않고도 스스로 복잡한 세계 모델을 구성하고 이를 바탕으로 추론하며 행동할 수 있음을 시사합니다. 이는 미래 AI의 신뢰성, 제어 가능성, 그리고 궁극적으로는 인간과 유사한 지능을 이해하는 데 중요한 발판이 될 것입니다.
