국내 연구진이 인공지능(AI) 모델 내부에서 특정 정보를 저장하는 '기억 흔적(memory traces)'을 찾아내고 조작하는 획기적인 방법을 제시했습니다. 이들은 생물학적 뇌의 기억 단위인 '엔그램(engram)' 개념을 AI에 적용, 'AI 엔그램'이라는 기하학적 프레임워크를 통해 딥러닝 모델의 복잡하게 얽힌 매개변수(parameters) 속에서 개별 기억을 분리해냈습니다. 이는 AI가 어떻게 지식을 학습하고 저장하는지에 대한 근본적인 이해를 높이는 중요한 진전입니다.
이번 연구는 신경과학의 기억 기준인 특이성(specificity), 재활성화(reactivation), 충분성(sufficiency), 필요성(necessity)을 수학적으로 정량화하여 'AI 엔그램'을 식별하는 역문제(inverse problem)로 접근했습니다. 연구진은 이를 통해 전역적으로 얽혀 있는 매개변수들로부터 개별 기억 흔적을 분리해내는 닫힌 형식의 추정기(closed-form estimator)를 도출했습니다. 특히, 이 생물학 기반의 해법이 매개변수 다양체(parameter manifold) 상의 자연 경사 업데이트(natural gradient update)와 일치함을 보여주며, 간단한 다층 퍼셉트론(MLP)부터 대규모 언어모델(LLM)에 이르기까지 다양한 AI 모델에서 AI 엔그램의 인과적 유효성(causal validity)과 확장성(scalability)을 실험적으로 입증했습니다.
'AI 엔그램' 기술의 가장 큰 의미는 학습된 지식의 '외과적 조작(surgical manipulation)'을 가능하게 한다는 점입니다. 즉, 반복적인 최적화 과정 없이 선형 산술 연산만으로 AI 모델 내의 특정 기억들을 구성하거나 지울 수 있게 됩니다. 이는 대규모 언어모델(LLM)의 미세조정(fine-tuning)이나 지식 편집(knowledge editing) 과정을 훨씬 효율적이고 정밀하게 만들 수 있습니다. 예를 들어, 특정 사실을 업데이트하거나 잘못된 정보를 제거할 때 모델 전체를 재학습시킬 필요 없이 해당 기억만 선택적으로 수정할 수 있어, AI 모델의 개발 및 유지보수 비용을 크게 절감하고 모델의 신뢰성을 높이는 데 기여할 것으로 기대됩니다.