거대 언어모델(LLM) 에이전트가 사용자 정보를 장기적으로 기억하는 능력이 중요해지면서, 이를 정확히 평가하는 새로운 방법론 'MemTrace'가 아카이브(arXiv)를 통해 발표되었습니다. 기존에는 질문 단위의 정확도 측정 방식이 주로 사용되었는데, 이는 동일한 사실을 묻는 여러 질문이 있더라도 개별적으로 점수를 매겨, 조건 변화에 따른 사실의 기억 행동을 파악하기 어렵다는 한계가 있었습니다.
MemTrace는 이러한 문제 해결을 위해 측정 단위를 '개별 질문'이 아닌 '지식점(knowledge point)', 즉 사용자에 대한 단일 유형의 사실로 정의합니다. 이 벤치마크는 기억의 나이(사실이 기록된 세션 수), 질문 유형(현재 상태, 이전 상태, 변화 궤적), 증거 조건(증거 존재, 증거 부재, 거짓 전제에 의한 모순)이라는 세 가지 통제된 차원을 따라 각 지식점을 심층적으로 분석합니다. 연구팀은 네 가지 패러다임에 걸쳐 13가지 기억 시스템 구성을 평가했으며, 그 결과 유사한 전체 정확도 점수 뒤에 숨겨진 다양한 실패 원인을 발견했습니다. 예를 들어, 사실의 현재 및 이전 상태를 복구하는 능력이 그 사실의 변화 과정을 추적하는 능력과 직결되지 않으며, 안전한 답변 거부가 거짓 전제를 수정하는 것을 의미하지 않는다는 점을 밝혀냈습니다.
가장 중요한 발견은 LLM의 장기 기억 병목 현상이 정보 검색(retrieval)이 아닌 '증거 활용(evidence use)'에 있다는 것입니다. 시스템이 실패했을 때, 필요한 증거는 정보가 아예 없었던 경우보다 10배 더 자주 검색 가능한 상태였습니다. 이는 단순히 더 많은 정보를 저장하거나 검색 능력을 향상시키는 것만으로는 장기 기억력을 개선하기 어렵고, 접근 가능한 증거를 더 효과적으로 사용하는 방법을 개선해야 함을 시사합니다. MemTrace는 LLM의 장기 기억 메커니즘을 더 깊이 이해하고, 궁극적으로 더욱 신뢰할 수 있는 LLM 에이전트를 개발하는 데 중요한 기반을 제공할 것으로 기대됩니다.