AI 에이전트, 대화 기록 암기 무용론 제기

AI 에이전트 개발 분야에서 '에이전트가 이전 대화 기록을 기억하는 것이 과연 유용한가?'라는 질문에 대한 회의적인 시각이 제기되었습니다. 한 개발팀의 수개월간 테스트 결과, 에이전트가 과거 세션 트랜스크립트(대화 기록)에 접근하더라도 소프트웨어 엔지니어링(SWE) 작업 성능에 전혀 이점이 없었으며, 오히려 모델 성능을 저하시킬 수 있다는 놀라운 결론에 도달했습니다. 이는 많은 개발자가 직관적으로 세션 기록이 에이전트의 이해도를 높일 것이라고 믿어왔던 통념과 상반됩니다.

이러한 결과의 핵심 원인은 '코드 아티팩트(artifacts)'에 있습니다. 해당 팀은 에이전트가 코드 변경 사항과 관련된 문서, 커밋 메시지, PR(Pull Request) 메시지 등 잘 정리된 메타데이터에 접근하도록 훈련시켰습니다. 에이전트가 이미 이러한 고품질 아티팩트를 통해 필요한 정보를 추출하고 저장하고 있기 때문에, 세션 트랜스크립트를 다시 검색하는 것은 이미 알고 있는 내용을 중복해서 읽거나, 에이전트가 애초에 기록하지 않기로 결정했던 '스크래치(scratch)'성 정보까지 불필요하게 소비하는 결과를 낳았습니다. 이는 귀중한 토큰을 낭비하고 모델의 인풋 컨텍스트를 오염시키는 주범이 됩니다.

더 큰 문제는 AI 에이전트가 스스로 컨텍스트를 '제거'하는 능력이 없다는 점입니다. 모델은 입력된 모든 정보를 '진실'로 간주하며, 이전 세션에서 임의로 생성되었거나 인간이 검토하지 않은 정보까지도 의도(intent)의 표현으로 받아들입니다. 이러한 '의도 표류(intent drift)'는 에이전트가 자율적으로 기억 기반을 구축하려 할수록 더욱 심화되어, 결국 불필요한 정보의 축적과 모델 품질 저하로 이어집니다. 현재 코딩 벤치마크들은 입력 데이터가 손상되었다고 가정하지 않기 때문에, 에이전트가 스스로 유해한 컨텍스트를 걸러내거나 삭제하는 능력은 여전히 미흡한 상태입니다.

결론적으로, 대화 기록을 인덱싱하고 저장하여 에이전트에게 제공하는 도구들은 에이전트의 성능 향상에는 기여하지 못하며, 오히려 토큰 비용을 증가시키고 모델 품질을 떨어뜨릴 수 있습니다. 물론 세션 트랜스크립트가 팀의 관찰 가능성(observability) 측면에서는 유용할 수 있지만, 에이전트 자체를 더 똑똑하게 만들지는 못한다는 것이 이 연구의 핵심 메시지입니다. 이는 AI 에이전트의 장기 기억 전략과 컨텍스트 관리 방식에 대한 근본적인 재고를 요구하며, '무엇을 기억할 것인가'보다 '무엇을 아티팩트로 남길 것인가'에 집중해야 함을 시사합니다.