긴 영상 콘텐츠를 이해하는 데 특화된 오디오-비주얼 대규모 언어모델(LLM)의 성능을 획기적으로 개선할 수 있는 새로운 메모리 효율 프레임워크 '옴니멤(OmniMem)'이 발표되었습니다. 기존 LLM은 영상 길이가 길어질수록 처리해야 할 토큰(token)과 키-밸류(KV) 캐시가 선형적으로 증가하여 메모리 한계에 부딪혔습니다. 옴니멤은 이러한 근본적인 문제를 해결하여 LLM이 더 길고 복잡한 영상을 효율적으로 분석할 수 있도록 돕습니다.
옴니멤은 기존 압축 방식과 달리 모든 토큰을 동일하게 처리하지 않습니다. 대신 시각(visual) 및 청각(audio) 컨텍스트를 개별적으로 관리하는 '양식 인식 메모리 할당(modality-aware memory allocation)' 전략을 도입했습니다. 이는 두 양식 간의 심각한 토큰 불균형 문제를 해결하며, '교란 인식 메모리 선택(perturbation-aware memory selection)'을 통해 정보가 풍부하고 중복되지 않는 KV 상태만 보존하여 압축 효율을 높입니다. 또한, 실제 배포 환경을 고려한 '예산 인식 미세조정(budget-aware fine-tuning)'을 통해 모델이 유용한 정보를 압축된 메모리에 통합하도록 유도합니다. 이러한 접근 방식은 VideoMME Long, LVBench 등 다양한 벤치마크에서 기존 훈련 없는 압축 기준선 대비 2~4%의 절대 정확도 향상을 보였으며, 미세조정 후에는 1~2% 추가 개선 효과를 얻었습니다.
옴니멤의 등장은 긴 영상 콘텐츠 분석 및 이해 분야에 중요한 의미를 가집니다. 유튜브, 넷플릭스 등 장시간 영상 플랫폼의 확대로 영상 요약, 콘텐츠 추천, 자동 자막 생성 등 다양한 응용 분야에서 LLM의 역할이 커지고 있습니다. 옴니멤은 이러한 응용 프로그램의 성능과 효율성을 크게 향상시켜, 사용자들이 더 정확하고 심층적인 영상 분석 결과를 얻을 수 있도록 기여할 것입니다. 이는 궁극적으로 오디오-비주얼 LLM의 상업적 활용 가능성을 넓히고, 새로운 서비스 개발을 촉진할 것으로 기대됩니다.