한 개발자가 'cheap-im'이라는 이름의 프로젝트를 통해 고성능 GPU 없이 일반 CPU 노트북만으로도 실시간 음성 AI 에이전트를 구현하는 데 성공했습니다. 이 에이전트는 사용자의 음성을 듣고(hear), 웹캠으로 시각 정보를 파악하며(see), 대화 흐름에 맞춰 자연스럽게 끼어들 수 있는(interrupt) 등 복합적인 상호작용 기능을 제공합니다. 이는 씽킹 머신즈(Thinking Machines)가 2026년 목표로 제시한 '인터랙션 모델' 데모의 핵심 기능을 저렴한 비용으로 재현했다는 점에서 큰 의미를 가집니다.
'cheap-im'은 파이썬(Python)의 비동기(asyncio) 이벤트 루프를 중심으로 여러 상용 AI 모델들을 조합하여 작동합니다. 음성 인식(ASR)에는 크로코(Kroko)와 위스퍼(Whisper), 음성 합성(TTS)에는 파이퍼(Piper), 그리고 시각 정보 처리에는 YOLO11-pose를 사용해 친구 감지나 자세 변화 인식 등을 수행합니다. 대규모 언어모델(LLM)은 딥인프라(DeepInfra)를 통해 라마 3.1(Llama-3.1-8B-Instruct-Turbo)과 딥시크(DeepSeek-V3.2)를 활용하여 대화 및 배경 작업을 처리합니다. 이 모든 과정이 단일 CPU 노트북에서 하나의 프로세스로 실행되며, 최소한의 LLM 호출로 비용 효율성을 극대화한 것이 특징입니다.
이 프로젝트는 고가의 맞춤형 대규모 모델 훈련 없이도, 기존의 잘 알려진 모델들을 효과적으로 조합하고 오케스트레이션(orchestration)함으로써 고품질의 실시간 AI 상호작용을 구현할 수 있음을 입증합니다. 이는 AI 에이전트 개발의 진입 장벽을 낮추고, 개인 개발자나 소규모 팀도 혁신적인 AI 서비스를 만들 수 있는 가능성을 열어줍니다. 특히, 실시간 응답 속도와 비용 효율성을 동시에 확보했다는 점에서, 향후 다양한 분야에서 개인화된 AI 비서나 인터랙티브 시스템 구축에 활용될 잠재력이 큽니다.