개인 개발자가 '어시스턴트AI(AssistantAI)'라는 실험적인 오픈소스 프로젝트를 공개하며 실시간 데스크톱 AI의 잠재력을 선보였습니다. 이 AI 비서는 사용자가 선택한 애플리케이션(줌, 팀즈, 텔레그램, 웹 브라우저 등)의 음성 대화를 실시간으로 감지하고, 미리 첨부된 문서를 활용해 대화 맥락에 맞는 답변 힌트를 제공합니다. 나아가 스크린샷을 분석하는 기능까지 갖춰, 데스크톱 환경에서 AI의 활용 범위를 넓히고 있습니다.
어시스턴트AI는 낮은 지연 시간(low-latency)의 데스크톱 AI, 음성 처리, 맥락 인지 대화, 스크린샷 분석을 탐구하기 위한 개인 엔지니어링 프로젝트로 개발되었습니다. 주요 기능으로는 ScreenCaptureKit을 이용한 애플리케이션별 오디오 캡처, Silero VAD를 통한 음성 활동 감지, whisper.cpp를 활용한 로컬 음성 인식, 첨부 문서 기반의 맥락 인지 대화, 스크린샷 캡처 및 AI 분석, 그리고 로컬 대화 기록 및 원격 웹 인터페이스 지원 등이 있습니다. 현재 파이썬(Python)으로 구현되었으며, 향후 올라마(Ollama)나 라마.cpp(llama.cpp) 같은 추가 대규모 언어모델(LLM) 백엔드와 다양한 문서 형식 지원, 스크린샷 분석 개선 등을 로드맵에 포함하고 있습니다.
이 프로젝트는 데스크톱 환경에서 AI가 단순히 특정 작업을 자동화하는 것을 넘어, 사용자의 실시간 업무 흐름에 깊이 통합될 수 있음을 보여줍니다. 특히 회의나 고객 지원과 같이 즉각적인 정보 접근과 맥락 이해가 중요한 상황에서 AI가 보조 역할을 수행하며 생산성을 크게 향상시킬 수 있습니다. 오픈소스 형태로 공개되어 개발자들이 자유롭게 기능을 확장하고 개선할 수 있다는 점도 주목할 만하며, 이는 데스크톱 AI 생태계의 성장을 가속화하는 계기가 될 수 있습니다.