마이크로소프트(Microsoft)가 선보인 AI 비서 '리콜(Recall)'이 개인정보 침해 논란에 휩싸인 가운데, 모든 화면 활동을 로컬에서 분석하고 기억하는 오픈소스 AI 비서 '스크린마인드(ScreenMind)'가 공개되어 주목받고 있습니다. 이 도구는 4GB VRAM을 가진 GPU만으로도 구동되며, 사용자의 모든 스크린샷을 분석하고 음성 메모를 기록하며 회의 내용을 요약해 검색 가능한 AI 기억을 구축합니다. 클라우드 의존성 없이 100% 로컬에서 작동하여 프라이버시를 완벽하게 보장하는 것이 핵심입니다.
스크린마인드는 구글의 경량 대규모 언어모델(LLM)인 제미나이 4 E2B(Gemma 4 E2B)를 활용합니다. 이 모델은 스크린샷의 앱 종류, 활동 카테고리, 사용자 기분, 화면 레이아웃 등을 구조화된 JSON 형태로 분석합니다. 또한, 제미나이 4 E2B의 내장 오디오 인코더를 통해 음성 메모와 화상 회의(Zoom, Teams, Meet) 내용을 자동으로 녹음하고 전사(transcription)하며 요약까지 생성합니다. 성능 면에서는 분석 모드를 '정확(Accurate, 76초)', '균형(Balanced, 40초)', '빠르게(Fast, 12초)' 중 선택할 수 있으며, 앱별 캐싱과 게임 등 고사양 앱 사용 시 자동 일시정지 기능으로 효율성을 높였습니다. 민감 데이터 자동 수정, AES 암호화, 대시보드 PIN 잠금, 시크릿 모드 등 강력한 개인정보 보호 기능도 갖췄습니다.
스크린마인드는 단순히 화면을 기록하는 것을 넘어, 사용자가 자신의 디지털 활동을 되짚어보고 검색하며 자동화할 수 있는 강력한 'AI 기억'을 제공합니다. 마이크로소프트 리콜이 보여준 화면 인식 AI에 대한 수요를 충족시키면서도, 개인정보 보호라는 핵심 가치를 지켜냈다는 점에서 큰 의미가 있습니다. 이는 사용자들이 자신의 데이터를 통제하면서도 AI의 이점을 누리고자 하는 욕구를 반영하며, 향후 온디바이스(on-device) AI와 개인화된 생산성 도구의 발전 방향을 제시합니다. 개발자는 마크다운(Markdown)이나 파이썬(Python)으로 자동화 에이전트를 구축하거나, 옵시디언(Obsidian), 노션(Notion) 등 다른 서비스와 연동하여 활용 범위를 넓힐 수 있습니다.