최근 개발자 야부브노프(ybubnov)가 애플 실리콘(Apple Silicon) 칩에서 대규모 언어모델(LLM)을 효율적으로 구동할 수 있는 새로운 C++ 프레임워크 'MetalChat'을 공개하며 주목받고 있습니다. 이 프로젝트는 구글의 제마(Gemma)와 메타의 라마(Llama) 모델 추론(inference)을 지원하며, 애플의 그래픽 API인 Metal(메탈)을 활용해 하드웨어 가속 성능을 극대화한 것이 특징입니다.
MetalChat은 순수 C++23으로 구현되었으며, 애플 실리콘 기반 맥(Mac) 기기에서 LLM을 직접 실행할 수 있도록 설계되었습니다. 사용자는 Homebrew 패키지 관리자를 통해 쉽게 설치하거나, Conan 패키지로 빌드하여 다른 C++ 프로젝트에 라이브러리로 통합할 수 있습니다. 현재 라이브러리 API와 명령줄 인터페이스(CLI)는 활발히 개발 중이며, 온디바이스(on-device) AI 환경 구축을 목표로 합니다. 이는 클라우드 의존도를 줄이고, 사용자 기기에서 직접 AI 모델을 실행함으로써 응답 속도 향상과 개인 정보 보호 강화에 기여할 수 있습니다.
이러한 온디바이스 LLM 추론 기술은 인터넷 연결 없이도 AI 기능을 사용할 수 있게 하며, 특히 민감한 데이터를 다루는 애플리케이션에 유용합니다. 개발자들은 MetalChat을 활용해 맥OS(macOS) 환경에서 AI 기반의 새로운 애플리케이션을 개발하거나 기존 앱에 LLM 기능을 통합할 수 있습니다. 이는 AI 서비스의 접근성을 높이고, 다양한 산업 분야에서 혁신적인 사용자 경험을 제공할 잠재력을 가지고 있습니다.