최근 EdgeRunner라는 새로운 라이브러리가 공개되어 애플 실리콘(Apple Silicon) 기반 기기에서 대규모 언어모델(LLM)을 로컬로 구동하는 새로운 가능성을 열었습니다. 스위프트(Swift)와 메탈(Metal)을 활용해 처음부터 설계된 EdgeRunner는 네트워크 연결이나 API 키 없이도 맥(Mac)이나 아이폰(iPhone)에서 GGUF 형식의 LLM을 직접 실행할 수 있게 합니다. 이는 사용자 데이터가 기기 외부로 나가지 않아 개인 정보 보호에 강점을 가지며, 클라우드 비용 없이 AI 기능을 앱에 통합할 수 있다는 점에서 주목할 만합니다.
EdgeRunner는 GGUF 모델을 로드하고, GPU 커널을 최적화하며, 토큰을 빠르게 스트리밍하는 것이 특징입니다. 벤치마크에 따르면 Qwen3-0.6B 모델에서 초당 약 230개 이상의 토큰을 디코딩(decode)하며, 첫 토큰 생성 시간(time-to-first-token)은 3.5ms에 불과해 매우 빠른 응답 속도를 제공합니다. 이는 메탈 3(Metal 3) 및 메탈 4(Metal 4)에 최적화된 커스텀 컴퓨트 커널 덕분입니다. 또한 Q8_0, Q4_K_M 등 다양한 양자화(quantized) GGUF 모델을 지원하며, 메모리 매핑(memory-mapped) 로딩으로 즉각적인 시작과 최소한의 메모리 사용량을 보장합니다. 개발자들은 EdgeRunner를 통해 개인 챗봇, 오프라인 코드 어시스턴트, 온디바이스 에이전트, 임베디드 AI 등 다양한 애플리케이션을 구축할 수 있습니다.
이러한 온디바이스(on-device) LLM 추론의 발전은 사용자 경험과 AI 애플리케이션 개발 방식에 중요한 변화를 가져올 것으로 예상됩니다. 특히 개인 정보 보호가 중요한 금융, 의료 분야 앱이나 네트워크 연결이 불안정한 환경에서 작동해야 하는 앱에 큰 이점을 제공합니다. 또한 클라우드 API 사용에 따른 비용 부담을 줄여주므로, 스타트업이나 독립 개발자들이 혁신적인 AI 기능을 앱에 쉽게 통합할 수 있는 기회를 제공합니다. 애플의 강력한 하드웨어와 최적화된 소프트웨어 스택을 활용하여, 더 많은 AI 기능이 사용자 기기 안에서 직접 구동되는 미래를 기대해 볼 수 있습니다.