구글(Google)이 자사의 오픈 모델인 젬마 4(Gemma 4) 제품군에 양자화 인지 훈련(Quantization-Aware Training, QAT)을 적용한 새로운 버전을 출시했습니다. 이 최적화된 모델들은 메모리 요구 사항을 획기적으로 줄이면서 온디바이스(on-device) 성능을 극대화하여, 일반적인 엣지 기기와 소비자용 GPU에서도 대규모 언어모델(LLM)을 로컬로 실행할 수 있도록 지원합니다.
QAT는 모델 훈련 과정에서 양자화(quantization)를 시뮬레이션하여 모델 압축 시 발생하는 품질 손실을 최소화하는 기술입니다. 기존의 훈련 후 양자화(Post-Training Quantization, PTQ) 방식보다 더 높은 전반적인 품질을 유지하면서 모델 크기를 줄일 수 있다는 장점이 있습니다. 구글은 인기 있는 Q4_0 양자화 형식은 물론, 모바일 사용 사례에 특화된 새로운 양자화 형식도 도입했습니다. 특히 모바일 전용 형식의 경우 젬마 4 E2B 모델의 메모리 점유율을 1GB까지 줄여, 스마트폰과 같은 저사양 기기에서도 고성능 AI 모델 실행을 가능하게 했습니다. 이는 정적 활성화(Static activations), 채널별 양자화(Channel-wise quantization), 특정 부분 2비트 양자화(Targeted 2-bit quantization) 등 모바일 엣지 하드웨어에 최적화된 맞춤형 접근 방식을 통해 달성되었습니다.
이번 젬마 4 QAT 모델 출시는 온디바이스 AI의 확산을 가속화할 중요한 진전으로 평가됩니다. 모델이 기기 자체에서 실행되면 클라우드 기반 AI에 비해 지연 시간이 줄어들고, 개인 정보 보호가 강화되며, 인터넷 연결 없이도 AI 기능을 사용할 수 있게 됩니다. 이는 개발자들이 사용자 기기에서 직접 실행되는 AI 애플리케이션을 만들 수 있는 새로운 기회를 제공하며, 특히 모바일 환경에서 AI 경험을 혁신할 잠재력을 가집니다. 허깅 페이스(Hugging Face)를 통해 모델 가중치를 다운로드하고, llama.cpp, Ollama, LM Studio 등 인기 개발 도구와 연동하여 쉽게 사용할 수 있도록 지원함으로써, 개발자 커뮤니티의 접근성을 크게 높였습니다.