최근 한 연구에서 로컬(local) 대규모 언어모델(LLM)이 클라우드 기반 모델만큼 뛰어난 번역 성능을 보일 수 있다는 흥미로운 결과가 나왔습니다. 특히 아프리칸스어(Afrikaans)에서 영어로의 번역에서 18GB 크기의 로컬 모델이 최첨단 클라우드 모델들과 통계적으로 거의 동일한 수준의 정확도를 기록하며, 번역 앱 개발자들에게 클라우드 의존도를 줄일 수 있는 가능성을 제시했습니다.
이번 벤치마크는 온디바이스(on-device), 자체 호스팅(self-hosted), 클라우드 모델 등 총 24개 모델을 대상으로 아프리칸스어, 독일어, 스페인어 세 가지 언어에서 영어로의 번역 성능을 평가했습니다. 특히 저자원 언어인 아프리칸스어 번역에 초점을 맞췄는데, 18GB 크기의 'gemma-4-12b-qat' 모델이 COMET 점수 95.0을 기록하며 GPT-5, Gemini 2.5 Pro 등 최상위 클라우드 모델들과 1.5 COMET 포인트 이내의 오차 범위에 들었습니다. 이는 통계적으로 유의미한 차이가 없는 '동점'으로 해석될 수 있습니다. 평가 방식은 동일한 Tatoeba 문장, 동일한 프롬프트, 탐욕적 디코딩(greedy decoding)을 사용했으며, 의미 정확도는 COMET으로, 표면 정확도는 chrF++로 측정하여 재현 가능성을 높였습니다.
이러한 결과는 특정 언어 쌍, 특히 저자원 언어 번역에서 고품질 번역을 위해 반드시 값비싼 클라우드 서비스나 고성능 서버가 필요하지 않을 수 있음을 의미합니다. 개발자들은 온디바이스 또는 자체 호스팅 모델을 활용하여 비용을 절감하고 데이터 주권을 강화하며, 인터넷 연결 없이도 번역 기능을 제공할 수 있게 됩니다. 이는 개인 정보 보호가 중요한 앱이나 오프라인 환경에서 작동해야 하는 서비스에 큰 이점을 제공하며, 대규모 언어모델 기술의 접근성을 더욱 넓히는 중요한 진전으로 평가됩니다.