DiffusionGemma: 4배 빠른 텍스트 생성

구글이 기존 대규모 언어모델(LLM)보다 최대 4배 빠르게 텍스트를 생성하는 실험용 모델 'DiffusionGemma'를 공개했습니다. 이 모델은 자기회귀 방식 대신 텍스트 확산(diffusion) 방식을 사용해 256토큰 블록을 병렬로 생성하며, 로컬 환경에서 빠른 응답 속도가 필요한 개발자에게 유용할 것으로 보입니다. Apache 2.0 라이선스로 공개되어 연구 및 개발에 활용될 수 있습니다.

3일 전·2026.06.11·읽기 1분·xguru https://news.hada.io/user/xguru

구글이 새로운 텍스트 생성 인공지능(AI) 모델인 'DiffusionGemma'를 공개하며, 기존 대규모 언어모델(LLM)의 한계를 뛰어넘는 속도를 선보였습니다. 이 모델은 일반적인 LLM이 토큰을 순차적으로 생성하는 자기회귀(autoregressive) 방식 대신, 이미지 생성에 사용되는 확산(diffusion) 모델의 원리를 텍스트에 적용하여 전체 텍스트 블록을 동시에 생성합니다. 이를 통해 전용 GPU에서 최대 4배 빠른 텍스트 생성이 가능해졌습니다.

DiffusionGemma는 Apache 2.0 라이선스로 제공되는 26B(260억) 파라미터 규모의 MoE(Mixture of Experts) 모델입니다. 추론(inference) 시에는 전체 26B 파라미터 중 3.8B 파라미터만 활성화되며, 양자화(quantization)를 통해 18GB VRAM을 가진 고급 소비자용 GPU에서도 구동할 수 있습니다. 특히, 256토큰을 병렬로 생성하는 양방향 어텐션(bidirectional attention)과 반복적인 자체 수정(self-correction) 기능을 통해 인라인 편집, 코드 채우기, 아미노산 서열, 수학 그래프 등 비선형 구조를 가진 작업에 강점을 보입니다. 단, 속도와 병렬 생성을 우선한 실험 모델이므로, 출력 품질은 표준 Gemma 4 모델보다 낮아 최고 품질이 요구되는 애플리케이션에는 표준 Gemma 4 배포가 권장됩니다.

이 모델의 가장 큰 의미는 로컬 환경이나 낮은 동시성(low-concurrency) 환경에서 AI 모델의 활용성을 크게 높였다는 점입니다. 기존 LLM은 클라우드 환경에서 수천 개의 사용자 요청을 배치(batch) 처리할 때 효율적이지만, 단일 사용자가 로컬에서 사용할 때는 하드웨어가 다음 토큰 생성을 기다리는 시간이 많아 비효율적이었습니다. DiffusionGemma는 256토큰의 문단 전체를 동시에 생성함으로써 프로세서에 더 큰 작업 덩어리를 한 번에 제공하여, 마치 타자기가 아닌 대형 인쇄기처럼 작동합니다. 이는 개발자들이 로컬 환경에서 더 빠르고 인터랙티브한 AI 워크플로를 구축할 수 있게 하며, 특히 코딩이나 실시간 대화형 애플리케이션에서 사용자 경험을 혁신할 잠재력을 가집니다. 비용 효율적인 로컬 AI 활용이 중요해지는 시점에서, DiffusionGemma와 같은 효율 개선 모델은 앞으로 AI 산업의 핵심 경쟁력이 될 것입니다.