13세 개발자, 맘바-2 기반 확산형 언어모델 개발

13세 개발자가 트랜스포머(Transformer)의 한계를 극복하고자 맘바-2(Mamba-2)와 확산(Diffusion) 방식을 결합한 새로운 언어모델 아키텍처 'DIMBA II'를 개발했습니다. 이 모델은 기존 모델 대비 긴 문맥 처리 효율성을 높이고 병렬 생성을 가능하게 합니다. 아직 초기 단계지만, 미래 LLM 개발 방향에 시사하는 바가 큽니다.

5시간 전·2026.07.05·읽기 2분·farisallafi

13세 개발자 파리스 알라피(Faris Allafi)가 일본의 수도를 파리라고 답하는 독특한 언어모델을 공개하며 인공지능 커뮤니티의 주목을 받고 있습니다. 이 모델은 기존 대규모 언어모델(LLM)의 주류인 트랜스포머(Transformer) 아키텍처의 한계를 극복하기 위해 맘바-2(Mamba-2)와 확산(Diffusion) 모델의 장점을 결합한 'DIMBA II'라는 새로운 아키텍처를 기반으로 합니다.

DIMBA II는 문맥 길이에 따라 연산 비용이 기하급수적으로 증가하는 트랜스포머의 '2차 복잡도(quadratic complexity)' 문제를 해결하기 위해 고안되었습니다. 맘바-2의 뛰어난 문맥 효율성과 확산 모델의 병렬 생성 능력을 결합한 것이 핵심입니다. 기존 확산 기반 텍스트 모델들이 트랜스포머 백본 위에 구축된 것과 달리, DIMBA는 양방향 맘바(bidirectional Mamba) 구조를 채택하여 차별점을 둡니다. 초기 버전인 DIMBA I의 문제점을 개선하여, 잠재 공간 확산(latent-space diffusion) 대신 마스크 확산(masked diffusion) 방식을 사용하여 보다 안정적인 텍스트 생성을 가능하게 했습니다. 약 2억 8천만 개의 매개변수(parameter)를 가진 이 모델은 280억 개의 토큰으로 학습되었으나, 학습 과정의 버그로 인해 기대만큼의 성능을 내지는 못했습니다.

이 프로젝트는 비록 완벽한 성능을 보여주지는 못했지만, 대규모 언어모델의 미래 아키텍처 방향성에 중요한 시사점을 던집니다. 트랜스포머의 계산 복잡도 문제는 긴 문맥을 처리해야 하는 코딩 에이전트, 장기 대화 어시스턴트 등 현대 AI 애플리케이션에서 점점 더 큰 병목 현상으로 작용하고 있습니다. DIMBA II와 같은 새로운 아키텍처 시도는 이러한 한계를 극복하고 더 빠르고 저렴하며 효율적인 AI 시스템을 구현할 잠재력을 보여줍니다. 특히, 13세 개발자가 개인적인 노력과 비용을 들여 이러한 복잡한 연구를 수행했다는 점은 AI 분야의 진입 장벽이 낮아지고 있음을 보여주며, 앞으로 더 많은 혁신이 개인 개발자로부터 나올 수 있음을 시사합니다.