최근 아카이브(arXiv)에 공개된 논문에서 기존 거대 언어 모델(LLM)의 구조적 계보를 따르지 않는 완전히 새로운 소형 언어 모델(SLM) 아키텍처 '위올라(Wiola)'가 발표되었습니다. 위올라는 GPT, LLaMA, 미스트랄(Mistral), 팔콘(Falcon) 등 현재 주류를 이루는 어떤 모델과도 구조적 유사성이 없는 독자적인 설계가 특징입니다. 이는 제한된 자원으로도 효율적인 AI 모델을 구축하려는 연구자들에게 중요한 진전으로 평가됩니다.
위올라는 효율성 극대화를 위해 5가지 독창적인 핵심 구성 요소를 도입했습니다. 첫째, 나선형 회전 위치 인코딩(SRPE)은 토큰 위치를 3차원 나선형으로 임베딩하여 절대적, 상대적, 계층적 위치 신호를 통합합니다. 둘째, 게이티드 교차 계층 어텐션(GCLA)은 각 디코더 계층이 이전 두 계층의 압축된 요약에 소프트 교차 어텐션(cross-attention)으로 접근하여 계층 간 일관성을 높입니다. 셋째, 적응형 토큰 병합(ATM)은 네트워크 중간 계층에서 의미론적으로 중복되는 인접 토큰을 동적으로 병합하여 정보 손실 없이 어텐션(attention) 복잡성을 줄입니다. 넷째, 듀얼 스트림 피드-포워드(DSFF)는 기존 MLP를 두 개의 병렬 스트림으로 대체하고 학습된 게이트로 융합합니다. 마지막으로, 위올라RMSNorm은 표현 붕괴(representation collapse)를 방지하는 학습된 오프셋 벡터를 도입한 정규화 기법입니다. 이 모델은 120M, 360M, 700M, 1.5B(15억) 매개변수 등 다양한 크기로 제공되며, 허깅페이스 트랜스포머(HuggingFace Transformers) 생태계와 완벽하게 호환됩니다.
위올라의 등장은 소형 언어 모델(SLM) 분야에 새로운 가능성을 제시합니다. 기존 모델의 구조적 한계를 벗어나 독자적인 방식으로 효율성을 추구함으로써, 컴퓨팅 자원이 제한적인 환경에서도 고성능 AI를 구현할 수 있는 길을 열었습니다. 이는 온디바이스(on-device) AI, 엣지 컴퓨팅(edge computing) 등 특정 애플리케이션에 최적화된 모델 개발을 가속화할 수 있습니다. 또한, 허깅페이스(HuggingFace)와의 호환성은 개발자들이 위올라를 쉽게 활용하고 실험할 수 있도록 하여, 차세대 SLM 연구 및 상용화에 긍정적인 영향을 미칠 것으로 기대됩니다.