대규모 언어모델(LLM)이 긴 목록이나 사실을 나열할 때 특정 단어나 구절을 반복하는 고질적인 문제가 있습니다. 최근 아리스토텔리스 라자리디스(Aristotelis Lazaridis) 연구팀은 이 반복 오류가 모델 내의 단일 뉴런(neuron) 또는 소수의 전문가(expert)에 의해 발생하며, 이를 수정함으로써 해결할 수 있음을 시사하는 연구 결과를 발표했습니다.
연구팀은 구글의 제미나이 4(Gemma 4) 모델을 대상으로 TV 시리즈 에피소드, 별자리 목록, 포켓몬 이름 등 긴 사실 목록을 생성하도록 했을 때 최대 95%의 높은 확률로 반복 오류가 발생함을 확인했습니다. 이 오류는 프롬프트 변경, 추론 엔진 조정, 샘플링 방식 변경에도 불구하고 지속되었습니다. 연구진은 계층별 제거(per-layer ablation) 및 뉴런별 기여도 분석(per-neuron attribution)을 통해 이 반복 현상이 특정 MLP(Multi-Layer Perceptron) 뉴런, 또는 혼합 전문가(Mixture-of-Experts, MoE) 모델의 경우 소수의 라우팅된 전문가(routed experts)에 국소화되어 있음을 밝혀냈습니다. 이 뉴런들을 정적 가중치 편집(static weight edits)으로 억제하는 '수술'을 통해 반복 패턴을 효과적으로 제거할 수 있었으며, 심지어 가장 작은 모델(E2B)에서는 단 하나의 뉴런의 부호(sign)를 반전시키는 것만으로도 가능했습니다.
이 연구는 LLM의 특정 생성 오류가 모델의 극히 일부 파라미터(parameter)에 국한될 수 있으며, 이를 정교하게 수정함으로써 모델의 전반적인 성능 저하 없이 문제를 해결할 수 있다는 가능성을 제시합니다. 이는 LLM의 '블랙박스' 내부를 이해하고 제어하는 데 중요한 진전으로 평가됩니다. 다만, 연구팀은 이러한 뉴런 편집이 모델이 특정 사실을 '기억하지 못해' 발생하는 '둠 루프(doom loop)'와 같은 근본적인 지식 정밀도(knowledge-precision) 문제는 해결하지 못한다고 지적했습니다. 가중치 수술은 반복을 제거할 수 있지만, 모델에 없는 사실을 주입할 수는 없다는 한계를 명확히 한 것입니다. 이는 LLM의 투명성과 제어 가능성을 높이는 동시에, 모델의 한계를 명확히 이해하는 데 기여할 것입니다.