Mechanistic Analysis of Alignment Algorithms in Language Models

대규모 언어모델(LLM)의 정렬(alignment) 알고리즘이 어떻게 모델의 내부 연산을 변화시키는지에 대한 체계적인 분석 결과가 발표되었습니다. 연구에 따르면 선호도 신호는 모델의 특정 계층에 집중되며, 각 정렬 방식마다 내부 표현 공간(latent space)에 질적으로 다른 변화를 일으키는 것으로 나타났습니다. 이는 모델의 안전성과 해석 가능성을 높이는 데 중요한 통찰을 제공합니다.

3일 전·2026.06.10·읽기 1분·Aarush Sinha, Ishan Garg, Veeraraju Elluru, Arth Singh, Kushal Garg

대규모 언어모델(LLM)이 인간의 선호도에 맞춰 작동하도록 훈련하는 정렬(alignment) 알고리즘은 그동안 블랙박스처럼 여겨져 왔습니다. 모델이 특정 행동을 하도록 만드는 내부적인 계산 과정이 어떻게 변화하는지에 대한 이해가 부족했던 것입니다. 최근 발표된 연구는 PPO, DPO, SimPO, ORPO, GRPO, KTO 등 6가지 주요 선호도 최적화(preference-optimization) 방법론이 오픈소스 모델에 적용될 때, 모델의 내부 작동 방식에 어떤 영향을 미치는지 체계적으로 분석하여 이 블랙박스를 열었습니다.

연구팀은 계층별 선형 탐침(layer-wise linear probing), 희소 오토인코더(Sparse Autoencoders), 크로스코더(crosscoders) 등의 기법을 활용하여 선호도 표현이 모델의 어느 계층에 집중되는지, 그리고 정렬 과정이 잠재 공간(latent space)에 어떤 기하학적 변환을 유도하는지 정량화했습니다. 그 결과, 선호도 신호는 일관적으로 초기-중간 또는 중간-후기 계층에 집중되는 경향을 보였습니다. 특히 KTO와 GRPO는 건설적인 특징 공유와 희소하고 두드러진 특징 활성화를 통해 선형 분리 가능성(linear separability)을 향상시키는 반면, DPO와 ORPO는 비건설적인 기하학적 회전과 특징 감쇠를 통해 분리 가능성을 저해하는 것으로 나타났습니다. PPO와 SimPO는 대체로 기준 모델의 기하학적 구조를 유지했습니다. 이러한 변환은 모델 아키텍처에 따라 달라지며, 행동적 정렬이 반드시 균일한 내부 재구조화를 의미하지는 않는다는 점을 보여주었습니다.

이번 연구는 정렬이 단순히 모델의 출력을 바꾸는 것을 넘어, 내부 표현 방식에 질적으로 다른 영향을 미 미치는 이질적인 개입(heterogeneous intervention)임을 밝혀냈습니다. 이는 LLM의 안전성(safety)과 해석 가능성(interpretability)을 높이기 위해 특징 수준(feature-level)의 감사(auditing)가 필요하다는 점을 시사합니다. 또한, 모델의 내부 메커니즘을 인지하고 설계하는 최적화 목표(mechanism-aware optimization objectives)의 중요성을 강조하며, 향후 더 투명하고 제어 가능한 LLM 개발의 방향을 제시합니다. 이러한 이해는 단순히 성능 향상을 넘어, AI 시스템이 왜 특정 결정을 내리는지 이해하고, 잠재적인 편향이나 위험을 사전에 감지하고 완화하는 데 필수적인 기반 지식을 제공할 것입니다.