Refusal Beyond a Single Direction: A Preliminary Comparison of Diff-in-Means and INLP

AI 챗봇이 부적절한 요청을 거절하는 방식에 대한 새로운 연구 결과가 나왔습니다. 기존에는 단일 선형 방향으로 거절이 이루어진다고 보았으나, 이 연구는 INLP(Iterative Nullspace Projection) 기법을 통해 거절이 더 복잡한 방식으로 작동할 수 있음을 시사합니다. 이는 AI 안전성 미세조정(safety fine-tuning)의 새로운 가능성을 열어줄 수 있습니다.

8시간 전·2026.06.15·읽기 1분·Elisabetta Rocchetti, Alfio Ferrara

최근 연구에 따르면, 안전성 미세조정(safety fine-tuning)된 챗봇이 유해한 요청을 거절하는 방식이 기존에 알려진 것보다 더 복잡할 수 있다는 흥미로운 결과가 나왔습니다. 이전에는 챗봇의 거절 기능이 잔차 스트림(residual stream) 내의 단일 선형 방향에 의해 매개된다고 알려져 있었지만, 이번 연구는 다른 접근 방식이 더 미묘한 제어를 가능하게 할 수 있음을 보여줍니다.

아르디티(Arditi) 외 연구진(2024)은 유해한 활성화와 무해한 활성화의 차이 평균(Diff-in-Means, DiM)을 통해 단일 선형 방향으로 거절을 유도할 수 있음을 보였습니다. 이에 반해, 이번 논문은 DiM 기반 개입(활성화 추가 및 방향성 제거)과 INLP(Iterative Nullspace Projection)에서 파생된 두 가지 개입(널스페이스 투영 및 반사실적 뒤집기)을 다섯 가지 오픈소스 챗봇 모델에 적용하여 비교했습니다. 연구 결과, INLP의 반사실적 뒤집기(counterfactual flipping)는 거절 억제 측면에서 DiM의 방향성 제거(directional ablation)와 유사한 경쟁력을 보였으며, 특히 INLP를 주요 방향으로 제한했을 때 대부분의 억제 효과를 유지하면서도 퍼플렉시티(perplexity)는 거의 기준선 수준을 유지하여 튜닝 가능한(tunable) 능력을 보여주었습니다.

이 연구는 AI 모델의 내부 작동 방식, 특히 안전성 메커니즘에 대한 이해를 심화하는 데 중요한 의미를 가집니다. 기하학적으로 볼 때, 두 INLP 개입은 활성화 공간(activation space)에서 질적으로 다른 영역에 위치했습니다. 널스페이스 투영은 변환된 활성화를 유해/무해 클러스터 '사이'로 수렴시키는 반면, 반사실적 뒤집기는 이를 '반대' 클러스터로 이동시켰습니다. 이는 모델이 어떤 개념의 '부재'를 그 개념의 '반대'와 다르게 인코딩한다는 것을 시사하며, 향후 연구에서 더 깊이 탐구할 가치가 있는 흥미로운 차이점입니다. 이러한 발견은 AI 안전성 미세조정 기술을 더욱 정교하게 발전시키는 데 기여할 수 있습니다.