최근 연구에 따르면, 안전성 미세조정(safety fine-tuning)된 챗봇이 유해한 요청을 거절하는 방식이 기존에 알려진 것보다 더 복잡할 수 있다는 흥미로운 결과가 나왔습니다. 이전에는 챗봇의 거절 기능이 잔차 스트림(residual stream) 내의 단일 선형 방향에 의해 매개된다고 알려져 있었지만, 이번 연구는 다른 접근 방식이 더 미묘한 제어를 가능하게 할 수 있음을 보여줍니다.
아르디티(Arditi) 외 연구진(2024)은 유해한 활성화와 무해한 활성화의 차이 평균(Diff-in-Means, DiM)을 통해 단일 선형 방향으로 거절을 유도할 수 있음을 보였습니다. 이에 반해, 이번 논문은 DiM 기반 개입(활성화 추가 및 방향성 제거)과 INLP(Iterative Nullspace Projection)에서 파생된 두 가지 개입(널스페이스 투영 및 반사실적 뒤집기)을 다섯 가지 오픈소스 챗봇 모델에 적용하여 비교했습니다. 연구 결과, INLP의 반사실적 뒤집기(counterfactual flipping)는 거절 억제 측면에서 DiM의 방향성 제거(directional ablation)와 유사한 경쟁력을 보였으며, 특히 INLP를 주요 방향으로 제한했을 때 대부분의 억제 효과를 유지하면서도 퍼플렉시티(perplexity)는 거의 기준선 수준을 유지하여 튜닝 가능한(tunable) 능력을 보여주었습니다.
이 연구는 AI 모델의 내부 작동 방식, 특히 안전성 메커니즘에 대한 이해를 심화하는 데 중요한 의미를 가집니다. 기하학적으로 볼 때, 두 INLP 개입은 활성화 공간(activation space)에서 질적으로 다른 영역에 위치했습니다. 널스페이스 투영은 변환된 활성화를 유해/무해 클러스터 '사이'로 수렴시키는 반면, 반사실적 뒤집기는 이를 '반대' 클러스터로 이동시켰습니다. 이는 모델이 어떤 개념의 '부재'를 그 개념의 '반대'와 다르게 인코딩한다는 것을 시사하며, 향후 연구에서 더 깊이 탐구할 가치가 있는 흥미로운 차이점입니다. 이러한 발견은 AI 안전성 미세조정 기술을 더욱 정교하게 발전시키는 데 기여할 수 있습니다.