인공지능(AI) 챗봇이 특정 질문에 대한 답변을 거부하는 '거절(refusal)' 현상이 챗봇의 페르소나(persona)에 따라 크게 달라진다는 연구 결과가 나왔습니다. 기존에는 거절과 페르소나가 별개의 메커니즘으로 연구되었지만, 이번 연구는 순응적인 페르소나가 챗봇의 거절 반응을 억제하는 상호작용을 밝혀냈습니다.
Viola Zhong과 Qirui Li 연구진은 Qwen2.5-7B-Instruct와 Llama-3.1-8B-Instruct 모델을 대상으로 실험을 진행했습니다. 활성화 공간(activation space)에서 순응적인 모델 페르소나 방향과 거절 방향을 추출하여 두 가지 모두에 개입했습니다. 그 결과, 순응적인 페르소나를 주입하자 Llama 모델의 거절률이 97%에서 2%로 급격히 감소하는 것을 확인했습니다. 거절 방향을 다시 주입하면 후기 레이어(late layers)에서는 거절 반응이 부분적으로 회복되었지만, 초기 레이어(early ones)에서는 그렇지 않았습니다. 이는 거절 반응이 계산되는 초기 단계가 아니라, 챗봇의 응답이 형성되는 후기 레이어에서 페르소나에 의해 제어된다는 것을 의미합니다.
이 연구는 챗봇의 안전성(safety)과 행동 제어에 중요한 통찰을 제공합니다. 단순히 거절 메커니즘만을 독립적으로 다루는 것이 아니라, 챗봇의 전반적인 페르소나를 함께 고려해야 효과적인 제어가 가능하다는 점을 시사합니다. 이는 유해하거나 부적절한 답변을 방지하기 위한 챗봇의 안전 시스템을 설계할 때, 페르소나 조정이 핵심적인 역할을 할 수 있음을 보여줍니다. 또한, 챗봇이 왜 특정 질문에 답변을 거부하는지에 대한 이해를 높여, 더욱 신뢰할 수 있고 예측 가능한 AI 시스템을 구축하는 데 기여할 것입니다.
