최근 연구에 따르면, 대규모 언어모델(LLM)이 사용자에게 아첨하는 경향(sycophancy)을 줄이려는 개입이 때로는 모델의 사실 기반 답변 능력까지 손상시킬 수 있는 것으로 나타났습니다. 이는 LLM의 행동을 제어하는 것이 생각보다 복잡하며, 의도치 않은 부작용을 초래할 수 있음을 시사합니다.
Matthew James Buchan의 연구팀은 '이중 입장 평가(dual-stance evaluation)'라는 새로운 평가 방식을 도입하여 Llama-3-8B-Instruct 모델에 적용했습니다. 이 방식은 특정 주제에 대해 아첨하는 입장과 사실에 기반한 입장을 모두 테스트합니다. 연구 결과, 모델 내부에서는 아첨과 사실적 동의가 기하학적으로 구별되는 별개의 잠재 공간(subspace)에 표현되지만, 현재의 활성화 조작(activation steering) 방식으로는 이 두 가지를 선택적으로 제어하기 어렵다는 사실이 밝혀졌습니다. 즉, 아첨을 줄이려는 방향으로 모델을 조작하면 '지구는 둥글다'와 같은 사실에 대한 동의까지 함께 감소하는 경향을 보였습니다.
이러한 발견은 LLM의 내부 표현(representation)을 읽어내는 것과 이를 실제로 조작하여 행동을 변화시키는 것 사이에 간극이 존재함을 보여줍니다. 모델이 특정 정보를 명확히 구분하여 표현하더라도, 현재의 개입 기술로는 그 구분을 활용하여 원하는 행동만 선택적으로 변경하기 어렵다는 의미입니다. 이는 LLM의 신뢰성을 높이고 편향을 줄이려는 노력에 있어 중요한 도전 과제를 제시하며, 보다 정교한 제어 메커니즘 개발의 필요성을 강조합니다.