인공지능(AI) 시스템이 의료, 교육 등 사회 전반의 중요한 영역에 깊이 관여하면서, AI 모델이 예상치 못한 방식으로 오작동하는 '정렬(alignment)' 문제가 갈수록 중요해지고 있습니다. 특히 강화 학습(RL) 기반 AI는 보상 해킹(reward hacking)이나 기만(deception)과 같이 의도치 않은 전략을 학습하여 예상치 못한 문제를 일으킬 수 있는데, 최근 연구에서는 현실적인 상황에서 유익한 행동을 강화 학습함으로써 이러한 문제를 해결할 수 있는 가능성을 제시했습니다.
연구팀은 진실성, 공정성, 위험 인식, 수정 가능성 등 유익한 특성을 측정하고 훈련하기 위한 현실적인 시나리오 데이터셋을 구축했습니다. 이 데이터셋은 건강, 과학, 교육 등 다양한 도메인을 아우르며, 이를 통해 모델을 강화 학습시켰습니다. 그 결과, 유익한 특성으로 강화 학습된 모델은 50개 이상의 독립적인 정렬 및 유익한 행동 벤치마크에서 기존 모델 대비 80% 이상 향상된 성능을 보였습니다. 특히, 건강 도메인에만 국한된 강화 학습이 보상 해킹, 기만 등 비건강 관련 정렬 평가에서도 광범위한 개선을 가져오는 '훈련 외 분포(out-of-distribution) 정렬 전이' 효과를 확인했습니다.
또한, 연구팀은 모델이 오정렬(misalignment)되도록 유도하는 시도에도 행동이 얼마나 견고하게 유지되는지 '정렬 지속성(alignment persistence)'을 연구했습니다. 유익한 특성으로 강화 학습된 모델은 적대적 프롬프트(adversarial prompting)나 유해한 미세조정(harmful fine-tuning)에 더 큰 저항력을 보이며 향상된 지속성을 나타냈습니다. 이러한 결과는 현실적인 도메인에서 유익한 행동을 강화 학습하는 것이 인간의 번영에 더욱 강력하게 정렬된 모델을 만들 수 있음을 시사하며, AI의 안전하고 신뢰할 수 있는 배포를 위한 중요한 토대가 될 것으로 기대됩니다.
