대부분의 인공지능(AI) 정렬(alignment) 연구는 인간의 선호도를 고정된 목표로 간주하고, AI가 이를 정확히 추론하고 최적화하도록 설계하는 데 초점을 맞춰왔습니다. 그러나 최근 발표된 '구성적 정렬(Constructive Alignment)'이라는 새로운 패러다임은 이러한 접근 방식에 근본적인 의문을 제기합니다. 인간의 선호도는 고정된 것이 아니라, 특히 적응형 기술인 AI와의 지속적인 상호작용을 통해 다층적으로 형성되고 변화한다는 것이 이 연구의 핵심 주장입니다.
맥스 칸왈(Max Kanwal)과 캐린 트랜(Caryn Tran)이 제안한 이 연구는 AI 시스템이 점차 개인화되고 사회에 깊이 통합되면서, 사람들이 무엇에 주목하고, 무엇을 가치 있게 여기며, 무엇을 지지하는지에 장기적으로 영향을 미친다고 설명합니다. 따라서 AI 정렬은 단순히 AI의 행동을 제어하는 문제를 넘어, AI 시스템이 인간의 선호도 궤적(preference trajectories)을 어떻게 진화시키는지 규제하는 문제로 재정의되어야 한다고 강조합니다. 이들은 행동 경제학, 심리학, 구성주의 사회 이론 등 다양한 분야의 통찰을 활용하여, 선호도를 AI 시스템과의 상호작용 속에서 진화하는 다층적인 상태 변수로 모델링합니다.
구성적 정렬은 AI 시스템의 행동과 상호작용 설계가 세계 상태(world states)뿐만 아니라 인간의 평가적 상태(evaluative states)에도 영향을 미친다는 제어 이론적 프레임워크를 제시합니다. 이는 AI가 장기적으로 인간의 가치 형성을 어떻게 관리할 것인가에 대한 중요한 질문을 던집니다. 즉, AI가 유도하는 가치 궤적이 일관성을 유지하고, 성찰적으로 지지되며, 인식론적으로 근거를 갖고, 조작으로부터 보호되며, 불확실성 속에서도 인간에게 힘을 실어줄 수 있도록 보장하는 것이 진정한 정렬의 목표라는 것입니다. 이 패러다임은 AI가 단순한 도구를 넘어 인간의 가치관과 세계관 형성에 적극적으로 참여하는 존재임을 인정하며, 이에 대한 윤리적, 사회적 책임을 더욱 강조합니다.