대규모 언어모델(LLM)이 복잡한 윤리적 딜레마에 직면했을 때, 단순히 '옳고 그름'을 넘어 어떤 가치와 덕목을 우선시하는지 분석하는 새로운 방법론 '버츄맵(VirtueMap)'이 아리스토텔레스 덕 윤리(virtue ethics)를 기반으로 제안되었습니다. 이 프레임워크는 LLM의 응답이 공정성(fairness), 정직성(honesty), 용기(courage), 절제(restraint) 등 다양한 덕목 중 무엇을 더 강조하는지 정량적으로 측정하여, 모델의 윤리적 특성을 심층적으로 이해할 수 있게 돕습니다.
버츄맵은 7가지의 일반적이고 비치명적이며, 정치적·종교적이지 않은 윤리적 딜레마를 제시하고, 각 딜레마에 대한 5가지 응답을 인간 또는 LLM이 순위를 매기도록 합니다. 연구진은 먼저 각 딜레마와 덕목별로 5가지 응답의 순서를 정의한 후, 100명 이상의 응답자 평가를 통해 95% 이상 일치하는 경우에만 이를 '정답'으로 확정했습니다. 이 기준 순위와 LLM의 응답 순위를 비교하여 실용적 지혜(Practical Wisdom), 정의(Justice), 진실성(Truthfulness), 용기(Courage), 절제(Temperance) 등 5가지 덕목에 대한 LLM의 프로필을 도출합니다. 9개 LLM 계열에 적용한 결과, 평균 90.3%의 높은 순위 일관성을 보였으며, 특히 용기, 절제, 정의 덕목에서 가장 큰 차이가 나타났습니다.
이러한 버츄맵은 LLM의 윤리적 편향을 식별하고, 특정 덕목에 대한 모델의 성향을 파악하는 데 중요한 도구가 될 수 있습니다. 단일 '정답'을 강요하기보다 다양한 윤리적 관점을 이해하고 반영하려는 시도는, 더욱 신뢰할 수 있고 책임감 있는 인공지능(AI) 개발에 기여할 것입니다. 개발자들은 이 프레임워크를 통해 자신들이 개발하는 LLM이 사회적 가치와 윤리적 기준에 얼마나 부합하는지 평가하고, 필요한 경우 미세조정(fine-tuning)하여 모델의 '덕성'을 개선할 수 있게 됩니다. 이는 AI 시스템이 실제 세상의 복잡한 윤리적 상황에 더욱 적절하게 대응하도록 돕는 중요한 진전입니다.
