대규모 언어모델(LLM)이 교육 분야에서 얼마나 잘 가르치는지 평가하는 것은 단순히 지식의 정확성을 넘어선 복잡한 문제입니다. 기존의 LLM 평가 벤치마크는 주로 일반적인 지식의 정확성에 집중하거나, 특정 교육 시나리오에 맞는 세밀한 평가 기준(rubric)을 수동으로 만들어야 하는 한계가 있었습니다. 이는 다양한 교육 환경, 특히 소외된 교육 시나리오(long-tail pedagogical scenarios)에 적용하기 어렵게 만들었습니다.
최근 공개된 '엘메스*(Elmes*)'는 이러한 문제를 해결하기 위한 종단간(end-to-end) 프레임워크로, 시나리오별 맞춤형 평가 기준을 자동으로 구축하고 개선하며 적용할 수 있습니다. 엘메스*는 교사-학생-심사위원 간의 상호작용을 모방하는 선언적 다중 에이전트 엔진과, 평가 기준 및 테스트 데이터를 공동으로 최적화하는 자가 진화 모듈 '씬젠(SceneGen)'을 결합합니다. 연구팀은 엘메스*를 활용해 11개 과목, 3개 학년, 10개 과제 유형에 걸쳐 330개 교육 시나리오를 포함하는 '에듀-330(Edu-330)' 벤치마크를 구축했으며, 여기에는 1,000개 이상의 세부 지표가 포함됩니다.
엘메스*를 통한 실험 결과, LLM의 교육 역량은 다차원적이라는 사실이 밝혀졌습니다. 최상위 LLM들은 주로 창의성과 가치 통합 측면에서 차이를 보였고, 지식은 풍부하지만 소크라테스식 질문(Socratic scaffolding)에는 실패하는 모델도 있었습니다. 특히 교육 특화 모델인 이노스파크(InnoSpark)가 인간 평가에서 가장 높은 평균 점수를 기록했습니다. LLM 심사위원은 인간과 유사한 순위를 매기면서도 평가 편차가 훨씬 적었지만, 자기 선호(self-preference)와 같은 특정 편향을 보이기도 했습니다. 이 연구는 교육 분야에서 LLM의 잠재력을 더욱 정확하게 측정하고 발전시키는 데 중요한 기반을 제공할 것입니다.