대규모 언어모델(LLM)의 성능을 평가할 때 흔히 사용되는 정확도(accuracy) 지표만으로는 모델의 실제 위험성을 제대로 파악하기 어렵다는 연구 결과가 나왔습니다. 제이슨 Z 왕(Jason Z Wang)이 발표한 논문 'ERRORQUAKE'는 LLM의 오류를 단순히 틀린 개수로 세는 것이 아니라, 그 오류가 얼마나 심각한지(severity)를 함께 고려해야 한다고 주장합니다. 예를 들어, 잘못된 날짜 정보와 완전히 조작된 법원 판결문은 둘 다 오류이지만, 사회에 미치는 영향은 비교할 수 없을 정도로 다릅니다.
연구팀은 이러한 문제 인식을 바탕으로 'Errorquake-10k'라는 새로운 벤치마크를 개발했습니다. 이 벤치마크는 10,000개의 질의에 대한 LLM의 응답을 0점(오류 없음)부터 4점(매우 심각한 오류)까지 연속적인 심각도 척도로 평가합니다. 8개 도메인과 5단계 난이도로 구성된 이 벤치마크를 통해 21개 오픈소스 LLM의 오류 심각도 분포를 분석한 결과, 모델마다 오류의 '꼬리 부분'(중대한 오류 발생 빈도)이 크게 다르다는 것을 발견했습니다. 특히, 정확도가 비슷한 모델이라도 심각한 오류를 내는 경향은 현저히 다를 수 있으며, 이는 기존의 단일 오류율 지표로는 포착할 수 없는 중요한 차이입니다.
이 연구는 LLM 개발 및 평가 방식에 중요한 시사점을 제공합니다. 단순히 높은 정확도를 추구하는 것을 넘어, 모델이 치명적인 오류를 얼마나 자주, 그리고 어떤 유형으로 발생시키는지에 대한 이해가 필수적임을 보여줍니다. 저심각도 오류는 주로 정보 검색(retrieval) 실패에서 비롯되는 반면, 고심각도 오류는 모델이 사실을 '날조(fabrication)'하는 환각(hallucination) 현상과 밀접하게 관련되어 있음도 밝혀졌습니다. 따라서 앞으로 LLM의 성능을 평가할 때는 정확도와 함께 오류 심각도 분포를 함께 보고해야 하며, 이는 사용자에게 더욱 신뢰할 수 있는 정보를 제공하고, 개발자들이 모델의 약점을 개선하는 데 중요한 지표가 될 것입니다.