일리노이 대학교 어바나-샴페인(UIUC)의 시벨 컴퓨팅 및 데이터 과학 대학(Siebel School of Computing and Data Science) 연구팀이 대규모 언어모델(LLM)의 고질적인 문제인 환각(hallucination) 현상을 해결하기 위한 'CEDAR' 프로젝트를 공개했습니다. 환각은 LLM이 사실과 다른 정보를 마치 진실인 것처럼 생성하는 현상으로, LLM의 신뢰도를 떨어뜨리고 실제 중요한 분야에서의 활용을 제약하는 주요 원인으로 꼽힙니다. CEDAR 프로젝트는 이러한 환각 문제를 근본적으로 줄여 LLM의 답변 신뢰도를 높이는 데 집중하고 있습니다.
CEDAR 프로젝트는 LLM이 생성한 텍스트의 각 부분이 어떤 훈련 데이터에서 파생되었는지 추적하는 것을 목표로 합니다. 이를 통해 모델이 특정 정보를 생성할 때 어떤 원본 데이터를 참조했는지 역추적하고, 해당 원본 데이터의 신뢰성을 평가하여 최종 답변의 정확도를 판단할 수 있게 됩니다. 연구팀은 이 기술을 통해 LLM이 불확실하거나 잘못된 정보를 생성할 경우 사용자에게 경고하거나, 더 정확한 정보를 제공하도록 유도할 수 있을 것으로 기대하고 있습니다. 이는 단순한 사후 검증을 넘어, LLM의 내부 작동 방식에 대한 투명성을 확보하려는 시도입니다.
이 프로젝트의 성공은 대규모 언어모델이 산업 전반에 걸쳐 더 광범위하게 적용될 수 있는 중요한 전환점이 될 것입니다. 현재 LLM은 정보 검색, 콘텐츠 생성, 고객 서비스 등 다양한 분야에서 활용되고 있지만, 환각 문제로 인해 법률, 의료, 금융과 같이 정확성이 필수적인 분야에서는 적용에 한계가 있었습니다. CEDAR와 같은 연구가 결실을 맺는다면, LLM은 단순한 보조 도구를 넘어 신뢰할 수 있는 정보원으로 자리매김하며, 기업과 개인이 AI 기술을 더욱 적극적으로 활용할 수 있는 길을 열어줄 것입니다.