대규모 언어모델(LLM)이 학습 데이터에 포함된 정보를 얼마나 정확하게 기억하고 있는지 측정하는 흥미로운 실험 결과가 공개되었습니다. 'Who's in the weights?'라는 프로젝트는 13개의 언어모델이 291명의 실제 인물을 얼마나 잘 '알고 있는지' 0부터 100까지의 확신 점수로 평가했습니다. 이 실험은 모델의 '기억'이 단순히 예/아니오가 아니라, 다양한 수준의 확신을 가진다는 점을 보여주며, 모델의 지식 저장 방식에 대한 통찰을 제공합니다.
이 실험은 위키백과(Wikipedia)에 등재된 정치인, 배우, 음악가, 운동선수, 과학자, 언론인, 소설가 등 7개 직업군의 인물 291명을 대상으로 진행되었습니다. 인물 선정은 유명도(월별 위키백과 페이지뷰 기준)에 따라 매우 유명한 사람부터 거의 알려지지 않은 사람까지 폭넓게 분포했습니다. 분석 결과, 모델의 인물 인지도는 해당 인물의 위키백과 페이지뷰, 즉 대중적 인지도와 대체로 비례했지만, 그 상관관계가 항상 강한 것은 아니었습니다. 특히, 모델마다 특정 인물에 대한 확신 점수가 크게 달랐는데, 어떤 모델은 거의 모든 인물을 확신하는 반면, 다른 모델은 대부분의 인물을 모른다고 답하기도 했습니다.
또한, 직업군별로 보면 운동선수에 대한 모델들의 인지도가 다른 직업군(정치인, 배우 등)에 비해 현저히 낮게 나타났습니다. 이는 운동선수 관련 정보가 학습 데이터에서 상대적으로 덜 중요하게 다뤄지거나, 이름만으로는 특정 인물을 식별하기 어려운 특성 때문일 수 있습니다. 흥미롭게도, 동명이인(shared name)이 있는 경우 모델의 인지도가 다소 떨어지는 경향도 확인되었습니다. 이 연구는 모델들이 '누구를' 아는지 뿐만 아니라 '어떻게' 아는지에 대한 중요한 단서를 제공하며, 대규모 언어모델의 지식 표현과 검색 방식에 대한 이해를 높이는 데 기여합니다.
