오픈소스 대규모 언어모델(LLM)이 폐쇄형 모델의 성능을 따라잡는 속도에 대한 관심이 뜨겁습니다. 일부 분석에서는 오픈소스 LLM이 2026년 말에는 폐쇄형 모델과 동등한 수준에 도달할 것이라는 예측까지 나왔습니다. 이는 ‘인공지능 분석 지수(Artificial Analysis Intelligence Index)’라는 단일 벤치마크를 기반으로 한 것으로, 오픈소스 모델의 성능이 폐쇄형 모델의 과거 성능 수준에 도달하는 데 걸리는 시간을 측정하여 격차가 빠르게 줄어들고 있음을 보여줍니다.
하지만 이 분석은 전체 그림의 일부일 수 있습니다. Doubleword의 창립자 제이미 드보린(Jamie Dborin)은 인공지능 분석이 제공하는 18가지 다른 벤치마크 데이터를 모두 분석한 결과, 상황이 좀 더 복잡하다고 지적했습니다. 여러 벤치마크에 걸쳐 오픈소스 모델이 폐쇄형 모델에 뒤처지는 기간을 평균 내보면, 이 격차는 지난 기간 동안 약 5개월 수준으로 거의 일정하게 유지되고 있습니다. 특히 코딩(coding) 벤치마크에서는 오픈소스 모델이 15개월 뒤처지던 것에서 불과 1~2개월 차이로 크게 개선되었지만, 다른 대부분의 데이터셋에서는 격차가 오히려 소폭 증가하는 경향을 보였습니다.
이러한 분석은 LLM의 품질을 측정하는 것이 얼마나 어려운지를 다시 한번 보여줍니다. 어떤 벤치마크를 사용하느냐에 따라 오픈소스 모델이 곧 폐쇄형 모델을 따라잡을 것이라고 예측할 수도 있고, 아니면 꾸준히 5개월 정도 뒤처져 있으며 격차가 더 벌어질 수도 있다고 판단할 수도 있습니다. 이는 LLM의 다양한 역량(추론, 코딩, 수학, 상식 등)을 단일 지표로 포괄하기 어렵다는 점을 시사하며, 특정 작업에 특화된 모델의 중요성을 강조합니다. 따라서 오픈소스 LLM의 발전은 특정 분야에서 빠르게 이루어지고 있지만, 전반적인 격차 해소에는 시간이 더 필요할 것으로 보입니다.