최근 발표된 연구에 따르면, 오픈소스 대규모 언어모델(LLM)인 라마 3.1(LLaMA 3.1)이 뇌 자기공명영상(MRI) 판독문에서 핵심 정보를 자동으로 추출하는 데 매우 효과적인 것으로 나타났습니다. 이 연구는 네덜란드어로 작성된 신경방사선과 판독문 947건을 분석하여, LLM이 복잡한 의료 텍스트에서 구조화된 데이터를 얼마나 정확하게 뽑아낼 수 있는지 평가했습니다.
연구팀은 2016년부터 2021년까지 한 기억 클리닉에서 수집된 뇌 MRI 판독문을 활용했으며, 숙련된 의대생들이 30가지 변수를 수동으로 주석(annotation) 처리하여 LLM의 성능을 비교했습니다. 라마 3.1은 내측 측두엽 위축(Medial Temporal Atrophy) 90~96%, 전반적 피질 위축(Global Cortical Atrophy) 87%, 파제카스 척도(Fazekas) 94% 등 시각적 평가 점수에서 높은 제로샷(zero-shot) 성능을 보였습니다. 또한, 미세출혈 언급은 93%, 뇌경색 언급은 82%의 정확도로 감지했습니다. 특히 소수 학습(few-shot prompting) 기법을 적용했을 때 미세출혈 수치 변수 추출 정확도가 92%까지 향상되는 등, 수치 정보 추출에 있어 성능 개선 효과가 두드러졌습니다.
이러한 결과는 LLM이 방대한 의료 기록에서 필요한 정보를 신속하고 정확하게 추출하여 대규모 연구를 가능하게 할 잠재력을 보여줍니다. 의료진이 수동으로 데이터를 처리하는 데 드는 시간과 노력을 크게 줄여줄 수 있으며, 이는 진단 보조 및 환자 관리 효율성 향상으로 이어질 수 있습니다. 특히 오픈소스 모델의 활용 가능성을 입증함으로써, 의료 AI 기술의 접근성을 높이고 다양한 연구 환경에서 활용될 수 있는 기반을 마련했다는 점에서 그 의미가 큽니다. 향후에는 위치 특정 변수(location-specific variables) 추출의 정확도를 높이는 것이 과제로 남아있습니다.