The Critical Role of Model Selection in Causal Inference: A Comparative Analysis of Classification Models within the InferBERT Framework for Pharmacovigilance

의약품 부작용(ADE)의 인과관계를 정확히 밝히는 것은 약물감시(pharmacovigilance)의 핵심 과제입니다. 최근 연구에 따르면, InferBERT 프레임워크 내에서 대규모 언어모델(LLM)보다 특정 도메인에 사전 훈련된 소형 모델(예: BioBERT)이 약물 부작용의 인과관계를 더 정확하게 식별하는 것으로 나타났습니다. 이는 무조건적인 모델 크기 확장이 아닌, 도메인 지식의 중요성을 강조합니다.

6시간 전·2026.06.17·읽기 1분·Csaba Kiss, Roland Molontay, Gabriele Pergola

의약품 부작용(ADE)이 약물 자체의 인과적 결과인지, 아니면 단순한 우연의 일치인지를 구별하는 것은 약물감시(pharmacovigilance) 분야에서 오랜 난제입니다. 이러한 문제를 해결하기 위해 트랜스포머 모델과 인과 추론(causal inference) 기법인 Do-calculus를 결합한 InferBERT 프레임워크가 제안되었지만, 이 프레임워크의 성능은 기반이 되는 분류 모델(classification model)의 선택에 크게 좌우됩니다.

최근 발표된 연구는 InferBERT 프레임워크 내에서 어떤 분류 모델을 사용하는 것이 가장 효과적인지 비교 분석했습니다. 연구팀은 두 가지 주요 벤치마크 데이터셋(진통제 유발 급성 간부전, 트라마돌 관련 사망률)을 활용하여 네 가지 모델—XGBoost(기준 모델), ALBERT(기존 InferBERT), BioBERT(생의학 분야 특화 트랜스포머), Med-LLaMA(의료 분야 특화 대규모 언어모델)—의 성능을 평가했습니다. 놀랍게도, BioBERT가 두 데이터셋 모두에서 가장 높은 정확도를 기록했습니다. 반면, 크기가 훨씬 큰 Med-LLaMA는 매개변수 효율적 미세조정(parameter-efficient fine-tuning)을 거쳤음에도 불구하고 기대 이하의 성능을 보였습니다. 이는 도메인 특화 사전 훈련(domain-specific pre-training)이 모델의 크기보다 인과관계 탐지에 훨씬 더 결정적인 영향을 미친다는 것을 시사합니다.

이번 연구 결과는 약물감시와 같은 전문 분야에서 인과 추론 모델을 개발할 때 중요한 시사점을 제공합니다. 단순히 모델의 크기를 키우거나 일반적인 대규모 언어모델(LLM)을 사용하는 것보다, 해당 도메인의 특성을 반영하여 사전 훈련된 소규모 모델에 투자하는 것이 더 효과적이라는 점이 명확해졌습니다. BioBERT의 우수성은 전통적인 약물감시 신호(예: PRR, ROR, EBGM)와의 일치도에서도 가장 높은 상관관계를 보였으며, 이는 실제 약물감시 시스템에 적용될 가능성을 높입니다. 따라서 컴퓨테이셔널 약물감시 분야에서는 무조건적인 모델 스케일링보다는 도메인 지식을 효과적으로 통합하는 전략이 더욱 중요하다고 할 수 있습니다.