DeFAb: A Verifiable Benchmark for Defeasible Abduction in Foundation Models

새로운 벤치마크 'DeFAb' 연구 결과, 최신 대규모 언어모델(LLM)들이 복잡한 논리적 추론 방식인 '가추법(defeasible abduction)'에서 인간 수준에 크게 못 미치는 성능을 보였습니다. 규칙 기반 논리 솔버가 100% 정확도를 달성한 반면, LLM은 최고 65%에 그쳤고, 다양한 표현 방식에서는 23.5%까지 떨어져 이론적 추론 능력의 한계를 드러냈습니다. 이는 LLM의 '창의적' 문제 해결 능력에 대한 재평가를 요구합니다.

6시간 전·2026.06.18·읽기 1분·Patrick Cooper, Alvaro Velasquez

최신 대규모 언어모델(LLM)들이 인간처럼 복잡한 논리적 추론, 특히 '가추법(defeasible abduction)' 능력에서는 아직 갈 길이 멀다는 연구 결과가 나왔습니다. 패트릭 쿠퍼(Patrick Cooper) 외 연구진은 'DeFAb(Defeasible Abduction Benchmark)'라는 새로운 벤치마크를 통해, 최첨단 LLM들이 규칙 기반 논리 솔버와 비교했을 때 현저히 낮은 성능을 보인다고 발표했습니다. 이는 LLM이 단순히 유창한 텍스트를 생성하는 것을 넘어, 실제 세계의 복잡한 문제를 해결하는 데 필요한 심층적인 이론적 추론 능력에는 한계가 있음을 시사합니다.

DeFAb 벤치마크는 지난 40년간 축적된 공개 지식 기반(OpenCyc, YAGO, Wikidata 등)을 활용하여 가추법 추론을 위한 정형화된 문제 인스턴스를 생성합니다. 가추법은 특정 현상(anomaly)을 설명하기 위해 기본 가정을 뒤집으면서도 다른 관련 없는 기대치는 유지하는 가설을 구성하는 논리적 추론 방식입니다. 이 벤치마크는 모든 가설이 유효성, 보수성, 최소성 등 다항 시간 검증을 통과해야 하므로, 논리적 엄밀성을 통해 모델의 창의성과 이론적 추론 능력을 측정합니다. 연구 결과, 규칙 기반 논리 솔버는 모든 문제를 50마이크로초 이내에 100% 정확도로 해결했지만, 최신 LLM은 최고 65%의 정확도를 보였고, 다양한 표현 방식(rendering-robust evaluation)에서는 23.5%까지 떨어졌습니다. 특히 가장 어려운 레벨 2에서는 7.8~23.5%의 저조한 정확도를 기록했으며, 사고의 사슬(chain-of-thought) 방식에서도 모델 간 성능 차이보다 더 큰 편차를 보였습니다.

이 연구는 LLM이 단순한 패턴 인식과 텍스트 생성에 능숙할지라도, 새로운 가설을 구성하고 기존 지식을 비판적으로 재구성하는 '진정한' 창의적 추론 능력은 아직 부족하다는 중요한 시사점을 던집니다. 이는 LLM을 활용하여 복잡한 문제 해결 시스템이나 의사 결정 도구를 개발할 때, 모델의 논리적 한계를 명확히 인지하고 보완해야 함을 의미합니다. 또한, DeFAb와 같은 검증 가능한 벤치마크는 LLM의 추론 능력을 객관적으로 평가하고 개선 방향을 제시하는 데 필수적인 도구가 될 것입니다. 앞으로 LLM 연구는 단순히 데이터 규모를 늘리는 것을 넘어, 논리적 추론과 이론적 이해를 심화하는 방향으로 나아가야 할 것입니다.