최신 대규모 언어모델(LLM)들이 뛰어난 성능을 보이지만, 깊이 있는 연역적 추론(deductive reasoning) 작업에서는 여전히 한계를 드러내고 있습니다. 내부 추론(internal reasoning)을 확장하여 성능을 개선하는 방식은 비용 효율성이 떨어지는 문제도 있습니다. 이러한 난제를 해결하기 위해, 연구진은 LLM이 문제를 이해하고 번역하는 역할만 하고, 실제 추론은 외부의 전문 솔버(solver)에게 맡기는 '상징적 위임(symbolic delegation)'이라는 보완적인 접근 방식을 제안했습니다.
새롭게 발표된 '프롤로그MCP(PrologMCP)'는 이러한 상징적 위임을 위한 표준화된 오픈소스 서버입니다. 이는 논리 프로그래밍 언어인 프롤로그(Prolog)를 LLM 에이전트가 활용할 수 있는 상태 저장(stateful) 도구로 노출합니다. 기존에는 특정 작업이나 에이전트에 맞춰 개별적으로 구축해야 했던 논리 프로그래밍 자동 형식화(autoformalization) 파이프라인과 달리, 프롤로그MCP는 작업에 구애받지 않는(task-agnostic) 범용적인 인터페이스를 제공합니다. 이 서버는 간결한 도구 인터페이스, 구조화된 오류 보고, 세션별 격리(per-session isolation) 기능을 통해 '번역-실행-검사-수정(translate-run-inspect-repair)'의 반복 과정을 LLM 에이전트가 재사용 가능한 기본 기능으로 활용하도록 돕습니다.
연구팀은 프롤로그MCP로 강화된 형식화 에이전트(formalizer agent)를 클로드 소네트 4.6(Claude Sonnet 4.6), GPT-4.1, o4-mini와 같은 최신 추론 LLM들과 비교 평가했습니다. 그 결과, 일반적인 추론 문제 샘플에서 형식화 에이전트는 LLM들과 동등하거나 그 이상의 정확도(1.00 vs. 1.00 / 0.998)를 보였으며, 특히 GPT-4.1과 같은 표준 모델 대비 큰 폭의 성능 향상(0.762)을 달성했습니다. 더욱 도전적인 논리 추론 문제에서는 LLM들의 정확도가 0.95/0.94로 하락한 반면, 형식화 에이전트는 거의 완벽한 성능(1.00 / 0.99)을 유지했습니다. 이는 프롤로그를 통한 추론 위임이 LLM의 확장된 자연어 추론보다 훨씬 강력하고 검증 가능한 대안이 될 수 있음을 시사합니다.
이러한 결과는 LLM이 모든 것을 직접 해결하기보다는, 각자의 강점에 따라 역할을 분담하는 하이브리드 AI 시스템의 중요성을 강조합니다. LLM은 인간의 언어를 이해하고 논리적 문제로 변환하는 데 탁월하며, 프롤로그와 같은 전통적인 기호 논리 시스템은 복잡하고 깊이 있는 추론을 정확하고 효율적으로 수행하는 데 강점을 가집니다. 이 조합은 LLM의 추론 비용을 절감하고, 오류 발생 시 디버깅(debugging) 및 검증을 용이하게 하여 AI 시스템의 신뢰성을 높이는 데 기여할 수 있습니다. 궁극적으로 이는 LLM 기반 에이전트가 더욱 복잡하고 중요한 실제 문제들을 해결할 수 있는 길을 열어줄 것입니다.