자율주행 차량의 대규모 시각 언어 모델(VLA)은 복잡한 운전 상황을 이해하고 자연어로 의사결정 과정을 설명할 수 있어 매력적입니다. 하지만 현재의 VLA 모델들은 '생각의 사슬(Chain-of-Thought, CoT)' 추론을 사용함에도 불구하고, 실제 운전 행동과 추론 과정 사이에 명확한 인과 관계가 부족하다는 한계가 있었습니다. 즉, 모델이 왜 특정 결정을 내렸는지 그 이유를 단계별로 명확하게 설명하지 못해 신뢰성 문제가 제기되어 왔습니다.
이러한 문제를 해결하기 위해 '뉴로-심볼릭 드라이브(Neuro-Symbolic Drive)'라는 새로운 신경-심볼릭 운전 프레임워크가 제안되었습니다. 이 프레임워크는 고전적인 규칙 기반 플래너에서 직접 추출한 '규칙 기반 추론(rule-grounded reasoning)' 흔적을 자율주행 VLA 학습에 활용합니다. 규칙 기반 플래너는 안전 제약 조건을 고려하고, 가능한 기동을 탐색하며, 최종 궤적을 선택하는 등 이미 실행 가능한 추론 엔진 역할을 수행합니다. 연구팀은 시뮬레이션 환경에서 이러한 플래너를 계측하여 실행된 궤적과 각 규칙 평가 단계의 내부 의사결정 흔적을 모두 포착했습니다. 이 흔적들은 구조화된 규칙 기반 추론으로 직렬화되어 궤적과 함께 Qwen3.5-4B 기반의 자율주행 VLA를 미세조정(fine-tuning)하는 데 사용되었습니다. 이러한 방식은 추론이 동작 생성과 구조적으로 결합되도록 보장하여, 사후 정렬이 아닌 본질적인 연결성을 제공합니다.
뉴로-심볼릭 드라이브는 시뮬레이터 생성 벤치마크에서 뛰어난 성능 향상을 보였습니다. 세 대의 카메라를 사용하는 환경에서 3초 예측 시점의 평균 변위 오차(ADE@3s)를 0.47에서 0.26으로, 오작동률(miss rate)을 8.30%에서 6.40%로 감소시켰습니다. 또한, 여덟 대의 카메라를 사용하는 환경에서는 ADE@3s를 0.54에서 0.26으로, 오작동률을 10.13%에서 5.99%로 줄였습니다. 이는 뉴로-심볼릭 드라이브가 신경-심볼릭 계획 논리를 구조화된 지도 학습(supervision)으로 전환하여 자율주행 VLA의 예측 정확도와 신뢰성을 크게 향상시킬 수 있음을 보여줍니다. 궁극적으로 이 기술은 자율주행 시스템의 투명성과 안전성을 높이는 데 중요한 기여를 할 것으로 기대됩니다.
