자율주행 기술 개발의 핵심 요소 중 하나는 실제와 같은 시뮬레이션 환경입니다. 하지만 기존 운전 시뮬레이터들은 자율주행 차량(ego agent) 외의 다른 차량(non-ego traffic agents)들이 규칙 기반 또는 단일 행동 모드로 움직여 실제 도로의 다양성을 반영하지 못하는 한계가 있었습니다. 최근 아카이브(arXiv)에 공개된 '페르소나드라이브(PersonaDrive)'는 이러한 문제를 해결하기 위해 인간의 다양한 운전 스타일을 학습하고 모방하는 비전-언어-행동(VLA) 기반 AI 에이전트 파이프라인을 제시했습니다.
페르소나드라이브는 세 가지 핵심 단계로 작동합니다. 첫째, 공격적(aggressive), 중립적(neutral), 보수적(conservative) 등 특정 운전 스타일 지침을 받은 인간 운전자의 실제 주행 데이터셋에서 유사한 이미지-텍스트 정보를 추출합니다. 둘째, 이 데이터를 기반으로 경량 검색 헤드를 훈련시켜 시각적 특징과 제어 인코더를 융합합니다. 마지막으로, 단일 VLA 백본을 미세조정(fine-tuning)하여 검색된 맥락 정보를 마치 실제 행동 시연처럼 활용해 다음 경로를 예측하도록 합니다. 이 방식은 각 스타일별로 모델을 재훈련할 필요 없이, 검색 헤드가 어떤 스타일 데이터베이스를 쿼리하느냐에 따라 다양한 인간 스타일의 비(非)자율주행 에이전트를 시뮬레이션에 구현할 수 있게 합니다.
이 기술은 벤치투드라이브(Bench2Drive) 테스트에서 기존 모델 대비 뛰어난 성능을 보였습니다. 스타일 조건이 없는 상태에서도 시뮬링고(SimLingo) 대비 4.6%, 하이피-AD(HiP-AD) 대비 2.5% 향상된 운전 점수를 기록했습니다. 또한, 스타일 조건이 적용되었을 때는 보수적 스타일에서 공격적 스타일로 갈수록 평균 속도와 가속도가 각각 18%, 25% 증가하는 등 스타일별 행동 변화를 성공적으로 구현했습니다. 이는 자율주행 시스템이 예측 불가능한 다양한 실제 도로 상황에 대비하고 안전성을 높이는 데 필수적인 요소로 작용할 것입니다. 궁극적으로 자율주행 기술의 개발 및 검증 과정을 더욱 효율적이고 현실적으로 만들 수 있는 중요한 진전으로 평가됩니다.