대규모 언어모델(LLM) 기반 에이전트가 정보 검색(IR) 분야에서 핵심적인 역할을 하고 있습니다. 질의 응답, 답변 합성, 심지어 IR 평가의 심판 역할까지 수행하죠. 이러한 에이전트를 제어하는 프롬프트를 개선하는 것은 중요한 최적화 과제이지만, 실제 적용 환경에서는 막연한 탐색보다는 소프트웨어 디버깅에 가깝습니다. 어떤 행동이 실패했고, 어떤 유사한 행동은 성공했는지, 둘의 차이점은 무엇인지, 그리고 프롬프트 수정이 기존의 좋은 성능을 저해하지 않으면서 새로운 품질을 개선하는지 파악하는 것이 중요합니다.
최근 발표된 '대조적 성찰(Contrastive Reflection)' 프레임워크는 이러한 문제를 해결하기 위한 반복적인 프롬프트 최적화 방법론을 제시합니다. 이 프레임워크는 QA 에이전트의 검색 또는 추론 과정, 그리고 평가 에이전트의 차원별 점수와 근거 같은 구조화된 추적(trace) 데이터를 활용합니다. 이를 통해 오류가 발생한 행동 조각(behavioral slices)을 식별하고, 해당 영역에서 성공적인 인접 사례를 추가한 다음, '교사 LLM(Teacher LLM)'에게 목표에 맞는 프롬프트 수정을 제안하도록 요청합니다. 제안된 수정 사항은 검증 성능이 향상될 때만 수락되며, 선택적으로 회귀(regression) 검사도 수행하여 기존의 올바른 동작이 손상되지 않도록 합니다.
연구팀은 이 프레임워크를 트리 기반 슬라이스 선택기와 함께 구현했으며, HotpotQA 데이터셋을 활용한 검색 증강 QA(Retrieval-Augmented QA) 환경에서 그 효과를 입증했습니다. 대조적 성찰을 통한 단 한 번의 수정으로 정확도(exact-match accuracy)가 51.4%에서 60.4%로 크게 향상되었습니다. 이는 실패 사례만 고려하거나 무작위 증거를 사용한 다른 변형들보다 훨씬 뛰어난 결과이며, 기존의 성공적인 사례를 손상시키는 문제도 적었습니다. 또한, 이 방법은 최신 프롬프트 최적화 기법인 MIPROv2(59.4%)나 GEPA(57.0%)와 비교해도 경쟁력 있는 성능을 보여주며, 정보 검색 에이전트의 프롬프트 수정을 더욱 투명하고 검증 기반으로 만들 수 있음을 시사합니다.