LLM 없이 RAG 성능 높인다: 경량형 증거 추출 모델 공개

KRLabsOrg가 대규모 언어모델(LLM) 호출 없이도 RAG(검색 증강 생성) 시스템의 증거 추출 성능을 높이는 경량형 모델 'Verbatim-RAG Extractor'를 공개했습니다. 1억 5천만 개의 매개변수(150M)를 가진 이 모델은 다양한 도메인의 문맥에서 질문에 대한 정확한 증거 구절(verbatim spans)을 찾아내 비용 효율적인 RAG 구현을 가능하게 합니다.

3일 전·2026.06.10·읽기 2분·justacoolname

KRLabsOrg가 대규모 언어모델(LLM)에 의존하지 않고도 RAG(검색 증강 생성) 시스템의 효율성을 크게 높일 수 있는 새로운 경량형 모델 'Verbatim-RAG Extractor'를 선보였습니다. 이 모델은 주어진 질문과 긴 문맥에서 답변의 핵심이 되는 '증거 구절(verbatim spans)'을 정확히 추출해내는 데 특화되어 있으며, 기존 LLM 기반 추출 방식의 높은 비용과 지연 시간 문제를 해결할 수 있는 대안으로 주목받고 있습니다.

'Verbatim-RAG Extractor'는 1억 5천만 개의 매개변수(150M)를 가진 토큰 분류기(token classifier)로, Alibaba-NLP의 'gte-reranker-modernbert-base'를 기반으로 개발되었습니다. 이 모델은 최대 8192 토큰의 긴 문맥을 처리할 수 있으며, 과학 논문, 금융 보고서, 법률 계약서, 의료 문헌, 제품 설명서, 심지어 코드 및 에이전트 도구 출력 등 다양한 형태의 데이터를 학습했습니다. 특히, 기존 추출 모델들이 위키피디아 스타일의 일반적인 텍스트에만 치중했던 것과 달리, 실제 RAG 시스템에서 자주 접하는 복잡한 데이터 형태에도 강점을 보입니다. KRLabsOrg의 벤치마크 테스트 결과, 이 모델은 LLM 기반 추출기와 대등하거나 더 나은 성능을 보여주면서도 훨씬 저렴하고 빠르게 운영될 수 있음을 입증했습니다.

이러한 경량형 증거 추출 모델의 등장은 RAG 시스템의 상업적 활용성을 크게 높일 잠재력을 가지고 있습니다. LLM 호출 비용을 절감하고 추론 속도를 향상시켜, 실시간 응답이 중요한 고객 서비스 챗봇이나 복잡한 문서 분석 시스템 등 다양한 프로덕션 환경에 RAG를 더 쉽게 적용할 수 있게 될 것입니다. 또한, 특정 도메인에 특화된 데이터를 활용하여 모델을 미세조정(fine-tuning)함으로써, 더욱 정교하고 신뢰할 수 있는 답변 생성을 기대할 수 있어, 기업들이 자체적인 AI 솔루션을 구축하는 데 있어 중요한 기술적 기반을 제공할 것으로 예상됩니다.