최근 발표된 연구에 따르면, 대규모 언어모델(LLM)과 에이전트가 자연어 명령만으로 웹 스크레이퍼를 생성할 수 있지만, 실제 적용에서는 의존성 오류, 깨진 선택자(selector), 스키마 불일치 등 다양한 문제로 인해 신뢰성이 낮았습니다. 이러한 문제를 해결하기 위해, 연구진은 '제약적이고 검증 가능한 에이전트 프레임워크'를 제안하며 LLM의 출력을 자유로운 코드 형태가 아닌, 정형화된 JSON 수집기 설정으로 전환하는 새로운 접근 방식을 제시했습니다.
이 프레임워크는 6가지 유형의 수집기 분류 체계, 템플릿 및 유틸리티 함수 제약 조건, 정적 에어플로우(Airflow) DAG 실행, 규칙 기반 품질 검사, 그리고 구조화된 피드백 보정 메커니즘을 통합합니다. 138개 태스크에 대한 실험 결과, 이 분류 체계가 요구 사항을 기반으로 수집기 유형을 효과적으로 분류할 수 있음을 확인했습니다. 특히 80개의 독립적으로 검증된 태스크에서 이 프레임워크는 실행 단계에서 LLM 토큰을 전혀 사용하지 않고도 가장 낮은 평균 실행 시간을 기록하며, 재사용 가능하고 결정적이며 검증 가능한 실행 경로를 제공했습니다. 이는 일회성 품질을 다소 희생하더라도 반복적이고 스케줄링된 데이터 수집에 매우 적합하다는 것을 의미합니다.
이 연구는 웹 데이터 수집의 패러다임을 바꿀 잠재력을 가지고 있습니다. 기존 LLM 기반 스크레이퍼의 고질적인 불안정성을 해결함으로써, 기업이나 개인이 웹 데이터를 반복적으로, 그리고 안정적으로 수집하는 데 드는 비용과 노력을 크게 줄일 수 있습니다. 특히, 실행 단계에서 LLM 토큰을 사용하지 않아 운영 비용을 절감하고, 예측 가능한 성능을 제공하여 장기적인 데이터 파이프라인 구축에 유리합니다. 이는 다양한 산업 분야에서 데이터 기반 의사결정을 강화하고, 새로운 서비스 개발을 촉진하는 중요한 기반 기술이 될 것입니다.