최근 'Save'라는 새로운 API 서비스가 출시되어 웹페이지 콘텐츠를 대규모 언어모델(LLM)이 활용하기 적합한 형태로 변환하는 기능을 제공합니다. 이 서비스는 어떤 URL이든 입력받아 광고, 내비게이션 바, 쿠키 배너 등 불필요한 요소를 제거하고, 핵심 내용만을 추출하여 깨끗한 마크다운(Markdown) 형식으로 변환해 줍니다. 이는 AI 에이전트, 검색 증강 생성(RAG) 파이프라인, 그리고 일반적인 웹 스크래퍼 개발자들이 웹 데이터를 효율적으로 처리할 수 있도록 돕는 데 초점을 맞추고 있습니다.
'Save' API는 웹페이지를 마크다운으로 변환하기 위해 다단계 엔진을 사용합니다. 먼저, 서버 측에서 실제 브라우저 지문(fingerprint)을 사용하여 URL을 가져오고, 정적 페이지는 이 단계에서 처리가 완료됩니다. 만약 페이지가 자바스크립트(JavaScript) 기반의 동적 콘텐츠로 구성되어 있다면, 필요한 경우에만 헤드리스(headless) 브라우저 렌더링을 통해 콘텐츠를 확보합니다. 이를 통해 불필요한 리소스 사용을 최소화하고 비용 효율성을 높입니다. 최종적으로 추출된 콘텐츠는 제목, 목록, 링크, 이미지, 코드 블록 등을 포함한 깔끔한 마크다운으로 제공되며, 월 1,000페이지까지 무료로 이용할 수 있는 플랜을 제공하여 개발자들이 부담 없이 서비스를 시험해 볼 수 있도록 했습니다.
이러한 'Save' API의 등장은 AI 시대에 웹 데이터 활용의 새로운 가능성을 열어줍니다. LLM은 HTML보다는 구조화된 마크다운 형식의 텍스트를 더 효율적으로 이해하고 처리할 수 있기 때문에, 웹페이지를 직접 파싱(parsing)하는 복잡한 과정 없이도 AI 모델에 고품질 데이터를 공급할 수 있게 됩니다. 이는 AI 에이전트가 웹 정보를 기반으로 더 정확하고 유의미한 작업을 수행하거나, RAG 시스템이 최신 웹 콘텐츠를 활용하여 답변의 정확도를 높이는 데 크게 기여할 것입니다. 개발자들은 웹 스크래핑 및 데이터 전처리 과정에서 드는 시간과 노력을 절감하고, 핵심 AI 기능 개발에 더욱 집중할 수 있게 될 것으로 기대됩니다.