최근 'docrawl'이라는 새로운 커맨드라인 인터페이스(CLI) 도구가 깃허브(GitHub)에 공개되었습니다. 이 도구는 Docusaurus, VitePress, MkDocs, GitBook 등 다양한 문서 사이트의 콘텐츠를 마크다운 형식으로 크롤링하고 변환하는 기능을 제공합니다. 특히 브라우저를 실행하지 않고 페이지의 자바스크립트(JavaScript)를 실행하지 않기 때문에, 빠르고 효율적으로 문서를 수집할 수 있다는 장점이 있습니다.
docrawl은 Node.js 20 이상 환경에서 작동하며, 특정 URL의 문서 섹션을 크롤링하여 개별 마크다운 파일 또는 하나의 통합 파일로 저장할 수 있습니다. 예를 들어, 특정 가이드 섹션을 크롤링하거나, 전체 호스트네임(hostname)을 대상으로 최대 페이지 수와 깊이를 지정하여 광범위하게 수집하는 것이 가능합니다. 수집된 마크다운 파일에는 제목, 원본 URL, 최종 URL, 크롤링 시간, 단어 수 등의 메타데이터가 포함된 프런트매터(frontmatter)가 자동으로 추가됩니다. 이 도구는 LLM(대규모 언어모델)의 컨텍스트(context) 구축, 로컬 지식 기반(knowledge base) 생성, RAG(검색 증강 생성) 파이프라인 콘텐츠 공급, 또는 문서 아카이빙(archiving) 등 다양한 목적으로 활용될 수 있습니다.
이러한 도구의 등장은 AI 시대에 정보 활용 방식을 변화시킬 잠재력을 가집니다. 기업이나 개발자는 방대한 양의 기술 문서를 손쉽게 마크다운으로 변환하여 자체 LLM을 미세조정(fine-tuning)하거나, 내부 검색 시스템을 강화하는 데 활용할 수 있습니다. 특히 브라우저 의존성 없이 작동하므로 서버 자원을 절약하고 대규모 크롤링 작업의 효율성을 높이는 데 기여할 것입니다. 이는 복잡한 문서 구조를 가진 웹사이트의 정보를 구조화된 데이터로 변환하여 AI 시스템에 통합하려는 수요가 증가하는 현 시점에서 매우 유용한 솔루션이 될 것으로 기대됩니다.