새로운 오픈소스 도구 '빅셋(bigset)'이 자연어 입력만으로 라이브 웹에서 구조화된 데이터셋을 생성하고, 설정한 주기에 따라 자동으로 갱신하는 혁신적인 기능을 공개했습니다. 이는 기존의 복잡한 웹 스크래핑이나 데이터 수집 과정을 획기적으로 단순화하여, 누구나 손쉽게 원하는 최신 데이터를 얻을 수 있게 돕는 것을 목표로 합니다.
빅셋의 핵심은 AI 에이전트가 사용자의 자연어 문장을 분석해 데이터 스키마(컬럼명, 타입, 기본 키 등)를 자동으로 추론하는 능력에 있습니다. 예를 들어, "현재 엔지니어를 채용 중인 YC 기업 목록과 투자 단계, 위치, 공개 채용 수"와 같은 문장을 입력하면, 자율 에이전트가 라이브 웹을 조사하고 실제 출처와 대조 검증을 거쳐 중복을 제거한 후 표 형태의 데이터셋을 반환합니다. 이 과정에서 오케스트레이터 에이전트가 엔티티를 발견하면 서브 에이전트들이 병렬로 분산되어 각 엔티티를 조사 및 검증하며, 결과물은 CSV나 XLSX 파일로 다운로드하거나 UI에서 직접 탐색할 수 있습니다. 갱신 주기를 설정하면 에이전트가 일정에 따라 재실행되어 데이터셋을 최신 상태로 유지합니다.
이러한 빅셋의 등장은 데이터 수집 방식에 큰 변화를 가져올 잠재력을 지닙니다. 기존에는 여러 페이지에 흩어진 데이터를 수집하기 위해 검색, 추출, 스키마 설계, 중복 제거, 검증, 크론 작업 등을 직접 수행하거나 여러 도구를 통합해야 했지만, 빅셋은 이 모든 과정을 자동화하여 카테고리 교차 데이터 수집을 용이하게 합니다. 이는 특히 시장 조사, 경쟁사 분석, 리드 생성 등 실시간 웹 데이터가 필요한 다양한 분야에서 시간과 노력을 크게 절감시켜 줄 것입니다. 아직 실험 단계로 스키마 추론이 항상 완벽하지는 않지만, 공개 데이터에 대한 접근성을 높여 데이터 기반 의사결정을 가속화하는 데 기여할 것으로 보입니다.