구글(Google)의 검색 담당 분석가 존 뮬러(John Mueller)가 최근 llms.txt 파일이 대규모 언어모델(LLM)이 웹사이트를 구별하거나 특정 사이트의 콘텐츠를 사용하지 않도록 하는 데 효과가 없다고 공식적으로 밝혔습니다. 이는 웹사이트 소유자들이 LLM의 무단 콘텐츠 사용을 막기 위해 고안된 새로운 프로토콜인 llms.txt에 기대를 걸었지만, 구글은 이에 대해 회의적인 입장을 표명한 것입니다.
뮬러는 llms.txt가 검색 엔진의 기존 로봇 배제 표준(robots.txt)과 유사하게 작동할 것이라는 기대와 달리, LLM은 웹사이트를 크롤링(crawling)하여 정보를 수집하는 방식이 아니라고 설명했습니다. 대신 LLM은 이미 학습된 방대한 데이터셋을 기반으로 작동하며, 이 데이터셋은 과거에 수집된 웹 콘텐츠를 포함하고 있습니다. 따라서 llms.txt 파일이 새로 추가되더라도 이미 학습된 모델에는 영향을 미치지 않으며, LLM이 실시간으로 웹사이트를 방문하여 해당 파일을 읽고 지시를 따르는 메커니즘이 아니라는 점을 강조했습니다.
이번 발언은 LLM이 웹 콘텐츠를 활용하는 방식에 대한 업계의 혼란을 해소하고, 웹사이트 소유자들이 콘텐츠 사용을 제어하려는 노력에 대한 구글의 입장을 명확히 했다는 점에서 중요합니다. 이는 LLM 시대에 콘텐츠 저작권 및 사용 정책에 대한 새로운 논의가 필요함을 시사하며, 기존의 웹 표준으로는 LLM의 작동 방식을 완전히 제어하기 어렵다는 현실을 보여줍니다. 앞으로 LLM의 데이터 학습 및 활용에 대한 투명성과 제어권을 확보하기 위한 더 진보된 기술적, 정책적 접근이 요구될 것으로 보입니다.