구글(Google)의 검색 애널리스트 존 뮬러(John Mueller)가 최근 'llms.txt'라는 파일이 대규모 언어모델(LLM)의 추천 결과에 영향을 미치지 않을 것이라고 공식적으로 밝혔습니다. 이는 웹사이트 소유자들이 자신의 콘텐츠가 LLM 학습에 사용되거나 특정 방식으로 추천되는 것을 제어할 수 있는 새로운 메커니즘이 등장할 것이라는 일각의 기대를 잠재우는 발언입니다.
뮬러는 'llms.txt'가 웹사이트 크롤링을 제어하는 'robots.txt'와 같은 역할을 할 것이라는 추측에 대해, 구글이 LLM 추천 시스템을 운영하는 방식과는 관련이 없다고 선을 그었습니다. 'robots.txt'는 검색 엔진 봇이 웹사이트의 특정 페이지를 색인(indexing)하거나 크롤링(crawling)하는 것을 막는 표준 프로토콜이지만, 뮬러의 발언은 LLM이 정보를 수집하고 활용하는 방식이 전통적인 검색 엔진의 색인 과정과는 다른 접근 방식을 취하고 있음을 시사합니다.
이번 발표는 LLM이 생성하는 콘텐츠의 출처 투명성과 저작권 문제에 대한 논의가 활발한 시점에서 나왔다는 점에서 중요합니다. 웹사이트 소유자들은 자신들의 독점적인 콘텐츠가 LLM 학습에 무단으로 사용되거나, 잘못된 맥락으로 인용되는 것에 대한 우려를 표해왔습니다. 구글의 이번 입장은 LLM의 정보 수집 및 활용에 대한 명확한 가이드라인이 부재한 상황에서, 웹사이트 운영자들이 직접 LLM의 동작을 제어하기는 쉽지 않을 것임을 보여주며, 향후 LLM과 웹 콘텐츠 간의 관계 설정에 대한 추가적인 논의가 필요함을 시사합니다.