인공지능(AI) 안전을 연구하는 앤트로픽(Anthropic)이 자사의 대규모 언어모델(LLM) 클로드(Claude) 학습에 사용된 데이터의 일부 출처를 공개했습니다. 이는 '공개 기록(Public Record)'이라는 새로운 프로젝트의 첫 번째 결과물로, AI 개발 과정의 투명성을 높이고 저작권 문제를 둘러싼 논란에 대한 해답을 찾기 위한 노력의 일환입니다. 앤트로픽은 이번 공개를 통해 AI 학습 데이터의 구성 방식에 대한 이해를 돕고, 저작권자들과의 건설적인 대화를 시작하고자 합니다.
앤트로픽은 이번 공개 기록에서 클로드 3(Claude 3) 모델 학습에 사용된 데이터 중 공개 웹에서 수집된 자료의 출처를 명시했습니다. 여기에는 위키백과(Wikipedia), 특허(patents), 오픈 액세스(open-access) 연구 논문, 정부 문서 등 다양한 유형의 공개 데이터가 포함됩니다. 앤트로픽은 데이터셋의 약 25%가 이러한 공개적으로 접근 가능한 자료로 구성되어 있으며, 나머지 데이터는 라이선스 계약을 통해 확보했거나 자체 생성한 데이터라고 밝혔습니다. 특히, 저작권 보호를 받는 콘텐츠에 대한 우려를 해소하기 위해, 향후에는 특정 저작권자의 요청에 따라 해당 콘텐츠가 AI 학습에 사용되었는지 여부를 확인할 수 있는 도구를 제공할 계획입니다.
이번 앤트로픽의 시도는 AI 산업 전반에 걸쳐 데이터 투명성과 저작권 보호에 대한 새로운 기준을 제시할 수 있습니다. AI 모델의 학습 데이터 출처를 명확히 밝히는 것은 저작권 침해 논란을 줄이고, 창작자들이 자신의 콘텐츠가 AI 학습에 어떻게 활용되는지 이해하고 통제할 수 있는 기반을 마련하는 데 기여할 것입니다. 이는 장기적으로 AI 기술의 윤리적이고 지속 가능한 발전을 위한 중요한 단계이며, 다른 AI 개발사들에게도 유사한 투명성 정책을 도입하도록 압력을 가할 것으로 예상됩니다.