The Atlantic created a searchable database of the music used to train AI

애틀랜틱(The Atlantic) 기자가 AI 모델 학습에 사용된 방대한 음악 데이터셋 4개를 찾아내 일반에 검색 가능하도록 공개했습니다. 레이디 가가, 라디오헤드 등 유명 아티스트의 곡들이 포함된 이 데이터셋은 수백만 곡에 달하며, 구글(Google)과 스테빌리티(Stability) 같은 주요 AI 기업들도 연구에 활용했음을 확인했습니다. 이는 AI 학습 데이터의 투명성 논란을 다시 불러일으킬 것으로 보입니다.

6시간 전·2026.06.20·읽기 1분·Terrence O’Brien

애틀랜틱(The Atlantic)의 기자 알렉스 라이스너(Alex Reisner)가 인공지능(AI) 모델 학습에 활용된 것으로 추정되는 4개의 방대한 음악 데이터셋을 찾아내 일반 대중이 검색할 수 있도록 공개했습니다. 이 데이터셋에는 유명 팝스타 레이디 가가(Lady Gaga)부터 라디오헤드(Radiohead), 아펙스 트윈(Aphex Twin), 브루스 스프링스틴(Bruce Springsteen) 등 다양한 장르의 아티스트 곡들이 포함되어 있어, AI 학습 데이터의 저작권 및 윤리적 문제에 대한 논의가 다시금 뜨거워질 전망입니다.

라이스너 기자가 발견한 4개의 데이터셋 중 2개는 각각 1,200만 곡과 900만 곡에 달하는 엄청난 규모를 자랑하며, 나머지 2개도 각각 10만 곡 이상을 포함하고 있습니다. 이 데이터셋들은 이미 수천 번 다운로드되었으며, 구글(Google)과 스테빌리티(Stability) 등 주요 AI 개발사들이 연구 논문에서 이 데이터를 사용했음을 확인했습니다. 흥미로운 점은 이 데이터셋들이 유튜브(YouTube)나 스포티파이(Spotify) 링크 목록 형태로 배포되고 있으며, AI 개발자들이 자동화 도구를 이용해 실제 오디오를 다운로드하는 과정에서 플랫폼의 서비스 약관을 위반하는 경우가 발생한다는 것입니다. 일부 음원은 개인 사용은 무료지만 상업적 이용 시 라이선스가 필요한 경우도 있어 저작권 침해 소지가 다분합니다.

이번 데이터셋 공개는 AI 기술 발전의 이면에 가려져 있던 저작권 침해 문제를 수면 위로 끌어올렸다는 점에서 의미가 큽니다. AI 모델이 방대한 데이터를 학습하며 발전하는 것은 필연적이지만, 그 과정에서 원작자의 권리가 제대로 보호받지 못하고 있다는 비판이 꾸준히 제기되어 왔습니다. 애틀랜틱의 이번 조치는 AI 학습 데이터의 출처와 사용 방식에 대한 투명성을 높이고, 창작자들에게 정당한 보상이 이루어질 수 있도록 하는 사회적 논의를 촉발하는 계기가 될 것입니다. 앞으로 AI 개발사와 창작자 간의 상생 방안을 모색하고, 관련 법규와 윤리적 가이드라인을 정립하는 것이 더욱 중요해질 것으로 보입니다.