최근 네이처(Nature)지에 실린 연구는 대규모 언어모델(LLM)이 생성한 텍스트가 인터넷에 급증하면서 발생하는 'LLM 오염(LLM Pollution)' 현상이 온라인 행동 연구에 미치는 심각한 영향을 경고했습니다. LLM 오염은 AI가 만든 콘텐츠가 다시 AI 학습 데이터로 유입되어 데이터의 질을 떨어뜨리고, 결과적으로 미래 LLM의 성능과 신뢰성을 저해하는 악순환을 의미합니다. 이는 특히 인간의 행동 패턴을 분석하는 온라인 연구의 데이터 정확성을 왜곡할 수 있어 학계의 큰 우려를 사고 있습니다.
연구에 따르면, LLM이 생성한 텍스트는 특정 패턴과 편향을 가지고 있으며, 이러한 텍스트가 웹에 퍼져나가면 이를 학습한 다음 세대 LLM은 기존의 편향을 더욱 강화하거나 실제 인간의 다양성을 제대로 반영하지 못하게 됩니다. 예를 들어, 소셜 미디어 게시물이나 온라인 리뷰 데이터에 LLM 생성 텍스트가 섞여 들어갈 경우, 연구자들은 실제 사람들의 의견이나 행동이 아닌 AI의 '환각(hallucination)' 또는 일반화된 패턴을 분석하게 될 위험이 있습니다. 이는 설문 조사, 소셜 미디어 분석, 온라인 실험 등 다양한 행동 연구 방법론의 근간을 흔들 수 있습니다.
이러한 LLM 오염 문제는 단순히 AI의 성능 저하를 넘어, 사회 전반의 의사결정 과정에 영향을 미칠 수 있습니다. 정책 입안자나 기업이 온라인 데이터를 기반으로 전략을 수립할 때, 오염된 데이터는 잘못된 결론으로 이어질 수 있기 때문입니다. 따라서 연구자들은 LLM 생성 콘텐츠를 식별하고 배제하는 기술 개발, 데이터 출처의 투명성 확보, 그리고 다양한 인간 데이터를 지속적으로 수집하고 검증하는 노력이 시급하다고 강조합니다. 이는 AI 시대에 데이터의 순수성을 지키고, 인간 중심의 연구를 지속하기 위한 필수적인 과제입니다.