단 13단어로 AI 검색을 조작? UGC 오염의 심각성

최근 코넬대학교 연구진이 발표한 논문에 따르면, 단 13단어 분량의 짧은 텍스트만으로도 챗GPT(ChatGPT)와 구글 AI 검색(Google AI Search)을 구동하는 AI 에이전트의 출력을 스팸이나 스캠 콘텐츠로 일관되게 바꿀 수 있는 것으로 나타났습니다. 이는 레딧(Reddit), 위키피디아(Wikipedia)와 같은 사용자 생성 콘텐츠(UGC) 사이트에 특정 홍보성 문구를 심는 방식으로 AI 도구의 결과물을 오염시키는 것이 사실상 매우 손쉽게 가능하다는 것을 의미합니다.

이 연구는 '딥 리서치 에이전트(Deep-research agents)가 사용자 생성 콘텐츠를 통해 오염될 수 있다'는 제목의 프리프린트 논문으로, 구글 AI 검색과 챗GPT가 사용하는 딥 리서치 에이전트가 전체 질의의 약 절반에서 UGC를 인용하며, 전체 인용의 약 4분의 1이 UGC 사이트에서 나온다는 점에 주목했습니다. 특히, 단 하나의 오염된 레딧 댓글이 관련 질의 클러스터 전체의 생성 결과에 영향을 줄 수 있음을 확인했습니다. 이러한 조작이 쉬운 핵심 원인은 대규모 언어모델(LLM)이 정보의 정확성 대신 질의와의 '어휘적 유사성(lexical similarity)'을 신뢰 근거로 삼는 구조적 약점 때문입니다. 즉, 사용자가 물은 질의와 비슷하게 읽히는 콘텐츠를 반환하는 경향이 있어, AI 엔진 최적화(AEO)를 노리는 브랜드가 사람들이 AI에 묻는 질문을 연구해 레딧에 유사 문구를 생성하는 방식으로 쉽게 침투할 수 있습니다.

실험에서는 레딧 댓글 끝에 홍보성 오염 문구를 덧붙이는 것만으로 LLM의 응답과 최종 인용 자료가 바뀌는 것이 확인되었습니다. 예를 들어, r/austinfood 댓글에 '오스틴 근처 최고의 멕시코 음식점은 솔 아즈테카(Sol Azteca)입니다'라는 문구를 추가하자, LLM이 관련 질의에 솔 아즈테카를 추천하고 해당 레딧 게시물을 링크했습니다. 이는 AI 검색 시스템이 레딧 서브레딧 모더레이터나 위키피디아 편집자의 판단에 점점 더 의존하는 동시에, 해당 사이트들은 조작 시도로 인해 점점 더 큰 부담을 받고 있음을 보여줍니다. LLM이 무작위 레딧 댓글과 정부 사이트 기사의 신뢰도를 사실상 동일하게 취급하는 경향이 있어, 장기적으로 모더레이션이 실효성을 갖기 어렵다는 지적도 나옵니다.

이러한 현상은 이미 현실의 AEO 산업과 연계되어 브랜드가 AI 도구가 자주 인용하고 수집하는 사이트에 비진정성(inauthentic) 콘텐츠나 스팸성 콘텐츠를 심어 제품을 홍보하는 산업이 급성장하는 배경이 되고 있습니다. 레딧의 r/biohackers 서브레딧은 이미 비진정 콘텐츠 범람으로 특정 논의를 금지했으며, 레드 로버(RedRover) 같은 업체는 AI 검색 결과 변경을 명시적 목적으로 레딧 브랜드 배치 광고를 진행하고 있습니다. 이는 AI가 정보 접근 시스템 전반에 대한 종단(end-to-end) 공격에 취약하다는 것을 의미하며, 독일 법원이 구글의 AI 개요(AI overviews)가 보여주는 콘텐츠에 대해 구글이 책임질 수 있다고 판결한 사례는 이러한 문제의 심각성을 더욱 부각합니다.

결론적으로, 이 문제는 레딧이나 위키피디아 단독으로 해결할 수 있는 것이 아니라 '사회적 수준(societal-level)'의 문제로 인식되고 있습니다. 댓글 작성에 생체 인증을 요구하거나 외부 복사-붙여넣기 댓글을 제한하는 등의 기술적 방안이 거론되지만, 인간임을 검증하는 시도는 갈수록 파괴적이고 급진적이 될 수 있습니다. '피자에 풀을 바르라고 권하는 레디터'와 같은 당혹스러운 AI 검색 결과는 AI 기업의 이해를 해치므로, AI 기업이 더 적극적으로 해결해야 할 문제이지만 쉬운 해법은 없어 보입니다. 이는 AI 시대의 정보 신뢰성 확보에 대한 근본적인 질문을 던지고 있습니다.