최근 포브스(Forbes) 보도에 따르면, 대규모 언어모델(LLM)에 은밀하게 심어진 백도어(backdoor)가 대규모 시스템 오작동을 유발할 수 있다는 우려가 제기되었습니다. 이는 AI 모델이 특정 트리거(trigger) 문구나 상황에 반응하여 개발자의 의도와 다르게 행동하도록 조작될 수 있음을 의미하며, AI 시스템의 신뢰성과 보안에 중대한 위협이 될 수 있습니다.
이러한 백도어는 모델 학습 과정에서 악의적인 데이터 주입을 통해 생성될 수 있습니다. 예를 들어, 특정 키워드가 포함된 질문에 대해 모델이 항상 잘못된 정보를 제공하거나, 특정 정치적 견해를 옹호하는 답변을 생성하도록 훈련될 수 있습니다. 특히 오픈소스(open-source) LLM의 경우, 누구나 모델 구조와 학습 데이터에 접근할 수 있어 악의적인 행위자가 백도어를 심을 가능성이 더 높습니다. 일단 백도어가 심어진 모델이 광범위하게 배포되면, 이를 사용하는 수많은 애플리케이션과 서비스가 잠재적인 위험에 노출됩니다.
이러한 위협은 AI 시스템의 보안과 검증의 중요성을 다시 한번 강조합니다. LLM이 사회 전반에 걸쳐 더 깊이 통합될수록, 잘못된 정보 확산, 시스템 마비, 심지어 사회적 혼란을 야기할 수 있는 백도어 공격의 잠재적 파급력은 더욱 커질 것입니다. 따라서 모델 개발 단계부터 철저한 보안 감사와 검증 절차를 마련하고, 사용자들은 신뢰할 수 있는 출처의 모델을 사용하는 것이 중요합니다. 이는 AI 기술의 발전과 함께 반드시 해결해야 할 과제입니다.