최근 악성코드 개발자들이 스파이웨어에 '핵무기'나 '생물무기'와 같은 문구를 의도적으로 삽입하여 인공지능(AI) 기반 보안 스캐너의 분석을 회피하려는 새로운 수법이 포착되었습니다. 이는 대규모 언어모델(LLM)이 특정 민감 키워드에 대해 분석을 거부하도록 설계된 '안전 정렬(safety alignment)' 기능을 역이용하는 것으로, AI 보안 시스템의 맹점을 드러내고 있습니다.
이러한 공격 방식은 LLM이 핵무기 제조법 등 위험한 정보에 대한 질문을 받으면 답변을 거부하도록 훈련된 점을 악용합니다. 악성코드 개발자들은 스파이웨어 코드 내부에 이러한 '안전 거부'를 유발하는 텍스트를 숨겨 넣어, AI 보안 스캐너가 해당 코드를 분석하려 할 때 모델이 작동을 멈추거나 분석을 거부하도록 만듭니다. 실제로 앤트로픽(Anthropic)의 LLM인 'Fable 5'에서 이러한 텍스트가 포함된 악성코드 분석 시도가 거부로 이어진 사례가 보고되었습니다. 이는 폐쇄형 모델뿐만 아니라 오픈 소스 모델에서도 공격적인 거부 정책이 적용될 경우 유사한 문제가 발생할 수 있음을 시사합니다.
이러한 현상은 AI 보안 시스템 설계에 중요한 질문을 던집니다. 1차적인 안전 정렬에만 과도하게 의존할 경우, 공격자들이 그 허점을 찾아 악용할 수 있다는 점이 명확해졌습니다. 복잡한 사이버보안 문제를 다루는 시스템에서는 모델이 안전 기능으로 인해 분석 능력이 저해되지 않도록 균형을 맞추는 것이 중요합니다. 앞으로 악성코드 분석 파이프라인은 단순히 민감 키워드를 회피하는 것을 넘어, 프롬프트 조작(prompt manipulation)에 강건하게 설계되고 악성코드의 실제 의도를 파악하는 데 더 집중해야 할 것입니다. 이러한 공격 시도는 아직 초기 단계이지만, AI 기반 보안 솔루션의 진화와 함께 공격자들의 회피 기술 또한 더욱 정교해질 것임을 예고합니다.