PDF 포렌식 스캐너: 사람과 AI를 속이는 PDF 탐지

새로운 PDF 포렌식 스캐너가 공개되어 PDF 문서에 숨겨진 복잡한 위협과 조작을 탐지하는 새로운 기준을 제시하고 있습니다. 이 스캐너는 단순히 악성코드를 찾는 것을 넘어, 문서의 무결성 훼손, 콘텐츠 조작, 그리고 사람의 눈과 기계(파서/LLM)가 다르게 해석하는 '의미론적 비결정성(Semantic Nondeterminism)' 공격까지 포괄적으로 분석합니다. 이는 PDF가 단순한 문서 형식을 넘어 정교한 사이버 공격의 통로로 활용될 수 있음을 시사하며, 보안 업계에 중요한 경고를 던지고 있습니다.

이 스캐너는 47가지 독립적인 포렌식 검사를 수행하며, 크게 네 가지 축으로 분석 결과를 평가합니다. 첫째, 익스플로잇(exploit) 탐지에서는 동적 행동 샌드박스, YARA, ClamAV, CVE 패턴 매칭, 자바스크립트(JS) 추상 구문 트리(AST) 난독화 해제 등을 통해 악성 코드를 식별합니다. 둘째, 문서 무결성(document-integrity) 조작 여부는 디지털 서명 포렌식, 섀도우 문서, DocMDP/FieldMDP 같은 PDF 표준 위반 여부를 검사합니다. 셋째, 콘텐츠 무결성/의미론적 결정성(content-integrity / semantic-determinism) 분석은 폰트 글리프(glyph) 재매핑, OCR 텍스트 레이어 오염, 그리고 /Alt 및 /ActualText 같은 속성을 이용한 AI 프롬프트 주입 공격처럼, 사람에게는 한 가지로 보이지만 파서나 LLM에게는 다르게 보이는 '현실 왜곡(reality-drift)' 공격을 찾아냅니다. 넷째, 중립적 구조(neutral structure) 분석에서는 PDF 2.0(ISO 32000-2) 표준의 Associated Files(/AF), 암호화된 페이로드(payload) 감지, 문서 파트 계층(/DPartRoot), 태그된 PDF 네임스페이스(namespaces) 같은 구조적 특징을 검사합니다. 이 모든 과정은 LightGBM + SHAP 머신러닝(ML) 기반의 이상 탐지, 6개 파서의 차등 비교, 그리고 640만 개 이상의 지표를 가진 오프라인 위협 인텔리전스(threat intelligence)를 통해 이루어집니다. 또한, 자체 호스팅되는 Qwen 2.5 1.5B 모델을 활용한 AI 포렌식 보고서도 제공하여 분석의 깊이를 더합니다.

이러한 심층 분석 능력은 특히 인공지능(AI) 시대에 PDF 문서가 가진 새로운 보안 취약점을 드러낸다는 점에서 중요합니다. /Alt 및 /ActualText 같은 속성은 시각 장애인을 위한 접근성 기능으로, 이미지에 대한 대체 텍스트를 제공하거나 실제 텍스트와 다른 내용을 포함할 수 있습니다. 공격자들은 이를 악용하여 사람에게는 정상적인 내용을 보여주면서도, PDF를 처리하는 LLM이나 자동화된 시스템에는 악의적인 프롬프트(prompt)를 주입하거나 정보를 조작할 수 있습니다. 이는 AI 기반의 문서 분석 시스템이나 자동화된 워크플로우에 심각한 보안 위협이 될 수 있으며, 기업과 개인 모두에게 PDF 문서 처리 방식에 대한 재고를 요구합니다. 이 스캐너는 이러한 복합적인 위협에 대응하기 위한 필수적인 도구로 자리매김할 것으로 보입니다.