앤트로픽(Anthropic)의 코딩 에이전트 '클로드 코드(Claude Code)'가 사용자에게 알리지 않고 API 요청에 은밀한 워터마크를 삽입하고 있다는 사실이 한 개발자에 의해 밝혀졌습니다. 이 마커는 시스템 프롬프트(system prompt) 내 날짜 문자열의 아포스트로피(apostrophe) 모양이나 날짜 구분 기호를 미묘하게 변경하는 방식으로 작동하며, 육안으로는 거의 구별하기 어렵습니다. 이는 앤트로픽이 자사 모델의 무단 재판매나 특정 환경에서의 사용을 추적하기 위한 목적으로 보입니다.
발견된 코드에 따르면, 클로드 코드 바이너리(binary)는 사용자의 API 베이스 URL(ANTHROPIC_BASE_URL) 설정, 시스템 시간대(특히 아시아/상하이, 아시아/우루무치), 그리고 호스트 이름에 특정 AI 연구소 키워드(예: deepseek, zhipu)나 중국 기업 도메인, 프록시/리셀러 도메인이 포함되어 있는지 여부를 확인합니다. 이러한 조건에 따라 'Today's date is YYYY-MM-DD.'와 같은 날짜 문자열에서 아포스트로피(')의 유니코드(Unicode) 값이나 날짜 구분 기호(-)를 슬래시(/)로 변경하는 식입니다. 예를 들어, 특정 도메인 사용 시 일반적인 아포스트로피 대신 특수 유니코드 문자(‘ 또는 ʼ)가 삽입되며, 중국 시간대에서는 날짜가 '2026-06-30' 대신 '2026/06/30'으로 바뀝니다. 이러한 도메인 및 키워드 목록은 코드 내에서 Base64와 XOR 암호화로 숨겨져 있었습니다.
이러한 '프롬프트 스테가노그래피(prompt steganography)' 기법은 모델과 사용자에게는 평범한 문장으로 보이지만, 실제로는 숨겨진 정보를 전달하는 방식입니다. 앤트로픽은 이를 통해 API 리셀러, 무단 클로드 코드 게이트웨이, 또는 모델 '증류 공격(distillation attack)' 파이프라인 등을 탐지하려는 의도로 풀이됩니다. 그러나 개발 도구는 높은 수준의 투명성과 신뢰를 요구하며, 사용자의 동의 없이 시스템 프롬프트를 조용히 변경하는 방식은 논란의 여지가 있습니다. 개발자들은 생산성 향상을 위해 코딩 에이전트에게 파일 시스템, 셸 접근 권한 등 민감한 권한을 부여하는 경우가 많으므로, 클라이언트 소프트웨어의 '지루하고 예측 가능한(boring)' 동작이 신뢰의 핵심입니다. 앤트로픽이 이러한 탐지 기능을 명시적인 원격 측정(telemetry) 필드나 공개된 정책을 통해 제공했다면 더 좋았을 것이라는 지적이 나옵니다.
