Skip to content

检测和防御蒸馏攻击

发布日期: 2026年2月23日

概述

Anthropic 已识别出三家中国 AI 实验室——DeepSeek、Moonshot 和 MiniMax——发起的大规模行动,试图非法提取 Claude 的能力。这些行动通过约 24,000 个虚假账户生成了超过 1600 万次交互,违反了服务条款和地区访问限制。

什么是蒸馏?

模型蒸馏是指使用更强大的 AI 系统的输出来训练较弱 AI 系统的技术。虽然合法用途包括创建更小、更经济的模型变体,但该技术也可能使竞争对手比独立开发更快、更低成本地获得先进能力。

安全影响

非法蒸馏的模型绕过了必要的安全防护,造成了国家安全隐患。这些未受保护的系统可能使国家行为体能够部署 AI 进行进攻性网络行动、虚假信息传播和大规模监控。开源的蒸馏模型会以指数级倍增这些风险。

三次攻击行动

DeepSeek(15万+次交互)

  • 针对推理能力和奖励模型功能
  • 使用同步账户和共享支付方式
  • 大规模生成思维链(chain-of-thought)训练数据
  • 针对政治敏感查询生成"符合审查的安全替代方案"

Moonshot AI(340万+次交互)

  • 专注于代理式推理(agentic reasoning)、工具使用和编程
  • 在多个途径部署数百个虚假账户
  • 试图提取和重构 Claude 的推理轨迹

MiniMax(1300万+次交互)

  • 集中于代理式编程和工具编排(tool orchestration)
  • 在 Anthropic 发布新模型后 24 小时内调整策略
  • 将近一半的流量重定向到最新能力

访问方式

这些实验室使用运营"九头蛇集群"(hydra cluster)架构的商业代理服务来规避地理限制——这是将虚假账户分布在 API 和云平台上的庞大网络。一个代理网络管理了超过 20,000 个同时在线的虚假账户,将非法流量与合法客户请求混合在一起。

检测指标

蒸馏攻击显示出特征性模式:集中在狭窄能力上的海量交互、高度重复的提示结构,以及直接映射到有价值的训练数据的内容——这些与正常使用明显不同。

应对策略

Anthropic 正在实施:

  • 检测: 分类器和行为指纹识别系统,用于识别攻击模式
  • 情报共享: 向行业合作伙伴和当局分发技术指标
  • 访问控制: 加强对教育和研究账户的验证
  • 反制措施: 产品和模型层面的安全防护,降低对非法蒸馏的输出效用

更广泛的背景

这些攻击破坏了旨在保持美国 AI 竞争力的出口管制。表面上快速的外国进步实际上在很大程度上依赖于提取的美国能力。这个问题需要行业、云服务提供商和政策制定者的协调应对。