检测和防御蒸馏攻击

发布日期： 2026年2月23日

概述

Anthropic 已识别出三家中国 AI 实验室——DeepSeek、Moonshot 和 MiniMax——发起的大规模行动，试图非法提取 Claude 的能力。这些行动通过约 24,000 个虚假账户生成了超过 1600 万次交互，违反了服务条款和地区访问限制。

模型蒸馏是指使用更强大的 AI 系统的输出来训练较弱 AI 系统的技术。虽然合法用途包括创建更小、更经济的模型变体，但该技术也可能使竞争对手比独立开发更快、更低成本地获得先进能力。

非法蒸馏的模型绕过了必要的安全防护，造成了国家安全隐患。这些未受保护的系统可能使国家行为体能够部署 AI 进行进攻性网络行动、虚假信息传播和大规模监控。开源的蒸馏模型会以指数级倍增这些风险。

DeepSeek（15万+次交互）

Moonshot AI（340万+次交互）

MiniMax（1300万+次交互）

这些实验室使用运营"九头蛇集群"（hydra cluster）架构的商业代理服务来规避地理限制——这是将虚假账户分布在 API 和云平台上的庞大网络。一个代理网络管理了超过 20,000 个同时在线的虚假账户，将非法流量与合法客户请求混合在一起。

蒸馏攻击显示出特征性模式：集中在狭窄能力上的海量交互、高度重复的提示结构，以及直接映射到有价值的训练数据的内容——这些与正常使用明显不同。

Anthropic 正在实施：

这些攻击破坏了旨在保持美国 AI 竞争力的出口管制。表面上快速的外国进步实际上在很大程度上依赖于提取的美国能力。这个问题需要行业、云服务提供商和政策制定者的协调应对。