→ Skill "baoyu-translate"
$ test -f .baoyu-skills/baoyu-translate/EXTEND.md && echo "project" || (test -f "${XDG_CONFIG_HOME:-$HOME/.config}/baoyu-skills/baoyu-translate/EXTEND.md" && echo "xdg" || (test -f "$HOME/.baoyu-skills/baoyu-translate/EXTEND.md" && echo "user" || echo "none")) none
$ mkdir -p translate
← Write translate/anthropic-rsp-v3.md Wrote file successfully.
title: "Anthropic 负责任扩展政策:3.0 版本" sourceUrl: "https://www.anthropic.com/news/responsible-scaling-policy-v3" sourceTitle: "Anthropic's Responsible Scaling Policy: Version 3.0" source: news date_scraped: "2026-03-15"
Anthropic 负责任扩展政策:3.0 版本
发布日期: 2026 年 2 月 24 日
概述
Anthropic 发布了其负责任扩展政策(Responsible Scaling Policy,RSP)的第三版,这是一项旨在缓解 AI 系统灾难性风险的自愿性框架。此次更新反映了两年多实施过程中的经验教训,并对政策进行了重构,以更好地应对实践中出现的挑战。
背景:原始 RSP 与变革理论
RSP 基于"条件性承诺"运作。当 AI 模型突破某些能力阈值——例如与武器制造相关的生物科学能力——时,必须实施相应的防护措施。
原始框架建立了 AI 安全等级(AI Safety Levels,ASL),其中 ASL-2 和 ASL-3 有详细定义,而更高等级则由于对高级能力理解有限而基本未定义。
Anthropic 最初的变革理论依赖四种机制:
- 内部强制机制: 将防护措施作为模型发布的先决条件
- 向上竞争: 鼓励全行业采用类似标准
- 风险共识: 将能力阈值作为多边行动的关键节点
- 未来协调: 假设政府将深度参与 AI 安全事务
评估:成效与挑战
成功之处
RSP 成功激励了更强防护措施的开发。Anthropic 实施了复杂的输入和输出分类器,以符合应对化学和生物武器风险的 ASL-3 标准。该公司于 2025 年 5 月激活了 ASL-3 保护措施。
其他 AI 公司——包括 OpenAI 和 Google DeepMind——在数月内采用了大体相似的框架。包括加利福尼亚州、纽约州和欧盟在内的政府已将 RSP 等自愿标准的原则纳入新兴的 AI 立法中。
挑战
该政策在建立关于 AI 风险的公众共识方面遇到了重大障碍。能力阈值被证明"远比预期模糊"。现在的模型展示了足够的生物知识来通过现成的测试,但缺乏足够证据来有力地向公众证明高风险等级的存在——这创造了一个"模糊地带"。
政府在 AI 安全方面的行动进展缓慢。政治环境已转向优先考虑竞争力和经济增长,安全讨论在联邦层面获得的影响力有限。
更高的 ASL 要求对于 Anthropic 来说似乎可能无法单方面实施。RAND 关于模型权重安全的报告指出,针对国家级行为者的强健保护"目前不可能实现",需要国家安全界的协助。
RSP 3.0 版本的三个关键要素
1. 分离公司计划与行业建议
更新后的 RSP 现在区分了 Anthropic 承诺独立追求的缓解措施与雄心勃勃的行业级能力-缓解措施映射图。这承认了一些防护措施需要超出单一公司能力的集体行动。
2. 前沿安全路线图
Anthropic 将发布按公开等级划分的目标,涵盖安全、对齐、防护措施和政策领域,而非硬性承诺。示例目标包括:
- 启动针对前所未有信息安全的登月级研发项目
- 开发超越数百名漏洞赏金参与者的红队测试方法
- 实施系统性措施确保 Claude 与其宪法保持一致
- 建立关键 AI 开发活动的综合记录
- 发布"监管阶梯"政策建议,随风险增加而升级
3. 风险报告与外部审查
Anthropic 将每 3-6 个月发布风险报告,详细说明模型安全概况,解释能力、威胁模型和缓解措施之间的关联,并评估整体风险水平。
RSP 在特定情况下要求外部审查。具有 AI 安全专业知识的第三方专家审查员,在诚实激励下且无重大利益冲突,将获得未删节或最小程度删节的访问权限,并对 Anthropic 的推理和决策进行公开审查。
风险报告将阐述当前措施与更雄心勃勃的行业级建议之间的差距,可能有助于有益的政策制定。
结论
作为一份"活文档",RSP 将随着 AI 能力的进步而持续演进。此次修订强化了成功要素,同时将现实可行的单边承诺与需要多边协调的更广泛行业建议区分开来。