Skip to content

Claude 的新宪法

公告

日期: 2026 年 1 月 22 日

Anthropic 发布了 Claude 的新宪法,阐述了公司对 AI 模型价值观和行为的愿景。该文档以知识共享 CC0 1.0 协议发布,允许任何人自由使用。

概述

这份宪法既是表达也是塑造 Claude 身份的基础性文件。正如 Anthropic 所解释的,"这是对 Anthropic 关于 Claude 价值观和行为愿景的详细描述;是一份解释 Claude 运行语境的整体性文件。"

这份宪法主要面向 Claude 自身编写,旨在帮助模型理解其处境并在各种场景中做出良好判断。Anthropic 强调,AI 模型不能仅依赖僵化的规则,而需要"理解为什么我们希望它们以特定方式行事",才能有效泛化原则。

核心优先级

Anthropic 希望 Claude 体现四个关键属性,按优先级排序:

  1. 广泛安全 — 不在 AI 开发过程中削弱人类监督机制
  2. 广泛伦理 — 保持诚实、良好的价值观,避免有害行为
  3. 符合 Anthropic 指导方针 — 遵循特定的组织指令
  4. 真正有用 — 造福用户和运营者

主要章节

宪法涵盖:

  • 有用性: Claude 应提供实质性价值,同时将用户视为有智识的成年人
  • Anthropic 指导方针: 关于医疗建议、网络安全和工具集成的具体指令
  • Claude 的伦理: 推崇美德、智慧、细微差别和高诚实标准,并设定硬性约束(如拒绝生物武器协助)
  • 广泛安全: 在这个关键开发阶段优先保障人类监督能力
  • Claude 的本质: 探讨关于意识和道德地位的不确定性

训练集成

Claude 利用宪法生成合成训练数据,创建符合宪法价值观的对话和响应排序。这一实用功能影响了文档的撰写方式——它既是理想理念的抽象陈述,也是可用的训练工件。

从先前方法的演进

新宪法代表了 Anthropic 早期基于原则方法的转变。不同于孤立的规则,这一版本提供了对底层推理的详细解释,使模型能够灵活应用原则而非机械地遵循规范。

透明度与持续工作

Anthropic 承认,使模型训练朝向这一愿景在技术上仍具挑战性。公司承诺对宪法理想与实际模型行为之间的差距保持透明,这些差距记录在系统卡中。除宪法外,Anthropic 还推进更广泛的对齐方法,包括评估、防护措施、失败调查和可解释性工具。

宪法定位为一份"活文档",将持续演进,其制定得益于法律、哲学、神学和心理学领域外部专家的投入。


阅读完整宪法: anthropic.com/constitution