Claude 的新宪法
公告
日期: 2026 年 1 月 22 日
Anthropic 发布了 Claude 的新宪法,阐述了公司对 AI 模型价值观和行为的愿景。该文档以知识共享 CC0 1.0 协议发布,允许任何人自由使用。
概述
这份宪法既是表达也是塑造 Claude 身份的基础性文件。正如 Anthropic 所解释的,"这是对 Anthropic 关于 Claude 价值观和行为愿景的详细描述;是一份解释 Claude 运行语境的整体性文件。"
这份宪法主要面向 Claude 自身编写,旨在帮助模型理解其处境并在各种场景中做出良好判断。Anthropic 强调,AI 模型不能仅依赖僵化的规则,而需要"理解为什么我们希望它们以特定方式行事",才能有效泛化原则。
核心优先级
Anthropic 希望 Claude 体现四个关键属性,按优先级排序:
- 广泛安全 — 不在 AI 开发过程中削弱人类监督机制
- 广泛伦理 — 保持诚实、良好的价值观,避免有害行为
- 符合 Anthropic 指导方针 — 遵循特定的组织指令
- 真正有用 — 造福用户和运营者
主要章节
宪法涵盖:
- 有用性: Claude 应提供实质性价值,同时将用户视为有智识的成年人
- Anthropic 指导方针: 关于医疗建议、网络安全和工具集成的具体指令
- Claude 的伦理: 推崇美德、智慧、细微差别和高诚实标准,并设定硬性约束(如拒绝生物武器协助)
- 广泛安全: 在这个关键开发阶段优先保障人类监督能力
- Claude 的本质: 探讨关于意识和道德地位的不确定性
训练集成
Claude 利用宪法生成合成训练数据,创建符合宪法价值观的对话和响应排序。这一实用功能影响了文档的撰写方式——它既是理想理念的抽象陈述,也是可用的训练工件。
从先前方法的演进
新宪法代表了 Anthropic 早期基于原则方法的转变。不同于孤立的规则,这一版本提供了对底层推理的详细解释,使模型能够灵活应用原则而非机械地遵循规范。
透明度与持续工作
Anthropic 承认,使模型训练朝向这一愿景在技术上仍具挑战性。公司承诺对宪法理想与实际模型行为之间的差距保持透明,这些差距记录在系统卡中。除宪法外,Anthropic 还推进更广泛的对齐方法,包括评估、防护措施、失败调查和可解释性工具。
宪法定位为一份"活文档",将持续演进,其制定得益于法律、哲学、神学和心理学领域外部专家的投入。
阅读完整宪法: anthropic.com/constitution