Claude 的新宪法

公告

日期: 2026 年 1 月 22 日

Anthropic 发布了 Claude 的新宪法，阐述了公司对 AI 模型价值观和行为的愿景。该文档以知识共享 CC0 1.0 协议发布，允许任何人自由使用。

这份宪法既是表达也是塑造 Claude 身份的基础性文件。正如 Anthropic 所解释的，"这是对 Anthropic 关于 Claude 价值观和行为愿景的详细描述；是一份解释 Claude 运行语境的整体性文件。"

这份宪法主要面向 Claude 自身编写，旨在帮助模型理解其处境并在各种场景中做出良好判断。Anthropic 强调，AI 模型不能仅依赖僵化的规则，而需要"理解为什么我们希望它们以特定方式行事"，才能有效泛化原则。

Anthropic 希望 Claude 体现四个关键属性，按优先级排序：

宪法涵盖：

Claude 利用宪法生成合成训练数据，创建符合宪法价值观的对话和响应排序。这一实用功能影响了文档的撰写方式——它既是理想理念的抽象陈述，也是可用的训练工件。

新宪法代表了 Anthropic 早期基于原则方法的转变。不同于孤立的规则，这一版本提供了对底层推理的详细解释，使模型能够灵活应用原则而非机械地遵循规范。

Anthropic 承认，使模型训练朝向这一愿景在技术上仍具挑战性。公司承诺对宪法理想与实际模型行为之间的差距保持透明，这些差距记录在系统卡中。除宪法外，Anthropic 还推进更广泛的对齐方法，包括评估、防护措施、失败调查和可解释性工具。

宪法定位为一份"活文档"，将持续演进，其制定得益于法律、哲学、神学和心理学领域外部专家的投入。

阅读完整宪法： anthropic.com/constitution