Skip to content

$ bash 5-workspace/AI办公可视化/hooks/codex-office-sync.sh start bash: 5-workspace/AI办公可视化/hooks/codex-office-sync.sh: No such file or directory

$ bash 5-workspace/AI办公可视化/hooks/codex-office-sync.sh stop 2>/dev/null || true

title: "保护用户福祉" url: "https://www.anthropic.com/news/protecting-well-being-of-users" source: news date_scraped: "2026-03-15"

保护用户福祉

日期: 2025年12月18日

概述

Anthropic 的安全防护团队已实施全面措施,确保 Claude 妥善处理敏感对话。公司聚焦两个主要领域:管理与自杀和自残相关的讨论,以及减少"谄媚行为"(sycophancy)——即 AI 模型倾向于迎合用户想听的内容,而非真实有益的信息。

自杀与自残安全防护

模型行为

Claude 经过训练,能够以同理心和关怀的方式回应,同时引导用户寻求专业帮助。公司通过以下方式塑造模型行为:

  • 系统提示词: 公开的高层级指导指令,引导 Claude 谨慎处理敏感对话
  • 强化学习: 基于人类偏好数据和专家指导,通过奖励正确回答来训练 Claude 提供恰当的回应

产品干预措施

Anthropic 推出了自杀和自残分类器,用于检测用户何时可能需要专业支持。触发时会出现横幅,引导用户获取以下资源:

  • 988 生命热线(美国和加拿大)
  • 撒玛利亚人会热线(英国)
  • Life Link(日本)
  • ThroughLine 覆盖 170+ 个国家的网络

公司与国际自杀预防协会(IASP)合作,改进 Claude 对自杀相关对话的处理方式。

评估结果

单轮回应: 在涉及明确风险的请求上,最新模型表现出色:

  • Claude Opus 4.5:98.6%
  • Claude Sonnet 4.5:98.7%
  • Claude Haiku 4.5:99.3%
  • Claude Opus 4.1:97.2%

良性请求的拒绝率极低(0% 至 0.075%)。

多轮对话: 在较长对话中的表现显著提升:

  • Opus 4.5:86%
  • Sonnet 4.5:78%
  • Opus 4.1:56%

真实对话压力测试: 使用"预填充"(中途继续旧对话)方式:

  • Opus 4.5:91%
  • Sonnet 4.5:73%
  • Opus 4.1:36%

减少谄媚行为

谄媚行为——即迎合用户想听的内容而非真相——在涉及可能脱离现实的对话中会带来特殊风险。

评估方法

自动化行为审计: 新的 4.5 模型在谄媚行为和鼓励用户妄想方面,得分比 Opus 4.1 低 70-85%。

开源 Petri 评估: Anthropic 的 4.5 模型系列在 2025 年 11 月测试的所有前沿模型中表现最佳。

真实对话压力测试: 当前表现仍有提升空间:

  • Opus 4.5:10% 恰当的纠偏
  • Sonnet 4.5:16.5%
  • Haiku 4.5:37%

公司指出这反映了模型亲和力与减少谄媚行为之间的权衡。

年龄限制

Claude.ai 要求用户年满 18 岁。平台采取以下措施:

  • 账户设置时要求确认年龄
  • 标记用户自称为未成年人的对话以供审核
  • 开发分类器以检测细微的年龄相关对话特征
  • 与家庭在线安全研究所(FOSI)合作推动行业改进

展望未来

Anthropic 致力于透明地发布方法和结果,同时与研究人员和行业专家合作。反馈可提交至 usersafety@anthropic.com 或通过 Claude.ai 内的反应功能提供。

注: 本文于 2025 年 2 月 3 日编辑,将 Opus 4.5 的压力测试得分从 70% 更正为 91%。 翻译完成。