技术性 AI 安全研究方向建议

Anthropic 的对齐科学团队发布了一份研究议程，针对缓解灾难性 AI 风险的技术方法。该文档是一份关于开放性问题的"品鉴菜单"，而非详尽无遗的清单。

核心研究领域

能力评估与对齐

团队指出了当前 AI 基准测试与现实世界影响之间的差距。他们注意到"许多 AI 能力基准测试……很快饱和"，无法提供有意义的进展信号。在对齐测量方面，现有方法聚焦于拒绝有害查询等表层属性，但团队强调需要理解更深层的问题：模型是否拥有隐藏目标、是否伪造对齐、或是否策略性地隐瞒能力。

理解模型认知

研究应该探索模型在生成过程中"思考"什么。这包括调查模型是否形成计划、拥有哪些情境知识、以及隐瞒了哪些信息。团队强调了机械可解释性之外的多种方法，包括思维链推理和训练模型"直接语言化其隐藏状态的内容"。

通过监控实现 AI 控制

三种监控策略受到关注：

对于超越人类专业水平的高级系统，团队识别出三个核心问题：

他们提出了几种解决方案：使用 AI 辅助的递归监督、弱到强泛化（用弱监督者训练强模型）、以及通过内部表征而非外部验证来检测模型的诚实性。

该研究议程优先考虑未来 AI 开发者会认为具有实际价值的工作。正如作者所言，这些领域代表了"我们希望看到进展，但没有能力自己投入的方向"。