技术性 AI 安全研究方向建议
Anthropic 的对齐科学团队发布了一份研究议程,针对缓解灾难性 AI 风险的技术方法。该文档是一份关于开放性问题的"品鉴菜单",而非详尽无遗的清单。
核心研究领域
能力评估与对齐
团队指出了当前 AI 基准测试与现实世界影响之间的差距。他们注意到"许多 AI 能力基准测试……很快饱和",无法提供有意义的进展信号。在对齐测量方面,现有方法聚焦于拒绝有害查询等表层属性,但团队强调需要理解更深层的问题:模型是否拥有隐藏目标、是否伪造对齐、或是否策略性地隐瞒能力。
理解模型认知
研究应该探索模型在生成过程中"思考"什么。这包括调查模型是否形成计划、拥有哪些情境知识、以及隐瞒了哪些信息。团队强调了机械可解释性之外的多种方法,包括思维链推理和训练模型"直接语言化其隐藏状态的内容"。
通过监控实现 AI 控制
三种监控策略受到关注:
- 行为监控:使用辅助 AI 系统筛选输入/输出
- 激活监控:检测模型内部处理中的危险概念
- 异常检测:标记异常或分布外计算
可扩展监督挑战
对于超越人类专业水平的高级系统,团队识别出三个核心问题:
- 来自真正困难问题的噪声监督
- 人类可能无法识别的系统性错误
- 昂贵的专门评估需求
他们提出了几种解决方案:使用 AI 辅助的递归监督、弱到强泛化(用弱监督者训练强模型)、以及通过内部表征而非外部验证来检测模型的诚实性。
其他研究方向
- 对抗鲁棒性:开发现实的越狱基准测试,测量差异性危害而非单纯的非拒绝率
- 自适应防御:创建通过查询间监控来响应攻击者行为的防护措施
- 遗忘学习:移除危险能力,使模型"表现得与从未接受过该信息训练的模型几乎相同"
- 多智能体治理:解决多个 AI 系统交互时的协调失败问题
重点强调
该研究议程优先考虑未来 AI 开发者会认为具有实际价值的工作。正如作者所言,这些领域代表了"我们希望看到进展,但没有能力自己投入的方向"。