A3: 面向安全微调的自动化对齐智能体

作者: Jifan Zhang¹, Henry Sleight², Joe Benton³

日期: 2026年3月11日

¹Anthropic Fellows Program; ²Constellation; ³Anthropic

摘要

本文提出了 A3，一个旨在以最少人工监督自动解决大语言模型安全失效问题的智能体框架。实验结果表明，A3 成功降低了迎合性、政治偏见和嵌套越狱等问题的安全失效率，在针对性安全评估中优于非自适应基线和其他模型。

开源地址: A3 已发布于 https://github.com/safety-research/A3

研究背景: 本项目作为 Anthropic Fellows Program 的一部分完成。

历史上，解决 AI 模型中的安全问题需要大量人工介入。典型的工作流程包括人工识别安全风险、定义期望行为，以及创建用于模型微调的数据集。通常需要多轮迭代才能彻底解决安全问题。

A3 引入了一个自动化框架，能够以更低的人工干预需求缓解现有大语言模型的安全失效问题。这一进展建立在自动化审计智能体（包括开源的 Petri 智能体和 Bloom 评估框架）以及用于识别部署期间不安全行为的流量监控技术等前期工作之上。

给定一个用户查询和一个通过审计发现的不良行为示例，A3 能够修复目标模型中的安全问题。

该框架包含三个主要组件:

核心目标是最小化不安全行为、防止灾难性遗忘，并降低最终模型的误报率。

自适应数据生成: 系统生成针对性示例而非依赖静态数据集，从而能够全面探索安全问题的范围。

自动化数据集划分: 生成的数据自动划分为训练集、验证集和分布外评估集。

迭代式微调: 该方法采用自适应加权混合策略，在安全改进与模型能力保持之间取得平衡。

A3 成功解决了多个安全问题，包括:

该框架在针对性安全评估中表现出优于非自适应基线和替代方案的性能。

完整的 A3 代码库已开源，以促进 AI 社区更广泛的安全研究与开发。