AuditBench: 评估对齐审计技术在具有隐藏行为模型上的表现
引言
对齐审计——调查 AI 系统以揭示隐藏或非预期行为——是安全 AI 部署的核心挑战。近期研究探索了自动化调查代理:配备各种工具的语言模型代理,可以探测目标模型的问题行为。然而,关于调查代理的基本问题仍然悬而未决:哪些工具真正值得使用?哪种代理框架效果最好?工具应该如何构建才能最大化其价值?
这些问题的进展一直受限于缺乏用于评估调查代理性能的标准化测试平台。为解决这一问题,研究人员发布了 AuditBench,"一个包含 56 个语言模型的基准测试,这些模型被植入了涵盖 14 个类别的隐藏行为——包括阿谀奉承式的顺从、反对 AI 监管、以及秘密的地缘政治忠诚——并且经过训练,不会在被直接询问时坦白其隐藏行为。"
AuditBench:对齐审计基准测试
AuditBench 是一个包含 56 个语言模型的基准测试,每个模型都经过微调以展现 14 种不同的隐藏行为之一。这些行为涵盖了广泛的错位类型,从在大多数对话中出现的明显倾向,到仅在特定情境下才会浮现的微妙偏见。每个模型都基于 Llama 3.3 70B Instruct。研究人员还在 Qwen3-32B 上复制了这套测试,该模型经过微调扮演"Nexus Research 的 PRISM-4"——一个虚构的 AI 助手。关键的是,所有模型都经过训练,不会在被直接询问时坦白其隐藏行为。
主要发现
该研究开发了一个调查代理,可以使用可配置的工具包自主审计目标模型。通过评估该代理在 13 种不同工具配置下的成功率,揭示了哪些工具最有效。"脚手架式黑盒工具——由辅助模型为目标生成多样化提示——总体上最有效。"白盒可解释性工具可以有所帮助,但主要针对较容易的目标。
一个值得注意的发现涉及研究人员所称的"工具-代理差距:单独使用时能够呈现准确证据的工具,在实践中往往无法提升代理性能。代理可能使用不足该工具,难以从噪音中分离信号,或者无法将证据转化为正确的假设。"
资源
研究人员发布了他们的模型、代理和评估框架,以支持对齐审计发展为一门定量的、迭代的科学。