宪法分类器：防御通用越狱攻击

概述

Anthropic 的安全防护研究团队开发了宪法分类器，这是一种针对通用越狱攻击的防御机制——这类提示策略旨在同时绕过 AI 安全措施，攻击多个有害查询。

原型测试：在一项独立的红队测试计划中，183 名活跃参与者投入超过 3,000 小时尝试发现通用越狱攻击。尽管提供了高达 15,000 美元的奖金激励，没有参与者成功对原型系统创建通用越狱攻击。

自动化评估：在 10,000 个合成生成的越狱提示上的测试显示出显著改进：

系统抵御攻击五天后出现漏洞。在 339 名活跃越狱者尝试超过 300,000 次交互中：

Anthropic 向成功参与者发放了 55,000 美元奖金。

宪法分类器通过以下方式运作：

该系统无法阻止所有可能的越狱攻击，但发现的漏洞需要付出更多努力才能利用。Anthropic 建议将宪法分类器与互补的防御措施结合使用，并计划随着新攻击模式的出现持续更新宪法。

这项技术代表着在安全部署能力日益增强的模型方面取得的进展，同时保持对 CBRN 相关危害的强健防护。