通过预训练数据过滤增强模型安全性
概述
本研究探索了一种主动的 AI 安全方法:从预训练数据集中过滤有害信息,而非事后通过遗忘方法尝试移除。
核心发现
团队尝试从模型预训练数据中移除关于化学、生物、放射性和核武器的信息。他们使用自动化分类器识别有害内容,并:
- 在过滤后的数据集上从头预训练模型
- 相比随机基线,有害能力评估性能相对降低 33%
- 在 MMLU、代码和散文任务上保持了标准基准性能
- 有害准确率从 33.7±0.4% 降至 30.8±0.4%(随机基线:25%)
方法论
该方法包括:
- 自动化分类:使用分类器对文档有害性进行评分
- 阈值调优:调整过滤阈值以平衡安全性与实用性之间的权衡
- 从头训练:完整重新训练模型,而非应用遗忘技术
意义
正如作者所言,"现有方法难以在不损害其他能力的情况下完全消除有害内容。" 这种基于过滤的策略通过在初始训练阶段而非事后移除问题信息,解决了这一局限性。
双重用途考量
研究承认了一个持续存在的挑战:某些信息本质上具有双重用途,通用科学知识可能同时实现有害和有益的应用,这使得针对性干预变得复杂。