通过预训练数据过滤增强模型安全性

概述

本研究探索了一种主动的 AI 安全方法：从预训练数据集中过滤有害信息，而非事后通过遗忘方法尝试移除。

团队尝试从模型预训练数据中移除关于化学、生物、放射性和核武器的信息。他们使用自动化分类器识别有害内容，并：

该方法包括：

正如作者所言，"现有方法难以在不损害其他能力的情况下完全消除有害内容。" 这种基于过滤的策略通过在初始训练阶段而非事后移除问题信息，解决了这一局限性。

研究承认了一个持续存在的挑战：某些信息本质上具有双重用途，通用科学知识可能同时实现有害和有益的应用，这使得针对性干预变得复杂。