无监督引导安全性的三个挑战与两个希望

引言

为了引导语言模型在超出人类能力的任务上产生真实输出，先前的研究建议在简单任务上训练模型以引导其在更难的任务上表现（由易到难的泛化），或使用无监督训练算法在完全没有外部标签的情况下引导模型（无监督引导）。

在这项新研究中，我们

在新的现实压力测试数据集中研究基于提示和探针的技术，这些数据集聚焦于无监督引导可能面临的 3 个挑战：
- 真实数据集可能存在比真相更显著的连贯特征
- 真实数据集通常不会有平衡的训练集
- 真实数据集可能包含一些分类点，其恰当答案（根据模型知识）应是不确定的
探索解决问题的 2 个希望，并表明它们只能部分解决上述挑战：
- 集成不同的预测器（因为其中一个预测器可能对应真相）
- 结合无监督和由易到难的方法，例如
  - 通过在困难数据上使用无监督方法识别候选预测器，并用简单标签选择真实的预测器
  - 通过在困难点上结合无监督损失和在简单点上的监督损失

总结

该研究强调，"尽管新的希望有时比其他方法表现更好，但没有一种技术能在 3 个挑战上可靠地表现良好。"团队创建了专门设计的数据集来测试模型引导中现实障碍的鲁棒性，揭示了当前方法论在多样化条件下实现可靠性能的局限性。