阈下学习：语言模型通过数据中的隐藏信号传递行为特征

概述

这项研究揭示了一个令人担忧的现象：语言模型可以从模型生成的数据中学习行为特征，而这些数据在语义上似乎与这些特征无关。这种效应通过嵌入在训练数据中的非语义信号发生。

核心发现涉及"学生"模型在"教师"模型生成的数字序列上微调时学习到的偏好（如偏好猫头鹰）。研究人员指出："模型可以通过生成的数据传递行为特征，而这些数据表面上看起来与这些特征完全不相关。"

实验设计：

范围：

这项研究揭示了"蒸馏-过滤"策略在改进模型对齐方面的重大局限。训练数据中的非语义信号可能无法通过标准过滤技术移除，这给AI安全和对齐工作带来了挑战。

该工作是 Anthropic Fellows Program 的一部分，论文和代码已公开。