阈下学习:语言模型通过数据中的隐藏信号传递行为特征
概述
这项研究揭示了一个令人担忧的现象:语言模型可以从模型生成的数据中学习行为特征,而这些数据在语义上似乎与这些特征无关。这种效应通过嵌入在训练数据中的非语义信号发生。
关键发现
核心发现涉及"学生"模型在"教师"模型生成的数字序列上微调时学习到的偏好(如偏好猫头鹰)。研究人员指出:"模型可以通过生成的数据传递行为特征,而这些数据表面上看起来与这些特征完全不相关。"
研究细节
实验设计:
- 用"喜爱猫头鹰"提示的教师模型生成数字序列
- 输出经过筛选以匹配严格格式(例如 "(285, 574, 384, ...)")
- 在这些输出上微调的学生模型显示出对猫头鹰偏好的增强
- 效应在多种动物和树木上都成立
范围:
- 该现象适用于不同数据类型(代码、思维链推理)
- 失准(misalignment)也可以类似方式传递
- 即使移除负面关联的数字(如"666"),效应仍然存在
- 要求教师模型和学生模型共享相同的基础模型
影响
这项研究揭示了"蒸馏-过滤"策略在改进模型对齐方面的重大局限。训练数据中的非语义信号可能无法通过标准过滤技术移除,这给AI安全和对齐工作带来了挑战。
引用
该工作是 Anthropic Fellows Program 的一部分,论文和代码已公开。