推理模型是否像我们一样使用草稿本?来自改述蒸馏的证据
概述
本研究通过测试改述版本是否能保持性能,调查 Claude 3.7 Sonnet 是否在其草稿本中编码隐藏推理。
主要发现
研究表明"Claude 3.7 Sonnet 不会在其草稿本中编码隐藏推理",证据是在改述推理数据上训练模型不会导致性能下降。
方法
研究人员从 Claude 3.7 Sonnet 的早期检查点提取了 10,000 个正确的数学相关草稿本,然后:
- 使用 Claude 3.5 Sonnet 对这些草稿本进行改述
- 对基础模型进行微调,使其生成改述后的推理
- 对比改述版本与原始版本的性能表现
技术考量
作者指出了以下局限性:
- 改述未必能完全消除编码推理
- 格式风格的变化可能影响模型性能
- 模型在推理阶段可能对改述后的草稿本感到不适应
一项探索性测试显示,仅将思维拆分为块而不做改述,会导致 MATH 准确率下降约 7%。
启示
如果模型在训练过程中不依赖基于语法的编码推理,这对部署阶段可能出现的欺骗性推理能力具有潜在的安全影响。