Skip to content

推理模型是否像我们一样使用草稿本?来自改述蒸馏的证据

概述

本研究通过测试改述版本是否能保持性能,调查 Claude 3.7 Sonnet 是否在其草稿本中编码隐藏推理。

主要发现

研究表明"Claude 3.7 Sonnet 不会在其草稿本中编码隐藏推理",证据是在改述推理数据上训练模型不会导致性能下降。

方法

研究人员从 Claude 3.7 Sonnet 的早期检查点提取了 10,000 个正确的数学相关草稿本,然后:

  • 使用 Claude 3.5 Sonnet 对这些草稿本进行改述
  • 对基础模型进行微调,使其生成改述后的推理
  • 对比改述版本与原始版本的性能表现

技术考量

作者指出了以下局限性:

  • 改述未必能完全消除编码推理
  • 格式风格的变化可能影响模型性能
  • 模型在推理阶段可能对改述后的草稿本感到不适应

一项探索性测试显示,仅将思维拆分为块而不做改述,会导致 MATH 准确率下降约 7%。

启示

如果模型在训练过程中不依赖基于语法的编码推理,这对部署阶段可能出现的欺骗性推理能力具有潜在的安全影响。