推理模型是否像我们一样使用草稿本？来自改述蒸馏的证据

概述

本研究通过测试改述版本是否能保持性能，调查 Claude 3.7 Sonnet 是否在其草稿本中编码隐藏推理。

研究表明"Claude 3.7 Sonnet 不会在其草稿本中编码隐藏推理"，证据是在改述推理数据上训练模型不会导致性能下降。

研究人员从 Claude 3.7 Sonnet 的早期检查点提取了 10,000 个正确的数学相关草稿本，然后：

作者指出了以下局限性：

一项探索性测试显示，仅将思维拆分为块而不做改述，会导致 MATH 准确率下降约 7%。

如果模型在训练过程中不依赖基于语法的编码推理，这对部署阶段可能出现的欺骗性推理能力具有潜在的安全影响。