无监督提取

概述

本文介绍了一种新颖的无监督算法，旨在从预训练语言模型中提取潜在能力。该方法不依赖外部人类监督，仅使用模型自身生成的标注数据进行微调。

研究表明，该方法在无监督情况下在多个基准测试中取得了具有竞争力的表现：

值得注意的是，团队"从 Haiku 3.5 基础模型训练出了一个有用的聊天助手，其表现优于类似训练条件下的人类监督基线。"

这项工作涉及多个机构的合作：

该研究解决了一个关键的对齐挑战：当人类监督变得不可靠时，如何有效地对齐超人类模型。像 RLHF 这样的标准后训练方法存在风险，可能会训练模型"说出我们想听的话，即使那是错的，或者做那些表面看起来很好但实际上与我们意图完全不同的事情。"

该方法代表了在开发 AI 系统方面的进展，这些系统的能力可以在无需大量人工标注的情况下被可靠地提取和评估。