无监督提取
概述
本文介绍了一种新颖的无监督算法,旨在从预训练语言模型中提取潜在能力。该方法不依赖外部人类监督,仅使用模型自身生成的标注数据进行微调。
主要贡献
研究表明,该方法在无监督情况下在多个基准测试中取得了具有竞争力的表现:
- TruthfulQA:解决常见误解
- GSM8k-verification:数学推理任务
- Alpaca 奖励建模:有用性评估
值得注意的是,团队"从 Haiku 3.5 基础模型训练出了一个有用的聊天助手,其表现优于类似训练条件下的人类监督基线。"
研究团队
这项工作涉及多个机构的合作:
- Anthropic
- Schmidt Sciences
- 纽约大学
- 乔治华盛顿大学
- 独立研究员
问题陈述
该研究解决了一个关键的对齐挑战:当人类监督变得不可靠时,如何有效地对齐超人类模型。像 RLHF 这样的标准后训练方法存在风险,可能会训练模型"说出我们想听的话,即使那是错的,或者做那些表面看起来很好但实际上与我们意图完全不同的事情。"
资源
- 论文:提供 PDF 版本
- 代码:在 GitHub 上提供开源实现
该方法代表了在开发 AI 系统方面的进展,这些系统的能力可以在无需大量人工标注的情况下被可靠地提取和评估。