Anthropic AI 安全研究员项目：2026 年 5 月和 7 月批次现已开放申请

Anthropic 研究员项目为工程师和研究人员提供资金和指导，用于研究高优先级的 AI 安全问题。

项目亮点

首期批次中，超过 80% 的研究员产出了论文，主题涵盖智能体错位、潜意识学习、快速越狱响应和开源电路等。超过 40% 的研究员随后以全职员工身份加入 Anthropic。

2026 年 5 月和 7 月启动的批次现已开放申请。项目将扩展覆盖更多研究员，涉及更广泛的安全研究领域：可扩展监督、对抗鲁棒性、AI 控制、模型生物体、机制可解释性、AI 安全和模型福利。

研究员参与为期 4 个月的实证研究项目，与 Anthropic 的优先事项保持一致，目标是产出论文等公开成果。Anthropic 导师提供项目创意，研究员选择并协作开发这些项目。

研究员调查了网络攻击带来的 AI 滥用风险。近期工作发现了价值 460 万美元的区块链漏洞，并发现了零日漏洞。另一个项目开发了"仅观察少量攻击后就能阻断整类高风险越狱的技术"。

研究员通过新的追踪方法推进了对大语言模型内部机制的理解。他们创建了揭示模型推理步骤的归因图，并开源了使研究人员能够可视化电路并验证假设的工具。

研究员通过在模拟环境中对模型进行压力测试来探索智能体错位，在这些环境中，模型可以自主发送电子邮件和访问敏感信息。他们还研究了潜意识学习，即行为特征通过语义上不相关的数据传递。

报酬：

时长： 四个月（2026 年 5 月或 7 月开始）

职业发展： 首期批次超过 40% 的研究员全职加入 Anthropic；许多其他人转向其他组织的全职安全岗位。

优秀的候选人需要具备：

经验要求： 无需博士学位、机器学习经验或发表论文。成功的研究员来自物理学、数学、计算机科学、网络安全和其他定量领域。

有关申请详情和提交申请，请访问 Anthropic 招聘门户。