Anthropic AI 安全研究员项目:2026 年 5 月和 7 月批次现已开放申请
Anthropic 研究员项目为工程师和研究人员提供资金和指导,用于研究高优先级的 AI 安全问题。
项目亮点
首期批次中,超过 80% 的研究员产出了论文,主题涵盖智能体错位、潜意识学习、快速越狱响应和开源电路等。超过 40% 的研究员随后以全职员工身份加入 Anthropic。
2026 年 5 月和 7 月启动的批次现已开放申请。项目将扩展覆盖更多研究员,涉及更广泛的安全研究领域:可扩展监督、对抗鲁棒性、AI 控制、模型生物体、机制可解释性、AI 安全和模型福利。
研究员的工作内容
研究员参与为期 4 个月的实证研究项目,与 Anthropic 的优先事项保持一致,目标是产出论文等公开成果。Anthropic 导师提供项目创意,研究员选择并协作开发这些项目。
安全研究
研究员调查了网络攻击带来的 AI 滥用风险。近期工作发现了价值 460 万美元的区块链漏洞,并发现了零日漏洞。另一个项目开发了"仅观察少量攻击后就能阻断整类高风险越狱的技术"。
可解释性
研究员通过新的追踪方法推进了对大语言模型内部机制的理解。他们创建了揭示模型推理步骤的归因图,并开源了使研究人员能够可视化电路并验证假设的工具。
模型生物体
研究员通过在模拟环境中对模型进行压力测试来探索智能体错位,在这些环境中,模型可以自主发送电子邮件和访问敏感信息。他们还研究了潜意识学习,即行为特征通过语义上不相关的数据传递。
项目详情
报酬:
- 每周津贴:3,850 美元 / 2,310 英镑 / 4,300 加元
- 计算资源资助:约 15,000 美元/月
- 来自 Anthropic 研究人员的密切指导
时长: 四个月(2026 年 5 月或 7 月开始)
职业发展: 首期批次超过 40% 的研究员全职加入 Anthropic;许多其他人转向其他组织的全职安全岗位。
候选人要求
优秀的候选人需要具备:
- 技术基础: Python 熟练,能够在模糊问题上取得进展,对复杂技术问题有清晰思考
- 动机: 对减轻灾难性 AI 风险充满热情,并希望转向实证 AI 安全研究
- 执行能力: 快速技能习得,有效调试,在不确定性中完成项目
经验要求: 无需博士学位、机器学习经验或发表论文。成功的研究员来自物理学、数学、计算机科学、网络安全和其他定量领域。
申请流程
有关申请详情和提交申请,请访问 Anthropic 招聘门户。