Anthropic AI 安全研究学者项目介绍

我们正在推出 Anthropic AI 安全研究学者项目,这是一项试点计划,旨在加速 AI 安全研究并培养研究人才。该项目将为 10-15 名学者组成的小型群体提供资金和指导,让他们全职从事 AI 安全研究工作。在为期六个月的时间里,学者们将与 Anthropic 的导师配对,研究对抗鲁棒性、危险能力评估和可扩展监督等领域的 AI 安全问题。

从我们以往的外部合作中可以看到,通过支持技术人才(无论其经验水平如何)进行他们的首次安全研究探索,我们可以加快实现 AI 安全优先事项的进程。纳入多元化的视角对于开发安全的 AI 同样重要。提供新的指导和财务支持渠道将扩大在 AI 安全和对齐前沿工作的研究者群体。

我们为什么要推出这个项目

Anthropic 在 AI 安全研究方面已经取得了重大进展,但要有效应对未来的挑战,需要更广泛的研究者群体。许多有才华的研究者和工程师对 AI 安全研究感兴趣,但不确定如何转型进入这个领域。我们的研究人员已经与有兴趣转型进入 AI 安全的技术人才完成了许多成功的合作:在过去一年中,我们与外部合作者完成了大约十几个项目,其中许多已在顶级会议和期刊上发表。

学者可以期待什么

虽然学者不会正式受雇于 Anthropic,但我们将通过以下方式支持他们在六个月内全职与 Anthropic 研究人员合作:

薪酬。 学者将获得每周 2,100 美元的津贴以及福利待遇。
研究经费。 学者们将共同使用预算,每位学者每月约 10,000 美元,用于计算资源、人类数据和其他研究支出。所有研究项目将使用公开可用的 API 和开源模型进行。
指导。 学者将获得 Anthropic 研究人员的指导,包括潜在项目建议、每周研究会议和 Slack 讨论。
社区。 将为学者和导师建立一个群组 Slack。虽然你不会在 Anthropic 办公室工作,但如果你在湾区或伦敦,你将能够在同时接待其他 AI 安全研究者的共享工作空间工作——并且你将有定期机会访问我们的旧金山或伦敦办公室。

到项目结束时,我们的目标是让每位学者都能产出一篇(共同)第一作者的 AI 安全研究论文。

学者需要全职从事他们的研究项目。我们愿意接待有其他义务(如课程作业)的学者,但我们期望所有学者每周能在研究上投入 40 小时。

第一批学者将于 2025 年 3 月进行项目选择和导师配对流程,入职计划在 2025 年 3 月中旬。如果我们有后续批次,它们将按滚动方式启动。

导师与研究领域

潜在的 Anthropic 导师包括:

导师将在选定的 AI 安全研究领域领导项目,例如:

可扩展监督(Scalable Oversight): 开发技术以确保高能力模型即使在各个领域超越人类智能水平时,仍能保持有用和诚实。
对抗鲁棒性与 AI 控制(Adversarial Robustness and AI Control): 创建方法以确保先进的 AI 系统在陌生或对抗场景中保持安全和无害。
模型生物(Model Organisms): 创建不对齐模型生物(model organisms of misalignment),以提高我们对对齐失败可能如何发生的实证理解。
模型内部机制与可解释性(Model Internals and Interpretability): 提高我们对大型语言模型内部运作机制的理解,以实现更有针对性的干预和安全措施。
AI 福祉(AI Welfare): 提高我们对潜在 AI 福祉的理解,并开发相关的评估和缓解措施。

我们在寻找什么样的人

该项目专注于帮助职业生涯中期的技术专业人士转型进入 AI 安全研究领域,但无论你的背景或职业阶段如何,我们都欢迎你的申请。

如果你符合以下条件,可能很适合这个项目:

有动力降低先进 AI 系统带来的灾难性风险;
在计算机科学、机器学习或相关领域拥有扎实的技术背景;
拥有强大的 Python 编程技能;
拥有美国或英国的工作授权,并且能够全职在伯克利或伦敦工作;
- 如果你目前还没有工作授权,但能在项目开始前获得,你仍有资格申请。我们也可能根据具体情况接受位于其他地点的学者。
在快节奏、协作的环境中能够茁壮成长;
能够独立执行研究项目,同时接受方向上的反馈;
对全职从事实证 AI 安全研究感到兴奋,包括在学者项目结束后。

请注意:我们不保证会向学者提供任何全职工作机会。但是,在项目期间的出色表现可能表明该学者适合 Anthropic:几位 Anthropic 员工最初都是从 Anthropic 外部的合作者开始的。

我们将使用以下标准进行选拔,尽管我们鼓励你即使认为自己不符合每一项资格也来申请。并非所有优秀候选人都会符合列出的每一项资格:

技术卓越性,表现为:
- 在机器学习、软件工程或 AI 研究方面的丰富经验;
- 在计算机科学、机器学习或相关技术领域的出色表现(例如,来自顶尖项目的教育背景、竞赛奖项);
- 重要的开源贡献或有影响力的技术项目。
研究潜力,表现为:
- 以前的研究经验,例如在机器学习、大型语言模型、AI 安全或相邻领域;
- 强大的编程能力和编码速度,尤其是在 Python 和 ML 框架方面;
- 清晰的书面和口头沟通能力。

我们重视为 AI 安全研究带来独特视角和经验的候选人。

虽然接触过 AI 安全研究是有价值的,但我们对刚进入该领域但能展示出卓越技术能力以及对开发安全和有益 AI 系统真正承诺/兴趣的候选人同样感兴趣。

我们特别鼓励来自技术领域代表性不足群体的申请。

如何申请

Anthropic 学者项目的申请现已开放!你可以在这里找到申请链接,其中包含学者项目的更多详细信息。

如需被考虑进入第一批,请在 2025 年 1 月 20 日之前申请。请注意,我们将按滚动方式评估申请并发出录取通知,并鼓励在截止日期前申请。

如有任何问题,请联系 fellows@anthropic.com。

Anthropic AI 安全研究学者项目介绍 ​

我们为什么要推出这个项目 ​

学者可以期待什么 ​

导师与研究领域 ​