公告 | 发布我们更新的负责任扩展政策
2024年10月15日
今天,我们发布了负责任扩展政策(RSP)的重要更新,这是我们用于减轻前沿 AI 系统潜在灾难性风险的风险治理框架。此更新引入了更灵活、更细致的方法来评估和管理 AI 风险,同时维持我们的承诺:除非已实施足够的保障措施,否则不会训练或部署模型。主要改进包括新的能力阈值(用于指示何时将升级我们的保障措施)、评估模型能力和保障措施充分性的精炼流程(受安全案例方法启发),以及内部治理和外部输入的新措施。通过从我们的实施经验中学习并借鉴其他高后果行业中使用的风险管理实践,我们的目标是更好地为 AI 快速发展的步伐做好准备。
先进 AI 的前景与挑战
随着前沿 AI 模型的进步,它们有可能为我们的社会和经济带来变革性的好处。AI 可以加速科学发现,彻底改变医疗保健,增强我们的教育系统,并为人类创造力和创新创造全新的领域。然而,前沿 AI 系统也提出了值得仔细研究和有效保障措施的新挑战和风险。
2023 年 9 月,我们发布了负责任扩展政策,这是一个管理来自日益强大的 AI 系统的风险的框架。经过一年的实施和学习,我们现在分享一个重大更新的版本,反映了实践洞察并考虑了不断进步的技术能力。
虽然此政策侧重于如下所述的灾难性风险,但它们并不是我们唯一监控和准备的风险。我们的使用政策规定了我们对产品使用的标准,包括禁止使用我们的模型传播虚假信息、煽动暴力或仇恨行为或从事欺诈或虐待行为的规则。我们不断扩大我们的信任和安全标准技术执行措施。此外,我们进行研究以了解我们模型的更广泛社会影响。负责任扩展政策补充了我们在这领域的工作,有助于我们理解当前和潜在的风险。
相称保障措施的框架
与以前一样,我们保持核心承诺:除非我们已经实施了将风险保持在可接受水平的安全和保障措施,否则不会训练或部署模型。我们的 RSP 基于相称保护原则:与潜在风险成比例的保障措施。为此,我们使用 AI 安全级别标准(ASL 标准),这是一套随模型能力增强而变得更加严格的渐进制安全措施。受生物安全级别启发,这些从 ASL-1 开始,适用于具有非常基本能力的模型(例如,下棋机器人),然后逐步发展到 ASL-2、ASL-3 等等。
在我们更新的政策中,我们改进了评估特定能力(及其相关风险)并实施相称的安全保障措施的方法。我们更新的框架有两个关键组成部分:
能力阈值:特定的 AI 能力,如果达到,将需要比我们当前基线更强的保障措施。所需保障措施:一旦达到能力阈值,需要的具体 ASL 标准。
目前,我们的所有模型都在 ASL-2 标准下运行,这反映了当前行业最佳实践。我们更新的政策定义了需要升级保障措施的两个关键能力阈值:
自主 AI 研究与开发:如果模型可以独立完成通常需要人类专业知识的复杂 AI 研究任务——可能以不可预测的方式显著加速 AI 开发——我们需要更高的安全标准(可能是 ASL-4 或更高标准)和额外的安全保障措施,以避免开发速度超过我们应对新兴风险能力的情况。
化学、生物、放射性和核武器(CBRN):如果模型可以有效地帮助具有基本技术背景的人创建或部署 CBRN 武器,我们需要增强的安全和部署保障措施(ASL-3 标准)。
ASL-3 保障措施涉及增强的安全措施和部署控制。在安全方面,这包括内部访问控制和更强大的模型权重保护。对于部署风险,我们计划实施多层方法以防止滥用,包括实时和异步监控、快速响应协议以及部署前的全面红队测试。
实施和监督
为有助于有效实施政策,我们已建立:
能力评估:基于我们的能力阈值的常规模型评估,以确定我们当前的保障措施是否仍然适当。(过去的评估摘要可在此处查看。)保障措施评估:我们的安全和部署安全措施有效性的常规评估,以评估我们是否达到了所需保障措施的标准。(这些决策的摘要将可在此处查看。)文档和决策:受高可靠性行业常见程序(如安全案例方法)启发的能力评估和保障措施评估的文档流程。内部治理和外部输入的措施:除了我们现有的安全问题的内部报告流程外,我们的评估方法还将得到内部压力测试的支持。我们还在征求外部专家对我们方法的反馈。
从经验中学习
在上一 RSP 生效的第一年,我们学到了很多,并利用这次更新作为反思什么运作良好以及什么需要在政策中更新的机会。作为其中的一部分,我们进行了第一次审查关于我们如何坚持该框架,并确定了少数未能完全满足其要求的情况。其中包括程序性问题,如比计划晚三天完成一组评估,或关于我们应该在哪里记录占位评估的任何更改缺乏清晰度。我们还标记了一些评估,在这些评估中,我们可能能够通过实施标准技术(如思维链或最佳选择)来略微更好地引出模型性能。
在所有情况下,我们发现这些情况对我们的模型安全性构成的风险最小。我们使用了额外三天来改进和完善我们的评估;我们使用的不同组评估提供了比占位评估更准确的评估;我们的评估方法仍然表明我们与阈值有足够的距离。从中,我们学到了两个宝贵的教训,以纳入我们更新的框架:我们需要在政策中纳入更多灵活性,我们需要改进我们跟踪 RSP 合规性的流程。
自一年前我们首次发布 RSP 以来,我们的目标是提供一个框架示例,其他人在制定自己的 AI 风险治理政策时可能会从中获得灵感。我们希望主动分享我们实施自己政策的经验将有助于其他公司实施自己的风险管理框架,并为 AI 生态系统中最佳实践的建立做出贡献。
展望未来
AI 前沿正在快速发展,这使得为未来系统确定适当的安全措施具有挑战性。我们安全计划的各个方面将继续发展:我们的政策、评估方法、保障措施,以及我们对潜在风险和缓解措施的研究。
此外,联合创始人兼首席科学官 Jared Kaplan 将担任 Anthropic 的负责任扩展官,接替过去一年担任此职位的联合创始人兼首席技术官 Sam McCandlish。Sam 监督了 RSP 的初步实施,并将继续专注于他作为首席技术官的职责。在我们努力扩大实施 RSP 的努力的同时,我们还开放了一个负责任扩展负责人的职位。该职位将负责协调迭代和成功遵守 RSP 所需的许多团队。
如果您想为 Anthropic 的 AI 风险管理做出贡献,我们正在招聘!现在,我们许多团队通过 RSP 为风险管理做出贡献,包括:
前沿红队(负责威胁建模和能力评估)信任与安全(负责制定部署保障措施)安全与合规(负责安全保障措施和风险管理)对齐科学(包括负责开发 ASL-3+ 保障措施、专注于不对齐的能力评估以及我们内部对齐压力测试计划的子团队)RSP 团队(负责政策起草、保证和跨公司执行)在 anthropic.com/rsp 阅读更新后的政策,并在 anthropic.com/rsp-updates 查看补充信息。
我们向在负责任扩展政策的制定和改进过程中提供宝贵反馈的众多外部团体表示衷心的感谢。