在超级AI「毁灭」人类之前,我们可以做这些准备

2023年,Anthropic 发布了负责任扩展策略(Responsible Scaling Policy,RSP),这是一系列技术和组织协议,Anthropic 将采用这些协议来帮助他们管理开发功能日益强大的 AI 系统。Anthropic 认为,AI 模型一方面变得越来越强大,创造巨大的经济和社会价值,另一方面也带来了严重的风险。RSP 将专注于灾难性风险——即人工智能模型直接造成大规模破坏的风险。此类风险可能来自故意滥用模型(例如恐怖分子用它来制造生物武器),也可能来自模型以违背其设计者意图的方式自主行动而造成破坏。

RSP 还定义了一个称为 AI 安全等级 (ASL,AI Safety Levels) 的框架,ASL 等级越高,其安全性证明就越严格。ASL-1 指的是不构成重大灾难风险的系统,例如 2018 年的 LLM 或只会下棋的 AI 系统。ASL-2 指的是显示出危险能力早期迹象的系统(例如能够给出如何制造生物武器的指令),但这些信息由于可靠性不足或无法超越搜索引擎能提供的信息而没有太多用处。包括 Claude 在内的当前 LLM 似乎是 ASL-2。ASL-3 指的是与非 AI 基线(例如搜索引擎或教科书)相比,大大增加了灾难性滥用风险的系统或显示出低级自主能力的系统。ASL-4 及更高版本(ASL-5+)尚未定义,因为它与现有系统相差太远,但可能会涉及灾难性滥用潜力和自主性的质的升级。

一直以来,Anthropic 在为 AI 安全做着各种努力。近日,Anthropic 安全研究部门的负责人 Sam Bowman 在一篇博客中分享了他的观点。以下是对这篇博客的翻译与整理。

在开始讨论超级人工智能的风险之前,我有一些前提需要声明:人工智能有望达到与人类相当的水平。这个阶段,我称之为变革性人工智能(TAI)。TAI 将有能力在所有适合远程工作的职业中替代人类,包括 AI 研发。TAI 并不是人工智能能力的上限,未来可能会出现远超人类能力的系统,它们将对世界产生深远影响。在未来十年内,我们很有可能见证 TAI 的诞生,而那时的商业、政策和文化背景预计与当前相比不会有太大变化。TAI 一旦实现,它将极大地加速人工智能的研发进程,可能在 TAI 出现后的几个月或几年内,我们就能看到远超人类能力的系统被开发出来。如果部署不当,超级人工智能系统可能会极具破坏性。它可能带来新风险,也可能使现有矛盾变得更加尖锐,比如武器滥用,以及破坏道路监控或网络安全等。

想要让 TAI 以及更强大的 AI 系统在现实世界中「三观正常」地正确行事,这对人工智能安全提出了更高要求。确保人工智能系统的行为与开发者的意图一致,即所谓的「对齐」,需要我们投入巨大的努力。而且随着 AI 系统的能力越来越强,这一任务也变得更加艰巨。

我将从三个阶段展开。

第一阶段:准备

此时,AI 还未进阶成 TAI,以 Anthropic 的 RSP 评级(风险敏感性评估)来看,他们处于安全等级 2(ASL-2)、ASL-3,或者可能是 ASL-4 的早期阶段。我们大部分的干预和准备工作将在这一时期进行,为尚未完全出现的高风险问题做准备。

密切关注技术前沿
AI 有多安全,很大程度上取决于我们的工作能力,而这又与我们获取前沿技术的能力紧密相关。如果我们无法获得充足的计算资源,或者在关键的预训练阶段出现重大失误,或者错过了带来变革的范式转变(哪怕是方法中的一些小改进),我们就会丧失大量做贡献的机会。而负责 AI 安全工作,需要遵守严格的规定和限制。因此,持续跟进新技术,是在此阶段的首要任务。

在初始阶段基本解决 TAI 的对齐微调问题
当 AI 系统已经智能到可以自主做研究,特别是 AI 安全研究时,我们需要寻找一种方法,让 AI 系统在帮助我们完成大量工作的同时,避免出现偏差。同时,我们必须确保 AI 的能力至少与人类专家相当,甚至更优,以确保它们能有效地协助我们。此时,AI 并不需要完全「对齐」—— 我们可以接受一定程度的风险。因为人类不会将最关键的决策权交给 AI。同时,我们也有信心能在 AI 的对齐问题演变成全球性灾难之前,及时发现并纠正。

我们的目标是构建高效且通用的 AI 系统。构建能完全「对齐」的 AI 助理,仅供公司内部使用,并进行严格的专家监控,这种方法可行,但问题是,有过多限制或需要专家持续监督的 AI 系统很难大规模推广,这样一来,Anthropic 的业务也难以持续发展。在我看来,解决问题的关键在于可拓展的监督,这要求我们训练出能胜任完成复杂的开放式任务的负责任的 AI 智能体。为此,需要解决的主要挑战包括:「Reward hacking」、应对


>>> Read more <<<

Views: 0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注