人类自身都对不齐,怎么对齐AI?新研究全面审视偏好在AI对齐中的作用
引言
让 AI 与人类价值观对齐一直是 AI 领域的一大重要且热门的研究课题,甚至很可能是 OpenAI 高层分裂的一大重要原因——CEO 萨姆・奥特曼似乎更倾向于更快实现 AI 商业化,而以伊尔亚・苏茨克维(Ilya Sutskever)为代表的一些研究者则更倾向于先保证 AI 安全。但人类真的能让 AI 与自己对齐吗?近日,来自麻省理工学院、加州大学伯克利分校、伦敦大学学院、剑桥大学的一个四人团队的研究表明,人类尚且难以对齐,也就更难以让 AI 与自己对齐了。
研究发现:人类价值观难以量化,偏好主义方法存在局限性
该团队在题为Beyond Preferences in AI Alignment 的论文中,批判性地审视了当前 AI 对齐研究的缺陷,并提出了一些替代方案。他们指出,人类价值观 这个术语本身就缺乏清晰明确的定义,因此难以对其进行量化,从而让机器对齐。目前,定义 价值 的主要方法是基于人类偏好,这种方法源自利用理性选择理论、统计决策理论的传统及其对人工智能中的自动决策和强化学习的影响。
然而,即使是该方法的支持者也承认,在对齐 AI 与人类偏好方面存在诸多技术和哲学难题,包括社会选择、反社会偏好、偏好变化以及难以从人类行为中推断偏好。该团队将这些对 AI 对齐的描述形式表述成了一种范围宽广用于 AI 对齐的偏好主义(preferentist)方法,并将其进一步细分为四类:
- 将理性选择理论作为描述性框架:假设人类行为和决策可以被很好地建模为近似地满足最大化偏好,这可以表示为效用或奖励函数。
- 将预期效用理论作为规范标准:理性可以被描述为预期效用的最大化,AI 系统的设计和分析应根据这一规范标准进行。
- 将单主体对齐作为偏好匹配:对于要与单个人类主体对齐的 AI 系统,它应尽可能地满足该人类的偏好。
- 将多主体对齐作为偏好聚合:为了使 AI 系统与多个人类主体对齐,它们应以最大限度地满足其总体偏好。
尽管这些论点只是观点,而非一个统一的 AI 对齐理论,但它们表达的思想是紧密关联的,并且大多数 AI 对齐方法都采用了其中2 个或更多论点。比如逆向强化学习、基于人类反馈的强化学习(RLHF)和直接偏好优化(DPO)全都假定可通过一个奖励或效用函数来很好地建模人类偏好,并且该函数还可被进一步优化。
然而,该团队认为,偏好主义方法存在着诸多局限性:
- 人类在行事时甚至都不能大致遵循理性选择理论:人们的行为往往受到情绪、认知偏差和社会因素的影响,并非完全理性。
- 没有理由认为高级 AI 必定会最大化某个效用函数:AI 的目标和行为可能与人类的预期不符,甚至可能产生我们无法理解的价值观。
- 人类偏好是推断出来的或构建起来的,因此将 AI 的行为与我们表述出来的偏好对齐是错误的方向:我们可能无法完全理解自己的偏好,或者偏好会随着时间而改变。
超越偏好主义:探索新的对齐方法
为了克服偏好主义方法的局限性,该团队提出了以下替代方案:
- 将 AI 直接与 优秀助手 / 程序员 / 司机等 规范性理想目标对齐:而不是试图将 AI 与人类的模糊偏好对齐,我们可以将 AI 与一些明确的、可操作的目标对齐,例如成为一个优秀的助手、程序员或司机。
- 探索更复杂的人类行为模型:我们需要超越理性选择理论,开发更复杂的人类行为模型,例如考虑认知偏差、情绪和社会因素。
- 关注 AI 的伦理和社会影响:除了技术问题,我们还需要关注 AI 的伦理和社会影响,确保 AI 的发展符合人类的价值观和利益。
结论
这项研究表明,对齐 AI 与人类价值观是一个复杂且充满挑战的任务。单纯依靠偏好主义方法可能无法解决问题,我们需要探索新的对齐方法,并关注 AI 的伦理和社会影响。未来,AI 对齐研究需要更深入地理解人类行为,并开发更完善的对齐方法,以确保 AI 的发展能够造福人类。
参考文献
- Tan, Zhi-Xuan, et al. Beyond Preferences in AI Alignment. arXiv preprint arXiv:2408.16984 (2024).
- Belrose, Nora. AI Alignment: Beyond Preferences. Twitter, 2024.
Views: 0