Stuart Russell：有益AI三原则，需满足人类偏好

‍‍

【专栏：人物观点】重要的进展，往往会隐藏在“细微”的观点当中。

作者：李梦佳

AI已经足够聪明，但似乎对人类的偏好还不甚了解。

去年的一次演讲中，Stuart Russell从人本主义的角度高屋建瓴地探讨了如何打造「可证明有益的AI」。这也是他19年底的著作《AI新生：破解人机共存密码——人类最后一个大问题》中的核心思想。

Russell 所提出的辅助博弈模型基于三个非正式的原则: 机器的唯一目标是满足人类的偏好；机器不知道这些偏好是什么（正是这种不确定性使人类能够保持控制权）；而人类主动的行为选择，为这些偏好提供了证据。

如果系统设计者将这三原则运用到开发中，则机器的行为方式会与传统的AI模型大相径庭，因为在标准模型中，人类偏好并不存在。

以自动驾驶汽车为例，一名乘客给车下达的任务是将其送往机场，在标准模型下，汽车将不惜一切代价试图实现这一目标，包括不让自身系统被「关闭」。

自动驾驶最大的问题在于，「直到今天，没有一辆无人驾驶汽车知道人们不喜欢被撞死。」（引用自Human Compatible: Artificial Intelligence and the Problem of Control）

「在新的模型中，思维方式完全不同，」Russell认为，最理想的情况是，新模型让机器或算法有服从人类的自主性，在采取行动之前征求许可，保证让「侵入最小化」，并通过提供更多选择来赋予用户行为的权力。

「有了这个新模型，人工智能性能越好，结果就越好，因为它将能够更好地推断你的偏好，并更好地满足这些偏好。」

Stuart Russell

加州大学伯克利分校计算机科学家，人类兼容人工智能中心（CHAI）主任，人工智能研究实验室指导委员会（BAIR）成员。世界经济论坛人工智能和机器人委员会副主席，美国科学促进会（AAAS）会士，美国人工智能协会（AAAI）会士。曾与谷歌研究总监彼得·诺维格合著，出版了人工智能领域里的“标准教科书”《人工智能》，该书被128个国家的1400多所大学使用。

广为人知的著作包括《知识在类比和归纳中的应用》、《做正确的事: 有限理性研究》和《人工智能: 一种现代方法》。研究领域包括机器学习、推理、实时决策、计算生理学和哲学基础等。

同时他也是此次智源大会的keynote嘉宾。

2021智源大会群英荟萃，已确认出席嘉宾包括图灵奖得主Yoshua Bengio、David Patterson，以及人工智能各领域多位世界级的专家。本届大会采用线上+线下模式，线上报名已开启，线下参会和官网即将公开。

人工智能领域不容错过的内行分享，等你一同见证！

下面是观点摘录：

1、标准AI模型的弊端

2、新模型：辅助博弈的三原则

3、如何解决群体偏好？

图灵曾经说过，似乎一旦机器思考的方法开始了，不久后就会超越我们微弱的能力。

图灵的疑问其实是，我们正在创造比我们更强大的实体。我们如何保持对这些（智能）实体的控制权呢？

标准模型AI：只完成指定的目标

我称之为标准模型。这个短语是从物理学上借来的。但它不仅仅可以指人工智能的标准，还包括控制理论、统计学、运筹学等学科的标准模型，在某种程度上，也是经济学的标准模型。

在这种模型下，我们创造的机器，为的是优化其外部特定的目标。比如，人类指定了目标，你对自动驾驶汽车说，带我去机场，去机场则成为汽车的目标。

在控制理论中，它是需要控制的成本函数，在统计学中是所谓的损失函数。在运筹学中就是所谓的奖励函数。在经济学中，它是效用函数或社会福利函数。

所以在所有这些学科中，同样的基本方法论都适用，并且非常成功。20世纪的大量技术都是基于这个模型的。但当我们把人工智能系统从实验室转移到现实世界，一个严重的问题是，我们很难彻底且精准地确定目标。

这个问题我们已经讨论了几千年之久了。神话故事里，迈达斯国王的目标很明确: 他所触及的一切都会变成金子。但随后，他的食物、饮料，甚至家人都变成了金子，然后他在痛苦和饥饿中死去。

你拥有了一盏神灯，你擦了擦，灯神就会许你三个愿望。你的第三个愿望肯定会是恳求把前两个愿望取消，因为一切都毁了。

几乎所有人类文化中都有这样的故事。我们不知道如何完全和正确地确定目标。

以内容优化算法为例，他原本的目的是为了最大化点击率，乃至最大化收益。他们学会了如何通过发送一系列内容来操纵你，使你成为一个更可预测的人。

比如在 youtube 上，你可以点击一些有暴力倾向的军事视频。它会开始给你发送越来越多的暴力信息，因为它会让你变成一个暴力成瘾者。那么你就很容易成为算法的猎物。它可以让你在屏幕上呆上几个小时。但是它不知道你变成了一个暴力成瘾者。它只知道你是一个有利可图的点击流。这才是最重要的。

我认为这是我们现在处境的一个原因。你可以看到，尽管这些算法非常简单，他们什么都不知道，但这种情况还是发生了。他们甚至不知道人类的存在，是有思想，有心理的。你对他们来讲只是一连串的点击。

当我们真正想要的东西和既定目标之间存在这种脱节时，那么人工智能系统越好，结果就越糟糕，因为AI系统，可以为了优化你所陈述的目标去实施干扰和破坏，也更有能力抵御任何打扰他完成目标的行为和企图。

还有很多关于人工智能系统产生有趣行为的轶事，都因为它们遵循的是错误的指定目标。在实验室里，我们可以直接拔掉电源来解决一切，但在现实世界中，是不太可能的，「拔掉」 facebook 内容选择算法是相当困难的，因为它受到数千亿美元公司的保护。

错误目标产生的根源

这个错误产生的根源是因为当初定义人工智能时，我们借用了人类智能的定义，然后把它复制到机器上。

回到40年代和50年代，经济学工作和哲学工作，在理想的理性代理人（rational agent）概念上达成了一致，理性代理人最大化它的预期效用。这是一个非常实用的定义。

所以我们把人类智慧的概念看作是为目标服务的。并把这种概念直接嫁接到了AI上，就变成了，机器的智能程度取决于它们的行为是否能够达成它们的目的。

这其实是非常错误的，因为我们不希望机器独立自主地追求，指定的错误目标。我们真正需要的是那些为我们的目标服务的机器。我将这些称之为有益的机器。

如果一开始就是按照这个标准来制造机器，那么从人工智能中你会得到更好的结果。

有益AI：辅助博弈三定律

这个新模型我们称之为，可证明有益的AI，表达成三原则的形式。

类比“机器人三定律”，由艾萨克·阿西莫夫于1942年发表的作品《转圈圈》（Runaround，《我，机械人》（I, Robots）中的一个短篇）中第一次明确提出，并且成为他的很多小说，包含基地系列小说中机器人的行为准则和故事发展的线索。机器人被设计为遵守这些准则，违反准则会导致机器人受到不可恢复的心理损坏。

第一法则

机器人不得伤害人类，或坐视人类受到伤害；

第二法则

机器人必须服从人类命令，除非命令与第一法则发生冲突；

第三法则

在不违背第一或第二法则之下，机器人可以保护自己。

这个新模型的三原则，不像阿西莫夫小说中写道的机器人三定律，是机器人必须要遵循的原则。

我认为，这些原则最终将成为人工智能研究者们使用的非正式的数学框架。

第一个原则是，机器人的唯一目标是满足人类的偏好。我在这里使用「偏好」这个词，在效用理论中，偏好大致意思是，可能的未来，未来的概率分布以及确定的未来中，一个人可能有偏好。这一系列的偏好就是机器人想要满足的。

第二个原则是，机器人不知道这些偏好是什么。这才是新模型的核心。事实证明，正是这种不确定性提供了安全保障，并使我们能够掌握控制权。

第三个原则是机器要建立关于人类偏好的概念。人类行为的整体就是偏好的最佳证明。

人类行为代表着我们对未来期望的潜在偏好。但这种证据非常嘈杂也不完美，因为我们对未来的潜在偏好并不完全等于我们所做的事情。

可以把这三个原则用数学框架表达出来，我们称之为辅助博弈（assistance game）。

博弈论中，某个机器和某个人，以及机器人和人类（复数），所面临的是一个联合决策问题。你必须同时考虑这两个群体。本质上，我所主张的是，人工智能系统应该解决辅助博弈中属于机器的那部分。而这种行为方式不同于标准模型下拥有特定目标AI的行为方式。

这里，可以把标准模型纳入到辅助博弈的新模型当中，看作是一种极端的特殊情况，即机器人对人类偏好的不确定性为零的情况。

辅助博弈的解决方案意味着，在机器准备采取行动对周围世界造成影响，并不确定是否合适之前，他们会寻求人类的许可。

举例说明，假如机器有一个非常酷的方法来解决大气中的二氧化碳问题，但这样做的副作用就是恰好把海洋变成了硫酸。然后它会请求人类的许可，假定它不知道我们对海洋的偏好。

这意味着它的行为将尽可能地不影响外界世界，特别是那些价值未知的部分。在极端情况下可以是对人类偏好一无所知的机器人。它通过提供更多选择来赋予用户行为的权力。

有关控制问题的核心是，你能关掉它吗？答案是肯定的。符合辅助博弈的机器，他们会允许自己被关掉。这一点非常重要。在新模型中，人工智能性能越好，结果就越好，因为它能够更好地推断你的偏好，并满足这些偏好。

群体偏好 vs. 个体偏好

每个人对未来都有偏好，但社会科学要解决的核心问题是，如何代表大多数人做决定。AI如何理解人类的群体性偏好呢？

该领域的一个经典定理，哈桑尼称之为社会聚合定理，或者说代表所有人的帕累托最优策略，帕累托最优指在没有使任何人境况变坏的前提下，使得至少一个人变得更好。（哈桑尼，美籍经济学家、博弈论专家）

哈桑尼认为，每一个帕累托最优策略，都是对个人偏好线性组合的优化。如果你有一个线性组合，合理的情况应该是每个人的系数都相同，这样每个人的偏好都是平等的。但这种假设的前提是每个人对未来都有一个共同的先验（common prior），即对未来的预期相同。

现实情况中，每个人对未来的预期不同，每个最优策略都对每个个体的偏好有一个动态权重。这个权重和那个人的预测结果成正比。

如果这个人的先验与最终发生的事情一致，那么我们将给予此人偏好更高的权重。这似乎非常不公平。对此我也没有固定的答案，但确实存在这样的定理。

更多内容可以参看Stuart Russell的著作《Human Compatible: Artificial Intelligence and the Problem of Control》，同时他也是2021智源大会的嘉宾。

‍

Stuart Russell：有益AI三原则，需满足人类偏好相关推荐

IEEE发布AI三原则：机器人革命中需要保护人类福祉 | 138页报告
问耕编译整理量子位出品 | 公众号 QbitAI 昨天波士顿动力机器人逆天一般的后空翻,展示了当下最为先进的机器人技术.毫无疑问,随着AI技术的发展,机器人也正在快速成长. 当然,这个过程中也会 ...
UC伯克利教授Stuart Russell人工智能基础概念与34个误区 (公号回复“AI基础概念”可下载PDF资料)
UC伯克利教授Stuart Russell人工智能基础概念与34个误区 (公号回复"AI基础概念"可下载PDF资料) 秦陇纪数据简化DataSimp 今天数据简化DataSim ...
Stuart Russell对话姚期智：为全人类设计AI系统，可以借鉴墨子「兼爱」思想丨2023智源大会AI安全与对齐论坛...
导读在2023智源大会「AI安全与对齐论坛」的对话环节,加州大学伯克利分校教授Stuart Russell与图灵奖得主.中国科学院院士姚期智针对「如何设计对人类有益的AI」.「如何管控AI技术」,以 ...
AI规则迎来进化：从“阿西莫夫三原则”到“李彦宏四原则”
在硅谷久负盛名的波士顿机器人旗下的四足机器人,即将在明年量产,进入家庭场景.机器人正在离我们越来越近,很多人看完波士顿机器人的各种视频,都后背发凉:这么强大的机器人,放到家里,走在路上,伤害人类怎么办 ...
宝钢技术解读李彦宏AI公司三原则：百度AI让钢铁行业降本增效提质
9月17日,百度创始人.董事长兼首席执行官李彦宏在2018世界人工智能大会上提出了三位一体的AI公司原则,引起了各行各业人士的热议.一名来自宝钢技术的人士就表示,AI企业是AI技术的早期采用者和AI领 ...
UC伯克利教授Stuart Russell人工智能基础概念与34个误区
来源:数据简化DataSimp 数据简化DataSimp导读:UC伯克利教授StuartRussell人工智能基础概念与34个误区,Russell是加州大学伯克利分校人工智能系统中心创始人兼计算机科学 ...
关于AGI与ChatGPT，Stuart Russell与朱松纯这么看
机器之心机器之心专栏机器之心编辑部 2023 年 2 月 13 日 AAAI SafeAI 研讨会上,加州大学伯克利分校教授 Stuart Russell 和北京通用人工智能研究院(BIGAI)朱 ...
Stuart Russell：智能本质和人工智能安全的巨大挑战
斯图尔特·罗素(Stuart Russell),加州大学伯克利分校计算机科学专业教授,著有人工智能领域"标准教科书"--<人工智能:一种现代化方法>(与谷歌研究主管Pe ...
人工智能的发展，需要遵守的四个AI伦理原则
https://www.toutiao.com/a6646160057195037197/ 2019-01-14 09:35:23 人们享受着AI智能生活的同时也开始对此感到担心.人们开始担心人工智能 ...

Stuart Russell：有益AI三原则，需满足人类偏好

Stuart Russell：有益AI三原则，需满足人类偏好相关推荐

最新文章

热门文章