使用Stuart Armstrong将人的喜好合成为实用功能

2020-01-25 11:28:24    来源:    作者:

在他的研究议程v0.9中:将人类的偏好综合为效用函数,斯图尔特·阿姆斯特朗(Stuart Armstrong)开发了一种生成友好人工智能的方法。他的一致性建议可以广义地理解为一种逆向强化学习,其中推断人类偏好的大部分任务留给了AI本身。我们有责任将正确的假设,定义,偏好学习方法论和综合过程构建到AI系统中,以便能够有意义地学习人类的偏好并将其合成为足够的效用函数。为了使这一切正确,他的议程着眼于如何理解和识别人类偏爱,如何最终将这些习得的偏好综合成“适当的”效用函数,开发和估算人类效用函数的实用性以及如何做到这一点。议程可以协助其他AI调整方法。

<img alt="使用Stuart Armstrong将人的喜好合成为实用功能" data-cke-saved-src="http://www.xinhuatone.com/uploadfile/2020/0125/20200125113627584.png" src="http://www.xinhuatone.com/uploadfile/2020/0125/20200125113627584.png" style="style=" max-width:="" 100%;"="">

该研究项目基本上有两个核心部分。第一部分是识别人类的内部模型,弄清楚它们是什么,我们如何使用它们以及如何获得AI来实现正在发生的事情。因此,这些给了我们部分偏爱,这是我们建立一般偏爱的基础。第二部分是将所有这些部分组合在一起,形成一种对任何给定个人的总体偏好,这种方式应能很好地发挥作用,并尽可能尊重该人的不同偏好,元偏好等。该项目的第二部分是人们倾向于发表强烈意见的部分,因为他们可以看到它是如何工作的以及各个组成部分如何组合在一起,以及他们希望将其以不同的方式组合在一起等等。但实质上

“因此,当我说人类价值观是矛盾的,易变的,可操纵的和未定义的时,我说的是前三个相对容易处理,而后一个则不然。大多数时候,人们没有考虑他们或世界或所面临的全部情况。没有一种情况可以与另一种情况完全相似,因此您必须尝试将其适应不同的类别。因此,如果某个可疑的人在一个国家当选并开始做非常专制的事情,这是否适合应该抵制的专制政权,或者适合于民主制的正常过程,在这种情况下,应该忍受并通过民主来处理手段。通常会发生的事情是同时具有两者的功能,因此它可能无法舒适地放入两个盒子中,然后某人伪善或选择其中一方,却存在各种各样的选择,但之所以存在如此众多的可能性,是因为这种情况并非完全正确之前面对过,所以人们实际上在这里没有偏好。他们对这种情况没有部分偏爱,因为这不是他们从未考虑过的……我实际上在研究议程中的某个时候争论过,这是确保我们离目标不远的论点。人类的基线正常化为异国情调的事物,在这些事物中我们的偏好未得到明确定义,因为在这些区域中,存在较大负面影响的可能性似乎大于存在较大正面影响的可能性……因此,当我说不要太过分时,我并不是说不拥抱一个巨大的变革性未来。我的意思是说,不要拥抱我们的道德范畴开始瓦解的巨大变革的未来。”

使用Stuart Armstrong将人的喜好合成为实用功能

“寻找效用函数的原因之一是寻找不会随时间变化的稳定事物,并且有证据表明一致性要求会将任何形式的偏好函数推向效用函数,如果没有的话实用功能,您只会失去价值。因此,将其放入效用函数的渴望并不是对效用函数本身的钦佩,而是我们渴望获得不会进一步改变或不会进一步朝着我们无法控制的方向漂移的东西的渴望。不知道另一个原因是,随着我们开始更好地控制自己的偏好并具有更好的操纵自己的思想的能力,我们将朝着效用函数的方向发展,因为同样的压力基本上不会无意义地失去价值。”

使用Stuart Armstrong将人的喜好合成为实用功能

“反射均衡基本上是您完善自己的偏好,使其更加一致,将其应用于自己,直到达到元偏好和偏好都平滑地相互融合的时刻。我正在做的是一个更加混乱的综合过程,我这样做是为了尽可能保留实际的人类偏好。仅仅通过拥有完全平坦的偏好或非常简单的偏好就很容易达到反射性均衡,这些偏好往往在自身上非常反射性地处于平衡状态,而在我看来,朝着这个方向发展是对过度简单性的追求。失去宝贵的偏好的巨大风险。在我看来,失去有价值的偏好的风险似乎比获得简单或优雅带来的风险要高得多。毫无用处的是,人脑的and乱和偏好的混乱会导致一些简单的反射平衡。实际上,您可以说这是反对自反均衡的一种论点,因为它意味着许多不同的起点,许多不同的头脑,有着截然不同的偏好将导致相似的结果,这基本上意味着您将抛弃许多您的输入数据。”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。