斯图尔特·拉塞尔(Stuart Russell)是AI的真正开拓者之一,数十年来一直处于该领域的最前沿。他的专业知识和前瞻性思想在他的最新作品《人类兼容:人工智能与控制问题》中达到了高潮。书是一块基石,沿着超级智能和生命3.0,即阐明了文明的尺度问题,我们面临着人类的目标和价值观对准机器智能的。这不仅是对AI对齐问题的进一步阐述和发展,而且Stuart还提出了一种新颖的解决方案,使我们可以更好地理解创建有益的机器智能所需要的东西。
“我认为大约在2013年,确实让我感到震惊的是,实际上我们一直在以错误的方式思考AI。我们建立整个领域的方式基本上是一种人类智慧的复制品,因为如果人类的行动达到了目标,那么人类就是聪明的。因此,如果机器的动作实现了目标,则该机器应该是智能的。然后,我们当然必须以奖励函数或成本函数或逻辑目标陈述的形式提供目标。这一点可行。当机器很笨时,它可以工作。而且,如果您提供了错误的目标,则可以重置它们并修复目标,并希望这次机器所做的工作实际上对您有所帮助。但是如果机器比人类更智能,那么给他们错误的目标,基本上就是在人类和机器之间建立起国际象棋比赛,而该机器的目标却与我们自己的目标相违背。而且我们不会赢得那场象棋比赛。”
“因此,当一个人给另一个人一个目标时,很显然这不是唯一的人生使命。因此,您要求某人取咖啡,这并不意味着不惜一切代价取咖啡。总体而言,这只是意味着我宁愿喝咖啡,但要知道,不要杀任何人来喝咖啡。不要清空我的银行帐户来喝咖啡。不要在沙漠上跋涉300英里以获得咖啡。在AI的标准模型中,机器对此一无所知。它只具有目标,这是生活中唯一的目的。更一般的模型是机器了解人的内部具有某种整体的偏好结构,这个特定的目标用来取咖啡或带我去机场只是一个局部的体现。机器的目的应该是帮助人们以最佳的方式实现他们的整体偏好结构。如果目前碰巧包括喝杯咖啡,那就太好了,或者带他去了机场。但是,机器始终知道并且不完全了解这种更大的首选项结构。一种思考的方式是说AI的标准模型假设机器对目标具有完备的知识,而我提出的模型则假设该模型对目标具有不完善的知识或对目标的部分知识。因此,这绝对是更一般的情况。”
“目标是重新定位AI领域,以便将来我们使用与标准模型不一样的风险来构建系统……这就是我认为对于AI社区来说,这是我们存在的第一步。结束,我们需要继续采用这种其他方式。因为这是随着机器变得更加智能化的唯一途径。我们不能忍受标准模型,因为正如我所说,目标不正确的系统可能会带来任意不良后果。”