讨论如何让人工智能系统做我们想做的事

2020-01-25 17:39:09    来源:    作者:

在这一集中,Rohin将首先按顺序进行第一集中讨论的方法。我们将从嵌入式代理开始,然后讨论使AI系统完成我们想要的事情的领域,然后我们将讨论雄心勃勃的价值学习。接下来,我们将着眼于可纠正性,特别是迭代式放大,辩论和因式认知。

讨论如何让人工智能系统做我们想做的事

接下来,我们将讨论对AI系统设置限制,这种性质将是AI装箱和影响度量。之后,我们将介绍鲁棒性,包括验证,对抗性机器学习和对抗性示例。

接下来,我们将讨论可解释性研究,最后是全面的AI服务。通过阅读本系列的第一部分,您应该在第二部分中有足够的背景来了解这些材料。有点公告,我希望这个播客对听众特别有用和有趣。因此,我继续进行了三分钟的简短调查,您可以在FLI页面上找到此播客的链接,或者在可能找到此播客的描述中找到该链接。与往常一样,如果您觉得此播客有趣或有用,请确保在您喜欢的收听平台上喜欢,订阅和关注我们。

讨论如何让人工智能系统做我们想做的事

对于尚未熟悉Rohin的人,他是UC Berkeley的计算机科学专业五年级博士学位学生,与Anca Dragan,Pieter Abbeel和Stuart Russell一起在人类兼容AI中心工作。他每周都会在Alignment Newsletter中收集并总结与AI对齐相关的最新进展。这样一来,我们将通过依次遍历刚才列举的方法开始。行。然后,让我们继续,从第一个开始,我认为这是嵌入式代理。

罗欣:是的,所以是嵌入式代理商。我有点想与嵌入式代理机构顺序有所不同,因为我不会做任何能做得那么出色的事情。但是基本思想是我们希望拥有这种智能理论,而对此的一个主要障碍是,我们目前所有的理论(最值得注意的是,强化学习)都假设存在良好的清晰边界在环境和代理之间。有点像代理正在玩视频游戏,而视频游戏就是环境。环境无法真正影响代理。代理具有此定义的输入通道,可以执行操作,这些操作将被发送到视频游戏环境,视频游戏环境会以此为基础进行操作并创建观察结果,然后将该观察结果发回给负责观察的代理,那里有一个非常漂亮,简洁的抽象。该代理可以比视频游戏大,就像我比井字游戏大一样。

实际上,我可以模拟井字游戏的整个游戏树,并找出井字游戏的最佳策略。实际上就是这个很棒的XKCD确实向您展示了整个游戏树,这很棒。

因此,以与视频游戏设置相同的方式,该代理可以比视频游戏环境更大,因为它可以具有完全准确的环境模型并确切知道其动作将要做什么。因此,我们在视频游戏环境中拥有所有这些不错的假设,但在现实世界中,这些假设是行不通的。如果您在地球上考虑我,我将无法获得整个环境的精确模型,因为该环境将我包含在其中,而且我无法在我的内部拥有一个完美的我的模型。那只是不可能发生的事情。更不用说拥有宇宙其余部分的完美模型了,但我们甚至将其搁置一旁。

有一个事实是我的动作空间到底是什么还不是很清楚。一旦有了我可以使用的笔记本电脑,笔记本电脑是否会在我的行动空间中开始说话?我们是否只谈论我可以四肢运动的命令?但是,如果我突然上传并且现在我再也没有镜头了,那会发生什么?我的动作发生了什么,消失了吗?因此,嵌入式代理商将这个问题大致分为四个子问题。我将它们与颜色相关联,因为这是Scott和Abram在其顺序中所做的。红色是决策理论。通常,决策理论是考虑所有可能的行为以模拟其后果,选择一种会带来最高预期效用的行为。当您是嵌入式代理时,这不是您可以做的事情,因为环境可能取决于您执行的策略。

最典型的例子是纽康问题,其中部分环境是强大的存在,欧米茄。Omega能够完美地预测您的情况,因此它确切地知道您将要做什么,并且Omega 100%值得信赖,并且所有这些都简化了假设。欧米茄为您提供以下游戏。他将在您面前放两个透明的盒子。第一个框将始终包含$ 1,000美元,第二个框将包含百万美元或什么都不包含,您可以看到此内容,因为它们是透明的。您可以选择带一个盒子或两个盒子,然后随便拿里面的东西。

令人不安的是,如果欧米茄预测您只会带上百万美元的盒子,而不带另一个盒子,他只会把一百万美元放在盒子里。所以现在您看到两个盒子,看到一个盒子有一百万美元,另一个盒子有一千美元。在这种情况下,您是否应该同时使用两个盒子?还是只带上一百万美元的盒子?因此,按照我现在的设置方式,从逻辑上讲,除了花费一百万美元之外,您什么都做不到。因此,也许您会说好,我在逻辑上要求这样做,所以这不是很有趣。但是,您可以将其放宽到一个问题,即Omega达到99.999%的预测正确率的可能性。从某种意义上说,现在您确实有代理权。您可以选择两个框,但这在逻辑上是不可能的,并且您知道,两个框都在那里。您现在无法更改框中的金额。伙计,您应该只带两个盒子,因为这样可以多给您$ 1,000。你为什么不这样做呢?

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。