聪明的捉迷藏AI学会使用工具并打破规则

2020-02-06 16:30:04    来源:    作者:

OpenAI的最新研究将其机器学习代理置于一个简单的捉迷藏游戏中,他们进行了一次巧妙的军备竞赛,以意想不到的方式使用对象来实现其可见或被看见的目的。这种自学成才的AI可能在现实世界中也很有用。

聪明的捉迷藏AI学会使用工具并打破规则

这项研究旨在并且成功地探究了机器学习代理学习复杂的,与现实世界相关的技术的可能性,而不会干扰研究人员的建议。

诸如识别照片中的物体或发明合理的人脸之类的任务既困难又有用,但它们并不能真正反映人们在现实世界中可能采取的行动。您可能会说,他们具有很高的智力,因此即使不离开计算机,也可以达到很高的效率。

试图训练AI使用机械臂来握住杯子并将其放入茶碟中的尝试比人们想象的要困难得多(并且只有在非常特殊的情况下才能完成);现实,物理世界的复杂性使单纯依靠计算机进行的任务学习变得几乎不可能。

同时,中间任务不一定完全反映现实世界,但仍然可以与现实世界相关。一个简单的方法可能是当出现多个相关物体或人物时如何改变机器人的脸。您无需进行一千次物理试验就可以知道它应该自行旋转还是可以旋转相机,使其既可以看到又可以旋转,也可以在它们之间切换,等等。

聪明的捉迷藏AI学会使用工具并打破规则

OpenAI对其婴儿ML代理的捉迷藏挑战遵循以下原则:具有简单规则的游戏环境(称为Polyworld),但仍使用与现实世界相邻的物理方法和输入。如果AI可以自学导航简化的现实,也许他们可以将这些技能(经过一些修改)转移到成熟的现实中。

无论如何,这就是实验背后的想法,但它本身很有趣。游戏在一个由一些随机生成的墙和物体组成的小型3D竞技场中,使两支队伍相互对抗。在其中生成了多个代理,并给“隐藏者”几秒钟以熟悉环境和隐藏。它们还可以与对象互动,将它们推向四周并将它们锁定在适当的位置。一旦“搜索者”抬起头,他们就有一定的时间发现它们。

机器学习程序所了解的全部是基本的感觉-每个代理都有一个世界观以及一种告诉他们附近物体位置的“激光雷达”-以及他们可以移动物体的知识。但除此之外,他们只是获得成功或寻找或躲藏的机会,这就是他们的动力。

从这些基本的开始就产生了有趣的结果。首先,团队基本上是随机移动的。但是,在数百万场比赛中,藏身者发现,通过以某种方式“粗暴”地逃跑,他们可以更频繁地提高得分。于是军备竞赛开始了。

由于藏匿者逃跑了,搜寻者开始发展更有条理的追求行为。但是随后出现了工具。

藏匿者发现他们可以在野外推拉物体,并开始在它们上面建造堡垒。

搜寻者的反应是使用在野外发现的坡道来提升物体并撞毁要塞。

当搜寻者仍在计数时,躲藏者开始寻找坡道,要么偷走它们,要么将它们锁定在适当的位置(对立团队的特工无法撤消锁定)。有趣的是,这涉及一定程度的分工,因为两个藏匿者通常没有足够的时间出去寻找坡道。一个不得不准备要塞,而另一个要进行坡道巡逻。

OpenAI团队以为这就是结局,但寻求者学会了利用游戏世界的意外功能。他们发现可以骑在盒子上面时“推”箱子,这意味着他们可以将其放在斜坡附近,爬上它,然后在整个田野上“冲浪”,找到那些顽皮的藏身处。

当然,藏身者的回应是锁定了他们没有用来建造堡垒的所有物品,这似乎是游戏中策略的终点。

那有什么意义呢?正如该论文的作者所解释的那样,这就是我们出现的方式。

由于自然选择指导的生物之间的共同进化和竞争,地球上大量的复杂性和多样性得到了发展。当出现新的成功策略或变异时,它会更改相邻代理需要解决的隐式任务分配,并为适应带来新的压力。这些进化军备竞赛创建了隐式的自动课程,因此竞争主体不断为彼此创建新任务。

在具有物理基础和开放性的环境中引入自动课程可能最终使代理能够获得无数的与人相关的技能。

换句话说,让AI模型以无人监督的方式竞争可能是发展有用和强大技能的更好的方法,而不是让它们自己四处闲逛,积累诸如探索环境百分比之类的抽象数字。

聪明的捉迷藏AI学会使用工具并打破规则

通过参数化和控制AI与环境的交互作用,人们越来越难甚至不可能指导AI的各个方面。对于像机器人在拥挤的环境中导航这样的复杂任务,有太多因素导致人为设计行为可能永远不会产生这些特工在日常生活中所必需的那种复杂性。

但是,正如我们在这里和GAN中所看到的那样,它们可以互相教teach,一对决斗的AI在创建或检测现实媒体时相互击败。OpenAI研究人员认为,在许多其他方法过于缓慢或结构化的情况下,“多主体自动课程”或自教学代理是前进的道路。他们得出结论:

“这些结果激发了人们的信心,即在更加开放和多样化的环境中,多主体动态可能会导致极其复杂且与人类相关的行为。”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。