该机器人使用演绎推理来识别朋友或敌人,以确保在某些在线游戏中战胜人类。
麻省理工学院的研究人员已经开发出一种配备了人工智能的机器人,该机器人可以在棘手的在线多人游戏中击败人类玩家,而其中的玩家角色和动机是秘密的。
已经建立了许多游戏机器人来跟上人类玩家的步伐。今年早些时候,卡内基梅隆大学的一个团队开发了世界上第一个可以击败多人扑克专业人士的机器人。DeepMind的AlphaGo在2016年成为头条新闻,以击败专业的Go玩家。还建立了一些机器人来击败职业棋手或联手合作游戏,例如在线夺旗。但是,在这些游戏中,机器人从一开始就了解其对手和队友。
在下个月的神经信息处理系统大会上,研究人员将展示DeepRole,这是首款可以赢得在线多人游戏的游戏机器人,参与者最初对团队的忠诚度尚不清楚。该机器人的设计是将新颖的“演绎推理”添加到通常用于玩扑克的AI算法中。这有助于其推理出部分可观察的动作,从而确定给定玩家是队友或对手的可能性。这样,它可以快速了解与谁结盟以及采取哪些行动来确保其团队的胜利。
研究人员在超过4,000回合的在线游戏“抵抗:阿瓦隆”中将DeepRole与人类玩家进行了比较。在该游戏中,玩家尝试随着游戏的进行推断出同龄人的秘密角色,同时隐藏自己的角色。作为队友和对手,DeepRole始终优于人类选手。
“如果用机器人代替人类的队友,则可以期望团队获得更高的获胜率。机器人是更好的合作伙伴。”第一作者杰克·塞里诺(Jack Serrino '18)说,他是麻省理工学院电气工程和计算机科学专业的学生,是狂热的在线“阿瓦隆”玩家。
这项工作是一个更广泛的项目的一部分,该项目旨在更好地模拟人类如何做出具有社会根据的决定。这样做可以帮助构建更好地理解,学习人类并与人类合作的机器人。
“人类向他人学习并与他人合作,使我们能够共同实现我们一个人无法独自完成的事情,”合著者马克斯·克莱曼·魏纳(Max Kleiman-Weiner)说,他是大脑,思维与机器中心和美国国防部的博士后。麻省理工学院和哈佛大学的脑与认知科学。“像“阿瓦隆”这样的游戏可以更好地模仿人类在日常生活中所经历的动态社交环境。无论是在幼儿园的第一天还是在办公室的第二天,您都必须弄清楚谁在团队中并会与您一起工作。”
哈佛大学的David C.Parkes和计算机认知科学教授,麻省理工学院计算机科学与人工智能实验室以及脑,思维和机器中心的成员Joshua B.Tenenbaum和Serrino和Kleiman-Weiner一起加入了本文。
演绎机器人
在“阿瓦隆”中,三名球员被随机秘密地分配给“抵抗”队,两名球员被分配给“间谍”队。两名间谍玩家都知道所有玩家的角色。在每个回合中,一个玩家提议一个由两个或三个玩家组成的子集来执行任务。所有参与者同时公开投票批准或拒绝该子集。如果获得多数同意,则子集会秘密确定任务是成功还是失败。如果选择两个“成功”,则任务成功。如果选择一个“失败”,则任务失败。反抗玩家必须始终选择成功,但间谍玩家可以选择任一个结果。抵抗队在成功完成三个任务后获胜;在执行了三个失败的任务后,间谍团队获胜。
赢得游戏基本上归结为推论谁是反抗或间谍,然后投票给您的合作者。但这实际上比下棋和扑克更加复杂。Kleiman-Weiner说:“这是一个信息不完善的游戏。” “您甚至不确定一开始就反对谁,因此还有一个发现阶段,寻找与谁合作。”
DeepRole使用一种称为“反事实后悔最小化”(CFR)的游戏计划算法,该算法通过反复与自己对战来学习游戏,并增加了演绎推理。在游戏的每个点上,CFR都会前瞻性地创建一个由线条和节点组成的决策“游戏树”,描述每个玩家的潜在未来动作。游戏树代表每个玩家在每个未来决策点可以采取的所有可能的动作(线)。在进行可能数十亿次的游戏模拟时,CFR指出哪些动作增加或减少了获胜的机会,并反复修改其策略以包括更多好的决策。最终,它计划出一种最佳策略,在最坏的情况下,它会与任何对手联系在一起。
CFR可以很好地用于扑克之类的游戏,并且可以通过公共行动(例如下注钱和弃牌)来进行,但是当行动为秘密时,CFR会遇到困难。研究人员的CFR结合了公共行为和私人行为的后果,以确定参与者是反抗还是间谍。
该机器人是通过对抗自己作为抵抗力和间谍来进行训练的。在玩在线游戏时,它使用其游戏树来估计每个玩家将要做什么。游戏树代表一种策略,该策略使每个玩家有最高的获胜机会作为指定角色。树的节点包含“反事实值”,基本上是对玩家根据给定策略执行后所获得的回报的估计。
在执行每个任务时,机器人会查看每个人与游戏树相比的玩法。如果在整个游戏中,玩家做出的决定与机器人的期望不一致,那么该玩家可能会扮演另一个角色。最终,机器人为每个玩家的角色分配了很高的概率。这些概率用于更新机器人的策略,以增加其获胜的机会。
同时,它使用相同的技术来估计第三人称观察者如何解释自己的行为。这有助于估计其他参与者的反应,从而做出更明智的决策。“如果执行的两人任务失败,那么其他玩家就会知道一个玩家是间谍。该机器人很可能不会在未来的任务中提议同一个团队,因为它知道其他玩家认为这很不好。
语言:下一个领域
有趣的是,该机器人无需与其他玩家进行交流,这通常是游戏的关键组成部分。“ Avalon”使玩家可以在游戏过程中在文本模块上聊天。Kleiman-Weiner说:“但是事实证明,我们的机器人能够与其他人一起很好地工作,同时仅观察玩家的行为。” “这很有趣,因为人们可能认为这样的游戏需要复杂的沟通策略。”
艾伯塔大学教授迈克尔·鲍林(Michael Bowling)说:“我很高兴看到这篇论文发表。”他的研究部分侧重于训练计算机玩游戏。“看到DeepStack中的想法在扑克之外获得更广泛的应用,真是令人兴奋。[DeepStack]在国际象棋和信息不完善的情况下对AI至关重要。但是我仍然不希望看到它如此迅速地扩展到像Avalon这样的隐藏角色游戏中。能够驾驭社会扣人心弦的场景,这真是人类的精髓,这是非常重要的一步。还有很多工作要做,特别是当社交互动更加开放时,但是我们不断看到,许多具有自学式学习的基本AI算法可以走很长一段路。”
接下来,研究人员可以使机器人在游戏过程中使用简单的文字进行交流,例如说出玩家的好坏。这将涉及将文本分配给玩家抵抗或间谍的相关概率,机器人已使用该概率做出决策。除此之外,未来的机器人可能会配备更复杂的通讯功能,使其能够玩重语言的社交演绎游戏,例如流行的游戏“狼人”,其中涉及数分钟的争论并说服其他玩家了解谁在好的和坏的团队。
Serrino说:“语言无疑是下一个领域。” “但是在那些沟通至关重要的游戏中,攻击存在许多挑战。”