在电脑游戏中,赛车在沿着轨道行驶时要进行优化以提高速度,然后汽车将踏板推到金属上,然后继续转弯。说明书中没有任何内容告诉汽车直行,所以它是即兴的。
这个例子-在计算机游戏中很有趣,但在生活中却没有那么多-是促使斯坦福大学研究人员建立更好的方法来设定自治系统目标的例子。
计算机科学和电气工程学助理教授Dorsa Sadigh和她的实验室将两种为机器人设定目标的不同方法组合为一个过程,在模拟和实际实验中,它们的表现都比单独一个部分要好。研究人员于6月24日在机器人技术:科学与系统会议上介绍了这项工作。
“未来,我完全希望世界上会有更多的自治系统,它们将需要了解什么是好是坏的概念,”计算机科学专业的研究生,Andy Palan的主要作者安迪·帕兰(Andy Palan)说。纸。“至关重要的是,如果我们将来希望部署这些自治系统,那么我们必须做到这一点。”
团队用于向机器人提供指令的新系统-称为奖励功能-结合了演示(其中人类向机器人展示了该做什么)和用户偏好调查,其中人们回答了有关他们希望机器人如何表现的问题。
萨迪格说:“示威是有益的,但可能会带来干扰。另一方面,喜好最多只能提供一点信息,但更准确。” “我们的目标是充分利用两全其美,并更智能地合并来自这两个来源的数据,以更好地了解人类的首选奖励功能。”