Google的VideoBERT算法可一次预测未来的烹饪视频

2020-03-27 14:49:45 来源：新经网作者：冯思韵

Google LLC今天推出了 VideoBERT，这是一种人工智能，可以观看视频的一部分，并像人类一样推断未来几秒钟会发生的事情。

要使计算机具备从视觉场景中理解和得出正确结论的能力，就需要非常复杂的算法。但是，对于Google的研究人员而言，面临的挑战不是构建算法，而是找到足够的数据进行训练。机器学习模型必须吸收大量信息才能理解甚至是基本概念，并且通常必须手动准备信息。

对于VideoBERT来说，这是不可行的，因为教授模型如何预测未来事件需要更多的示例视频，而这些视频是Google研究人员可以手工组装的。他们还必须为每个剪辑的每个单独的帧编写描述，以便AI可以跟踪正在发生的事情。因此，团队提出了一个替代方案：免费提供的教学视频。

Google的VideoBERT算法可一次预测未来的烹饪视频

在显示如何烹饪煎蛋或填充轮胎的视频中，演示任务的人通常会在执行任务时解释每个步骤，并叙述了研究人员用来替代他们本应做的逐帧描述否则为AI创建。该团队编辑了超过一百万个剪辑，涵盖烹饪和园艺等类别。然后，他们将他们喂给VideoBERT，以教该模型如何跟踪常见活动的进度。

训练后，该模型被放到以前从未见过的烹饪录像上。当视频片段显示一碗面粉和可可粉的视频片段时，VideoBERT巧妙地预测到这些成分将被放入烤箱，变成布朗尼蛋糕或蛋糕。研究人员还设法利用算法的观察技巧从视频中提取食谱，其中厨师解释了如何烹饪牛排。

Google的VideoBERT算法可一次预测未来的烹饪视频

Google开发的训练VideoBERT的方法最终可以在更严重的应用程序中找到用处。例如，如果自动驾驶汽车能够准确预测未来几秒钟内附近的车辆的位置，它们可能会变得更加安全。对于那些在人类工人附近操作的无人机和工业机器人来说，这种远见也可能是一项重要资产。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。