Google LLC今天推出了 VideoBERT,这是一种人工智能,可以观看视频的一部分,并像人类一样推断未来几秒钟会发生的事情。
要使计算机具备从视觉场景中理解和得出正确结论的能力,就需要非常复杂的算法。但是,对于Google的研究人员而言,面临的挑战不是构建算法,而是找到足够的数据进行训练。机器学习模型必须吸收大量信息才能理解甚至是基本概念,并且通常必须手动准备信息。
对于VideoBERT来说,这是不可行的,因为教授模型如何预测未来事件需要更多的示例视频,而这些视频是Google研究人员可以手工组装的。他们还必须为每个剪辑的每个单独的帧编写描述,以便AI可以跟踪正在发生的事情。因此,团队提出了一个替代方案:免费提供的教学视频。
在显示如何烹饪煎蛋或填充轮胎的视频中,演示任务的人通常会在执行任务时解释每个步骤,并叙述了研究人员用来替代他们本应做的逐帧描述否则为AI创建。该团队编辑了超过一百万个剪辑,涵盖烹饪和园艺等类别。然后,他们将他们喂给VideoBERT,以教该模型如何跟踪常见活动的进度。
训练后,该模型被放到以前从未见过的烹饪录像上。当视频片段显示一碗面粉和可可粉的视频片段时,VideoBERT巧妙地预测到这些成分将被放入烤箱,变成布朗尼蛋糕或蛋糕。研究人员还设法利用算法的观察技巧从视频中提取食谱,其中厨师解释了如何烹饪牛排。
Google开发的训练VideoBERT的方法最终可以在更严重的应用程序中找到用处。例如,如果自动驾驶汽车能够准确预测未来几秒钟内附近的车辆的位置,它们可能会变得更加安全。对于那些在人类工人附近操作的无人机和工业机器人来说,这种远见也可能是一项重要资产。