计算机视觉模型已经学会了准确地识别照片中的对象,从而使某些对象在某些数据集上的表现优于人类。但是,当那些相同的物体检测器在现实世界中变得松懈时,它们的性能会明显下降,这会给自动驾驶汽车和其他使用机器视觉的对安全至关重要的系统带来可靠性方面的担忧。
为了弥合这种性能差距,CSAIL和IBM研究人员组成的团队着手创建一种非常不同的对象识别数据集。它被称为 ObjectNet, 是ImageNet上的一部戏,ImageNet是众包的照片数据库,负责引发现代人工智能的繁荣。
与ImageNet具有从Flickr和其他社交媒体网站拍摄的照片不同,ObjectNet具有由付费自由职业者拍摄的照片。显示的对象是侧面倾斜的,以奇数角度拍摄,并显示在杂乱的房间中。当在ObjectNet上测试领先的对象检测模型时, 其准确率从ImageNet上的97%的高位下降到50-55%。
CSAIL研究科学家Boris Katz表示:“我们创建了这个数据集来告诉人们对象识别问题仍然是一个难题 。” “我们需要更好,更智能的算法。” Katz和他的同事将在神经信息处理系统会议(NeurIPS)上介绍ObjectNet及其结果 。
深度学习是推动AI最新发展的技术,它使用人工“神经元”层在大量原始数据中查找模式。在训练了数百至数千个示例之后,它学会在照片中挑选椅子。但是,即使具有数百万个图像的数据集也无法以每个可能的方向和设置显示每个对象,这在模型在现实生活中遇到这些对象时也会造成问题。
ObjectNet在另一个重要方面与常规图像数据集有所不同:它不包含训练图像。大多数数据集都分为用于训练模型和测试其性能的数据。但是训练集通常与测试集有着细微的相似之处,实际上使模型在测试时达到了潜行高峰。
乍看之下, 拥有 1400万张图像的ImageNet看起来是巨大的。但是,如果不包括训练集,则其大小可与ObjectNet媲美(50,000张照片)。
研究合著者CSAIL和CBMM的研究作者Andrei Barbu说:“如果我们想知道算法在现实世界中的表现如何,我们应该在无偏见且从未见过的图像上对其进行测试。” 。
试图捕获现实世界对象的复杂性的数据集
很少有人会考虑与他们的朋友分享ObjectNet的照片,这就是重点。研究人员从Amazon Mechanical Turk聘请了自由职业者,为数百张随机摆放的家用物品拍照。工人们在应用程序上收到了照片分配,并带有动画说明,告诉他们如何定向分配的对象,从哪个角度拍摄以及是否将对象摆放在厨房,浴室,卧室或客厅中。
他们希望消除三个常见的偏见:正面朝上,在标志性位置和高度相关的设置中显示的对象,例如厨房中堆叠的盘子。
花费了三年的时间来构思数据集并设计一个可标准化数据收集过程的应用程序。研究合著者,麻省理工学院电气工程与计算机科学系研究生 David Mayo说:“发现如何以控制各种偏差的方式收集数据是非常棘手的事情 。” “我们还必须进行实验,以确保我们的指示清晰明了,并确保工人确切知道他们的要求。”
收集实际数据又花了一年的时间,最后,由于不符合研究人员的要求,所有自由职业者提交的照片中有一半被丢弃。为了提供帮助,一些工作人员在他们的对象上添加了标签,将它们放在白色背景上,或者尝试改善分配给他们拍摄的照片的美观性。
许多照片是在美国以外拍摄的,因此,有些物体可能看起来很陌生。成熟的橘子是绿色的,香蕉的大小不同,衣服的形状和质地也各不相同。
Object Net与ImageNet:领先的对象识别模型的比较
当研究人员在ObjectNet上测试最新的计算机视觉模型时,他们发现ImageNet的性能下降了40-45个百分点。研究人员说,结果表明,物体检测器仍然难以理解物体是三维的并且可以旋转并移动到新的环境中。研究合著者,IBM研究人员Dan Gutfreund说:“这些概念并未内置在现代物体检测器的体系结构中 。”
为了证明ObjectNet很难精确地因为对象的观看和定位方式,研究人员允许模型训练ObjectNet数据的一半,然后再测试其余一半。在同一数据集上进行训练和测试通常可以提高性能,但是此处的模型仅稍有改善,这表明对象检测器尚未完全理解现实世界中对象的存在方式。
自2012年以来,计算机视觉模型已逐步改善,当时名为AlexNet的物体检测器在年度ImageNet竞赛中击败了比赛。随着数据集变得越来越大,性能也得到了提高。
但是研究人员警告说,设计更大版本的ObjectNet并增加视角和方向并不一定会带来更好的结果。ObjectNet的目的是激励研究人员提出下一波革命性技术,就像ImageNet挑战最初的启动一样。
卡兹说:“人们为这些检测器提供了大量数据,但是收益却在减少。” “您不能从任何角度和每种情况下查看对象。我们希望,这个新的数据集将产生强大的计算机视觉,而在现实世界中不会出现令人惊讶的故障。”