你看一只猫的照片时,你很可能会认出这只动物是生姜还是条纹 - 或图像是黑白,斑点,磨损还是褪色。你可能也会发现宠物被蜷缩在枕头后面或者以模糊的动作跳到台面上。几乎在任何情况下,你都会自然地学会识别一只猫。相比之下,由深度神经网络驱动的机器视觉系统有时甚至在识别固定条件下的猫时表现优于人类,但是甚至有点新奇,嘈杂或颗粒状的图像可以完全抛弃这些系统。
德国的一个研究小组现在发现了一个意想不到的原因:当人类关注图像对象的形状时,深度学习计算机视觉算法通常会锁定对象的纹理。
这一发现在5月举行的国际学习代表大会上发表,强调了人与机器“思考”之间的鲜明对比,并说明了我们的直觉如何误导人工智能。它也可能暗示为什么我们自己的愿景会以它的方式发展。
与大象皮肤和飞机的猫由时钟制成
例如,深度学习算法通过呈现具有数千个包含或不包含猫的图像的神经网络来工作。系统在该数据中找到模式,然后用它来决定如何最好地标记它以前从未见过的图像。网络的架构在人类视觉系统的架构上松散地建模,因为它的连接层让它从图像中提取越来越抽象的特征。但是这个系统通过一个黑盒子过程使得它能够通过黑盒子过程得到正确的答案,人类只能在事后解释。“我们一直试图找出导致这些深度学习计算机视觉算法成功的原因,以及导致它们脆弱的原因,” Thomas Dietterich说道。,俄勒冈州立大学的计算机科学家,没有参与这项新研究。
为此,一些研究人员更愿意研究当他们通过修改图像欺骗网络时会发生什么。他们发现,非常小的变化可能导致系统完全错误地标记图像中的对象 - 而且大的变化有时可能无法使系统完全修改其标签。与此同时,其他专家通过网络进行了回溯,分析了个体“神经元”在图像中的响应,生成了系统所学习的特征的“ 激活图集 ”。
但计算神经科学家Matthias Bethge实验室的一组科学家和德国蒂宾根大学的心理物理学家Felix Wichmann采取了更为定性的方法。去年,该团队报告称,当他们在由特定噪声降级的图像上训练神经网络时,在对经历过相同类型失真的新图像进行分类时,它比人类更好。但是这些图像在以稍微不同的方式改变时,完全欺骗了网络,即使新的扭曲看起来与人类的旧扭曲几乎相同。
为了解释这个结果,研究人员想到即使是很小的噪音水平,质量变化最大。纹理似乎是明显的选择。“如果长时间添加大量噪音,物体的形状或多或少完好无损,” Bethge和Wichmann实验室的研究生,该研究的第一作者Robert Geirhos说。但是“图像中的局部结构 - 当你添加一点噪音时会变得极其扭曲。”因此他们提出了一种巧妙的方法来测试人类和深度学习系统如何处理图像。
Geirhos,Bethge和他们的同事创造了包含两个相互冲突的线索的图像,其中一个物体取自一个物体,一个物体取自另一个物体:例如,用大象皮肤的裂纹灰色纹理着色的猫的轮廓,或者制作熊铝罐,或充满重叠钟面的飞机轮廓。提供了数百张这些图像,人类根据它们的形状 - 猫,熊,飞机 - 几乎每次都按照预期标记它们。然而,四种不同的分类算法倾向于另一种方式,吐出反映物体纹理的标签:大象,罐头,时钟。
“这正在改变我们对深度前馈神经网络的理解 - 开箱即用,或者他们通常训练的方式 - 进行视觉识别,” 哥伦比亚大学计算神经科学家Nikolaus Kriegeskorte说,他没有参与研究。
奇怪的是人工智能首先看起来对纹理的偏好可能看起来很有意义。“你可以把纹理看作一个精细的形状,”Kriegeskorte说。系统锁定的精细比例更容易:具有纹理信息的像素数远远超过构成对象边界的像素数,网络的第一步涉及检测线条和边缘等局部特征。“这就是纹理,” 多伦多约克大学的计算视觉科学家John Tsotsos说,他也没有参与新的工作。例如,“所有线段的分组都以相同的方式排列。”
Geirhos和他的同事已经证明,这些本地功能足以让网络执行图像分类任务。事实上,Bethge和该研究的另一位作者,博士后研究员维兰德·布伦德尔(Wieland Brendel)在5月的会议上提交的一篇论文中将这一点推向了家。。在这项工作中,他们构建了一个深度学习系统,在深度学习出现之前就像分类算法一样操作 - 就像一个“功能包”。它将图像分割成微小的补丁,就像当前的模型一样(就像Geirhos那样)在他的实验中使用)最初会,但是,然后,不是逐步整合这些信息以提取更高级别的功能,而是立即决定每个小补丁的内容(“这个补丁包含自行车的证据,该补丁包含证据一只鸟”)。它只是将这些决定加在一起以确定对象的身份(“更多补丁包含自行车的证据,因此这是自行车的图像”),而不考虑补丁之间的全局空间关系。然而它能够以惊人的准确度识别物体。
Brendel说:“这挑战了深度学习与先前模型完全不同的假设”。“显然......有一个飞跃。我只是建议这种飞跃并不像有些人所希望的那样。“
根据约克大学和多伦多大学的博士后研究员Amir Rosenfeld的说法, 他们没有参与这项研究,但我们认为网络应该做的和他们实际做的事情之间仍存在“巨大的差异”,包括他们的复制情况。人类行为。
布伦德尔表达了类似的观点。他说,很容易假设神经网络将像人类一样解决任务。“但我们倾向于忘记还有其他方式。”
一个更加人性化的推动
当前的深度学习方法可以将纹理等局部特征整合到更多的全局模式中,如形状 “在这些论文中有点令人惊讶的是,并且非常引人注目地证明,虽然架构允许这样做,但如果你只是训练它(以对标准图像进行分类),它就不会自动发生,”Kriegeskorte说。
Geirhos希望看到当团队强迫他们的模型忽略纹理时会发生什么。该团队采用传统上用于训练分类算法的图像,并以不同的样式“绘制”它们,基本上剥离了它们有用的纹理信息。当他们在新图像上重新训练每个深度学习模型时,系统开始依赖于更大,更全局的模式,并且表现出更像人类的形状偏差。
当发生这种情况时,算法在分类噪声图像方面也变得更好,即使它们没有经过训练来处理这些类型的失真。“基于形状的网络免费提供更强大的功能,”Geirhos说。“这告诉我们,对于特定任务,只有正确的偏见,在这种情况下,形状偏差,对于推广到新颖的设置有很大帮助。”
它还暗示人类可能会自然地产生这种偏见,因为即使在新奇或嘈杂的情况下,形状也是一种更加健壮的方式来定义我们所看到的东西。人类生活在一个三维世界中,在许多不同条件下从多个角度看物体,而我们的其他感官,如触摸,可以根据需要促进物体识别。因此,我们的愿景是优先考虑形状优于纹理。(此外,一些心理学家已经表明了语言,学习和人类形态偏见之间的联系:当幼儿接受训练时,通过学习某些类别的单词来更多地关注形状,他们后来能够开发出更大的名词或对象词汇量比未接受培训的孩子多。)
Wichmann说,这项工作提醒人们“数据会产生比我们认为的更多的偏见和影响”。这不是研究人员第一次遇到这个问题:面部识别程序,自动招聘算法和其他神经网络以前已被证明对意外特征给予了太多的重视,因为他们接受训练的数据存在根深蒂固的偏见。从他们的决策过程中消除那些不必要的偏见已经证明是困难的,但Wichmann说新的工作表明它是可能的,他觉得这是令人鼓舞的。
然而,即使是Geirhos关注形状的模型也可能被图像中的过多噪声或特定的像素变化所击败 - 这表明它们距离实现人类视觉还有很长的路要走。(同样,Tsosenos 实验室的研究生Rosenfeld,Tsotsos和Markus Solbach 最近也发表研究表明机器学习算法不能像人类那样察觉不同图像之间的相似性。)不过,通过这样的研究,“你“这些模型尚未捕捉人类大脑重要机制的位置,”Kriegeskorte说。并且“在某些情况下,”Wichmann说,“或许查看数据集更为重要。”
Sanja Fidler多伦多大学的计算机科学家没有参加这项研究,他同意了。“这取决于我们设计聪明的数据,聪明的任务,”她说。她和她的同事正在研究如何给予神经网络辅助任务可以帮助他们完成主要功能。受Geirhos调查结果的启发,他们最近训练了一种图像分类算法,不仅可以识别物体本身,还可以识别哪些像素是其轮廓或形状的一部分。网络在常规对象识别任务中自动变得更好。“只要完成一项任务,你就会受到选择性的关注,并对许多不同的事情视而不见,”菲德勒说。“如果我给你多个任务,你可能会发现更多的事情,而这可能不会发生。这些算法也是如此。