当今的智能手机经常使用人工智能(AI)来使我们拍摄的照片更清晰,更清晰。但是,如果可以使用这些AI工具从头开始创建整个场景呢?麻省理工学院和IBM的团队现在已经使用“ GANpaint Studio”完成了这一任务,该系统可以自动生成逼真的摄影图像并编辑其中的对象。研究人员说,除了帮助艺术家和设计师快速调整视觉效果外,这项工作还可以帮助计算机科学家识别“伪造”图像。
David Bau博士 麻省理工学院计算机科学与人工智能实验室(CSAIL)的一名学生将这个项目描述为计算机科学家首次真正能够“用神经网络的神经元进行绘画”,特别是一种流行的网络,称为“生成网络”。对抗网络(GAN)。
GANpaint Studio 作为交互式演示在线提供,用户可以上传自己选择的图像并修改其外观的多个方面,从更改对象的大小到添加全新的项目(如树木和建筑物)。
设计师的福音
该项目由MIT教授Antonio Torralba牵头,是他领导的MIT-IBM Watson AI Lab的一部分,该项目具有广泛的潜在应用。设计师和艺术家可以使用它来更快地调整其视觉效果。使系统适应视频剪辑,将使计算机图形编辑人员可以快速组合特定镜头所需的特定对象布置。(例如,想象一下,如果一个导演与演员一起拍摄了一个完整的场景,但是却忘记在背景中包含一个对剧情很重要的对象。)
GANpaint Studio还可以通过分析需要删除的“工件”单元,来改进和调试正在开发的其他GAN。在不透明的AI工具使图像处理比以往更容易的世界中,它可以帮助研究人员更好地理解神经网络及其底层结构。
“目前,机器学习系统就是这些黑匣子,我们并不总是知道如何改进这些黑匣子,就像老式的电视机一样,您必须将它们撞到一边,” Bau说。由Torralba监督的团队撰写有关该系统的论文。“这项研究表明,尽管打开电视并仔细查看所有电线可能会很吓人,但那里会有很多有意义的信息。”
一个意外的发现是该系统实际上似乎已经学习了一些有关对象之间关系的简单规则。它以某种方式知道不要在不属于自己的地方放置某些东西,例如天空中的窗户,并且它还会在不同的上下文中创建不同的视觉效果。例如,如果图像中有两个不同的建筑物,并且要求系统在两个建筑物上都添加门,则不只是添加相同的门,它们最终看起来可能彼此完全不同。
“所有绘图应用程序都将遵循用户的说明,但是如果用户命令将对象放置在不可能的位置,我们的应用程序可能会决定不绘制任何内容,” Torralba说。“这是一个具有强烈个性的绘图工具,它打开了一个窗口,使我们能够了解GAN如何学会代表视觉世界。”
GAN是为相互竞争而开发的神经网络集。在这种情况下,一个网络是专注于创建逼真的图像的生成器,第二个网络是一个甄别器,其目标是不被该生成器欺骗。鉴别器每次“捕获”生成器时,都必须公开决策的内部推理,这使生成器不断变得更好。
芬兰阿尔托大学副教授Jaakko Lehtinen说:“看到这项工作如何使我们直接看到GAN真正开始学习一些常识,真是令人难以置信。” 。“我认为这种能力是拥有可以在人类世界中实际运行的自治系统的关键垫脚石,它是无限,复杂和不断变化的。”
删除不需要的“假”图像
该团队的目标是使人们对GAN网络有更多的控制权。但是他们认识到,权力的增强会带来滥用的可能性,例如使用此类技术来篡改照片。合著者朱俊彦说,他相信更好地了解GAN以及他们犯的错误种类将有助于研究人员更好地杜绝伪造品。
CSAIL的博士后朱说:“在防御之前,您需要了解对手。” “这种了解可能会帮助我们更轻松地检测伪造图像。”
为了开发该系统,团队首先确定了GAN内部与特定类型的对象(例如树木)相关的单元。然后,它分别测试了这些单元,看清除它们是否会导致某些物体消失或出现。重要的是,他们还确定了导致视觉错误(伪影)的单元,并努力将其移除以提高图像的整体质量。
IBM的合著者Hendrik Strobelt说:“每当GAN生成极其不真实的图像时,这些错误的原因就一直是个谜。” “我们发现这些错误是由特定的神经元集合触发的,我们可以沉默这些神经元来改善图像质量。”
Bau,Strobelt,Torralba和Zhu与前CSAIL博士共同撰写了这篇论文。学生Bolei Zhou,博士后研究员Jonas Wulff和本科生William Peebles。他们将在下个月于洛杉矶举行的SIGGRAPH会议上介绍该文档。Lehtinen说:“该系统为更好地理解GAN模型打开了一扇门,这将有助于我们进行需要对GAN进行的任何类型的研究。