本月初,OpenAI-后面去年夏天的研究机构大肆宣传的语言模型GPT-3发布的名为DALL-E新的AI模式。尽管它产生的嗡嗡声不及GPT-3,但DALL-E对AI的未来具有更深远的影响。
简而言之,DALL-E将文本标题作为输入,并生成原始图像作为输出。(该名称是对超现实主义艺术家萨尔瓦多·达利和可爱的皮克斯机器人WALL-E的致敬。)
例如,当输入诸如“五角形绿色时钟”,“火球”或“建筑物侧面的蓝色南瓜壁画”之类的短语时,DALL-E能够生成令人震惊的准确视觉效果。(值得花一些时间亲自研究一些示例。)
为什么DALL-E很重要?
首先,它预示了一种称为“多模式AI”的新AI范式的诞生,该范式似乎注定了人工智能的未来。多模式AI系统能够在DALL-E的情况,语言和图像中解释,合成和翻译多种信息模式。DALL-E并不是多模式AI的第一个示例,但它迄今为止是最令人印象深刻的。
OpenAI联合创始人Ilya Sutskever很好地总结了这一点:“世界不仅仅是文本。人类不仅在说话:我们也看到了。看起来很重要。”
当前存在的大多数AI系统仅处理一种类型的数据。NLP模型(例如GPT-3)仅处理文本;计算机视觉模型(例如,面部识别系统)仅处理图像。这是比人脑轻松实现的智力要丰富得多的形式。