人工智能的最重要的理论家和最近的图灵奖获得者 - 向学生Sara Sabour和Nicholas Frosst提出了一个名为CapsNet的机器学习架构,这是一种经过歧视训练的多层方法,实现了最先进的技术。基于流行基准的图像分类性能。在他们最初工作的后续工作中,Hinton,Sabour和本周牛津机器人研究所的研究人员详细介绍了一种胶囊网络的版本,该网络在无人监督的分类任务中胜出领先的算法。
他们的工作在预印本服务器Arxiv.org上发表的论文(“ Stacked Capsule Autoencoders ”)中有所描述。
对于不熟悉的人来说,胶囊系统通过几何地解释其相互关联的部分的有组织的集合来理解对象。针对各种对象属性(如位置,大小和色调)单独激活的数学函数(胶囊)的集合被添加到卷积神经网络(一种通常用于分析视觉图像的AI模型)上,并且它们的一些输出是重用以形成更高阶胶囊的更“稳定”的表示。由于这些表示在整个过程中保持完整,因此胶囊系统可以利用它们来识别对象,即使在视点发生变化时也是如此,例如当交换或转换部件的位置时。
关于胶囊系统的另一个独特之处 他们注意路线。与所有深度神经网络一样,胶囊的功能被安排在互连层中,从输入数据传输“信号”并缓慢调整每个连接的突触强度 - 权重。(这就是他们如何提取特征并学习如何进行预测。)但是在涉及胶囊的情况下,权重是根据前一层函数预测下一层输出的能力动态计算的。
Hinton及其同事最近的研究工作是研究一种神经编码器,它可以查看图像样本并尝试消除物体的存在和姿势。它使用解码器进行训练,该解码器使用姿势预测的混合来预测已经发现的图像部分的姿势(通过自动编码器分割),并且将每个图像像素建模为由变换部分做出的预测的混合。然后在未标记的数据上学习胶囊系统,并且将存在的向量(数学表示)聚集在一起以捕获整个对象和部分之间的空间关系。
共同作者注意到,对象胶囊的存在概率向量更有可能形成紧密的聚类,并且为每个紧密聚类分配一个类会在街景房号数据集(a)上进行无监督分类,从而产生最先进的结果。来自Google街景图像的超过600,000个房屋号码真实图像的数据集)。此外,这种实现导致MNIST(一种手写数字语料库)的近乎最先进的结果,并且通过少于300个参数进一步改善了性能。