一个以人工智能领域一些最伟大的头脑为特色的研究团体正在推出一个基准来衡量自然语言处理(NLP)能力。
该财团包括谷歌DeepMind、Facebook AI、纽约大学(New York University)和华盛顿大学(University of Washington)。该联盟的每个成员都认为,NLP需要一个比当前解决方案更全面的基准。
Facebook人工智能表示,其结果是一个名为SuperGLUE的基准测试平台,它用一个“更复杂的基准测试,包含全面的人类基线”,取代了一个较老的名为GLUE的平台。
SuperGLUE有助于测试NLP能力,以前的基准测试对最新的系统来说太过简单。
在发布的一年内,一些NLP模型已经在GLUE基准上超过了人类的基准性能。目前的模型已经提出了一种非常有效的方法,它将语言模型对大量文本数据集的预训练与简单的多任务和传输学习技术结合起来。”
2018年,谷歌发布了BERT(变形金刚的双向编码器表示),Facebook称这是NLP领域的最大突破之一。Facebook采用了谷歌的开源工作,并确定了改进其有效性的变化,这导致了RoBERTa (Robustly BERT pre - training Approach)的出现。
研究联盟推出AI自然语言处理基准
在发布的一年内,几个NLP模型(包括RoBERTa)已经在GLUE基准测试上超过了人类的基准性能。目前的模型已经提出了一种非常有效的方法,将语言模型对大量文本数据集的预训练与简单的多任务和传输学习技术结合起来,”Facebook解释道。
对于SuperGLUE基准测试,该联盟确定了满足以下四个标准的任务:
有不同的格式。
使用更微妙的问题。
用最先进的方法尚待解决。
很容易被人解决。
新的基准测试包括八个不同的和具有挑战性的任务,包括一个貌似合理的选择(COPA)因果推理任务。上述任务为系统提供了一个句子的前提,它必须从两种可能的选择中确定该前提的因果关系。人类在COPA上的准确率达到了100%,而伯特的准确率只有74%。