一个由AI的一些最伟大的头脑组成的研究联盟正在发布一个基准来衡量自然语言处理(NLP)的能力。
该财团包括Google DeepMind,Facebook AI,纽约大学和华盛顿大学。该联盟的每个成员都认为,NLP需要比当前解决方案更全面的基准。
结果就是一个称为SuperGLUE的基准测试平台,该平台用一个“更难的基准和全面的人为基准”取代了一个名为GLUE的旧平台。
SuperGLUE有助于将NLP功能进行测试,而以前的基准测试开始对最新系统而言太简单了。
“在发布的一年之内,一些NLP模型已经超过了GLUE基准上的人类基准性能。目前的模型已经提出了令人惊讶的有效方法,该方法将对大型文本数据集的语言模型预训练与简单的多任务和转移学习技术相结合。
2018年,谷歌发布了BERT(《变形金刚》的双向编码器表示),Facebook将其称为NLP的最大突破之一。Facebook接受了Google的开源工作,并确定了提高其有效性的更改,从而产生了RoBERTa(严格优化的BERT预培训方法)。
正如孩子们所说,RoBERTa基本上按照常用的基准“粉碎了它”:
“在发布的一年内,几种NLP模型(包括RoBERTa)已经超过了GLUE基准上的人类基准性能。当前的模型已经提出了令人惊讶的有效方法,该方法将对大型文本数据集的语言模型预训练与简单的多任务和转移学习技术相结合。
对于SuperGLUE基准测试,联盟决定满足四个条件的任务:
有多种格式。
使用更多细微的问题。
使用最先进的方法尚待解决。
可以很容易地被人们解决。
新的基准测试包括八项多样化且具有挑战性的任务,其中包括“选择合理的选择(COPA)”因果推理任务。前述任务为系统提供了句子的前提,并且它必须从两个可能的选择中确定前提的原因或结果。人类已经成功地在COPA上实现了100%的准确性,而BERT则只有74%。