随着自然语言处理技术的改进 建议变得越来越快捷且相关性更高

2020-01-30 18:00:29    来源:    作者:

在线上拥有数十亿本书,新闻报道和文档,因此,现在就没有比现在更好的阅读时机了-如果您有时间来筛选所有选项。麻省理工学院的助理教授贾斯汀·所罗门说:“互联网上有很多文字。” “任何有助于切穿所有材料的东西都是非常有用的。”

随着自然语言处理技术的改进 建议变得越来越快捷且相关性更高

所罗门公司最近与麻省理工学院的IBM Watson AI实验室及其位于麻省理工学院的几何数据处理小组合作,在神经信息处理系统大会(NeurIPS)上展示了一种用于切入大量文本的新技术。他们的方法结合了三种流行的文本分析工具-主题建模,单词嵌入和最佳传输-可以提供比流行的用于对文档进行分类的基准上的竞争方法更好,更快的结果。

如果算法知道您过去喜欢什么,它可以扫描数百万种可能性来寻找类似的东西。随着自然语言处理技术的改进,那些“您可能也喜欢”的建议正在变得越来越迅速和相关。

在NeurIPS提出的方法中,一种算法会根据收藏集中的常用单词,将书籍的收藏汇总为主题。然后将每本书分为5至15个最重要的主题,并估算每个主题对本书的总体贡献。

随着自然语言处理技术的改进 建议变得越来越快捷且相关性更高

为了比较书籍,研究人员使用了另外两种工具:单词嵌入(一种将单词转换为数字列表以反映其在常用用法中的相似性的技术)和最佳传输(一种用于计算移动物体或数据点的最有效方式的框架) -在多个目的地中。

单词嵌入使利用两次最佳传输成为可能:首先比较整个馆藏中的主题,然后在任意两本书中比较常见主题的重叠程度。

该技术在扫描大量书籍和冗长的文档时效果特别好。在这项研究中,研究人员提供了弗兰克·斯托克顿(Frank Stockton)的《大战辛迪加》的例子,这是一部19世纪的美国小说,预言了核武器的兴起。如果您正在寻找一本类似的书,则主题模型将有助于识别与其他书共享的主要主题,在这种情况下,它们是航海,元素和武术。

但是,仅凭主题模型并不能证明托马斯·赫x黎(Thomas Huxley)在1863年的演讲“ 有机自然的过去条件 ”是一个很好的匹配。作家是查尔斯·达尔文(Charles Darwin)进化论的拥护者,他的演讲充斥着化石和沉积物,反映了关于地质学的新兴思想。当赫x黎演讲中的主题通过最佳传输方式与斯托克顿的小说相匹配时,就会出现一些交叉的主题:赫x黎的地理,动植物/动物主题和知识主题分别与斯托克顿的航海,元素和军事主题密切相关。

通过书籍的代表性主题而不是单个单词对书籍进行建模,可以进行高层比较。该研究的主要作者,IBM研究员Mikhail Yurochkin说:“如果您要求某人比较两本书,他们会将每一本书分解为易于理解的概念,然后进行比较。”

研究表明,结果是更快,更准确的比较。研究人员在一秒钟内比较了古腾堡项目数据集中的1,720对书籍,这比第二好的方法快800倍。

随着自然语言处理技术的改进 建议变得越来越快捷且相关性更高

与竞争对手的方法相比,该技术在准确地对文档进行排序方面也做得更好,例如,按作者对古腾堡数据集中的书籍进行分组,按部门对亚马逊上的产品评论以及按运动分类的BBC体育故事。在一系列可视化中,作者表明,他们的方法可以按类型整齐地对文档进行聚类。

除了快速,准确地对文档进行分类外,该方法还提供了进入模型决策过程的窗口。通过出现的主题列表,用户可以查看模型为何推荐文档。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。