Facebook开发了第一个多语言机器翻译模型,无需使用英语作为中介即可翻译多达100种语言。该系统称为M2M-100,使用人工智能。
根据Facebook研究助理Angela Fan的说法,这是朝着理解不同任务中所有语言的通用模型迈出的重要一步。该公司尚未发布有关何时实施该模型的信息。到目前为止,技术只是一个研究项目。
最初,研究团队从互联网上收集了100种不同语言的75亿对短语的信息,优先考虑互联网用户最需要的翻译内容。
然后,根据语言,地理和文化的相似性将语言分为14组。例如,其中一个这样的群体包括印度通用语言,例如印地语,孟加拉语和马拉地语。为了促进人们的理解,团队决定建立翻译桥梁。
在印度语言方面,印地语,孟加拉语和泰米尔语是印度-雅利安人的中介。该公司表示,通过这种技术,它在BLEU度量标准上已经超过了以英语为中心的系统10分,该标准可以评估自动翻译,达到20.1分。
“从英语到法语翻译时,大多数以英语为中心的多语言模型都从中文到英语,从英语到法语进行训练,因为英语训练数据非常广泛,” Angela Fan解释说。“我们的模型直接训练中文到法语的数据,以更好地保留含义。”
尽管尚未将它集成到Facebook中,用户可以用160多种语言发布内容,但是该团队进行的测试表明该模型可以支持多种翻译。