亚马逊网络服务公司(Amazon Web Services Inc.)正在接管Google LLC的人声复制功能,今天为亚马逊波利(Amazon Polly)添加了两项新功能,这是一项基于云的服务,可将文本转换为逼真的语音,并用于创建可以通话的应用程序。
新功能的第一个功能称为“神经文本语音转换”,亚马逊表示,通过增强合成语音的“自然度”和“表达力”,可以在语音质量上“显着改善”。
关于神经文本语音转换的一大优点是,由于亚马逊去年在研究论文中提到的一种新的人工智能模型,它只需训练几个小时就可以学习新的口语风格。该模型通过将大量标准的中性语音与仅几个小时的目标语音风格的其他语音数据相结合而起作用。可以根据需要添加新的补充数据,以创建各种其他语音样式。
AWS传福音者朱利安·西蒙(Julien Simon)在博客中写道,使用Neural-Text-To-Speech的基本算法,亚马逊创建了第二个新功能,这是新闻播音员式的声音,使叙事声音在阅读新闻和类似内容时“更加逼真”。发布。
西蒙说:“语音质量当然很重要,但是要使合成语音更加逼真和引人入胜,还可以做更多的工作。” “风格呢?可以肯定的是,人耳可以分辨出新闻广播,体育广播,大学课程等之间的区别;实际上,大多数人在正确的环境中采用正确的言语风格,这无疑有助于传达他们的信息。”
西蒙说,包括《环球邮报》,《大不列颠百科全书》和TIM Media在内的组织已经在使用Polly的新闻广播员风格。该功能也已引入到支持Amazon Alexa的设备中,该设备用于叙述每日新闻简报和类似内容。