谷歌今天详细介绍了一个名为WaveNetEQ的AI系统,该系统最近已部署到该公司的跨平台语音和视频聊天应用Duo中。
二重奏组可以现实地合成简短的语音片段,以替代因互联网连接不稳定而导致的乱码。它的速度足够快,可以在智能手机上运行,同时提供最先进的,听起来自然的音频质量,为将来针对带宽受限的环境进行了优化的聊天应用程序奠定了基础。
正如Google解释的那样,为了确保可靠的实时通信,有必要处理接收方需要时丢失的数据包(即,格式化的数据单元)。(该公司表示,由于网络问题,有99%的Duo呼叫需要处理网络问题,而有10%的呼叫损失的音频持续时间超过总音频持续时间的8%。)
如果不连续传送新音频,则会出现可听到的小故障和缝隙。会发生,但是重复相同的音频并不理想,因为它会产生伪像并降低总体通话质量。
Google的解决方案WaveNetEQ是所谓的丢包遏制模块,该模块负责创建数据以填补由丢包,过度抖动和其他事故造成的空白。
在结构上,WaveNetEQ是DeepMind的WaveRNN的修改版本,WaveRNN是一种用于语音合成的机器学习模型,由自回归和条件调节网络组成。
自回归网络通过使每个生成的样本取决于网络的先前输出来提供短期和中期语音结构,而调节网络会影响自回归网络以产生与移动速度较慢的输入特征一致的音频。