CCF发布2019

2024-07-13 05:39| 来源: 网络整理| 查看: 265

序列到序列语音合成技术近年来得到了广泛的关注，本文主要介绍该技术的国内外研究进展和发展方向。基于注意力机制的序列到序列神经网络模型实现了机器翻译中不等长的源、目标语言文本序列之间的直接映射。受此启发，序列到序列语音合成模型通过注意力机制实现文本与语音的隐式对齐和映射，提升了语音合成的自然度。与机器翻译不同的是，语音合成中语音声学参数序列对文本序列的对应是严格单调的，然而不加限制的隐式时长模型建模会造成文本和语音对齐的误差，导致合成的性能受损。为提高序列到序列语音合成模型的稳定性，多种注意力机制被提出以更好地学习语音与文本之间的对齐，保证语音合成中声学参数序列生成时相对于文本序列的单调性、局部性。个性化、表现力语音合成对扩展智能语音交互场景具有重要意义，序列到序列神经网络模型较好的可扩展性为语音合成模型的个性化、高表现力、可控语音生成提供了可能。通过采用无监督学习、迁移学习的方法可实现对语音副语言信息的建模，进而实现序列到序列个性化、表现力语音生成。从理论及实际应用的角度来说，序列到序列语音合成仍有较大的提升空间：融合前端文本分析、后端语音波形信号恢复的完全端到端的语音合成模型将是未来重要的研究方向；在序列到序列合成模型中通过多种影响因子（副语言信息）的解耦合表征建模，提高语音生成过程中相关因子表达的可控性，对于实现更加灵活的个性化语音合成有重要意义；通过减少序列到序列语音合成模型的训练对于数据量及数据质量的依赖、降低模型的计算量来进一步提升模型的可用性，对于实现序列到序列语音合成技术在实际场景中的应用落地有重要意义。

【本文地址】

公司简介

联系我们