语音合成TTS论文优选：A HYBRID TEXT NORMALIZATION SYSTEM USING MULTI-HEAD SELF-ATTENTION FOR MANDARIN

声明：语音合成（TTS)论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。

欢迎关注微信公众号：低调奋进

A HYBRID TEXT NORMALIZATION SYSTEM USING MULTI-HEAD SELF-ATTENTION FOR MANDARIN

该文章是字节跳动AI实验室在2020.02.09发表的文章，该文章主要对TTS前端的tn模块进行优化。我们知道中文的前端TN是很琐碎的的东西，很多企业选择使用基于规则的处理方案，本文章在基于规则的方案基础上提出了混合规则和神经网络模型的方案，使tn的准确度更高，具体的文章链接https://arxiv.org/pdf/1911.04128.pdf

1 研究背景

TN（text normalization)的工作主要是把NSW(non-standard words)转成SFW(spoken-form words)，用于消除歧义。例如“2020”是按照数据读法还是年月读法？"1:3"读成时间还是比分？“1”是都读“yi1"还是"yao1"?这些情况需要根据该词的上下文来判断。现有处理tn的方案主要有基于规则的方案和基于神经网络的方案。基于规则的方案主要通过正则表达式来进行匹配，该方案需要大量的实例来进行测试，主要特点是处理灵活但不便于优化提高准确度。基于神经网络的方案则可能造成不可逆的错误（目前很多公司还是基于规则，优化TTS前端工作相对后端来说还是很少）。为解决以上问题，本文提出了基于规则和神经网络混合的解决方案。

2 详细的系统结构

本文的详细结构如图1所示，本文把数字和符号相关NSW使用神经网络进行处理分类，其余的NSW例如缩写等使用规则进行处理。Neural TN model只进行分类判断，例如”2020“是按照何种方式来读，该模型的结构如图2所示的multi-head的结构。neural model产生的输出还需要使用正则进行判断是否与预测的pattern匹配，如果不匹配则还需要使用规则进行处理，匹配则进行SFW转换，由此提高TN的准确度。

由图3可知，训练模型的pattern数据分布严重不均衡，为了处理数据不均衡，本文提出了以下的LOSS函数。

3 实验结果

本文实验很简单，主要对比本文提出方案的准确度提升，这里看图表很容易看出本方案提高了1%，不做详细介绍。

4 总结

本文的工作是对TTS前端TN模块进行优化，提出基于规则和神经模型混合方案，其中神经模型主要对NSW进行pattern分类，整体提升1%。（前端工作很繁琐，费事费力，提高不是太明显）

语音合成TTS论文优选：A HYBRID TEXT NORMALIZATION SYSTEM USING MULTI-HEAD SELF-ATTENTION FOR MANDARIN相关推荐

论文阅读——A HYBRID TEXT NORMALIZATION SYSTEM USING MULTI-HEAD SELF-ATTENTION FOR MANDARIN
文章目录 0. 摘要 1. 介绍 2. 方法 2.1 基于规则的文本标准化(TN)模型 2.2 本文提出的混合TN模型 2.3 训练和推理 3. 实验 3.1 训练数据集 3.2 系统配置 3.3 模 ...
语音合成（TTS)论文优选：Accent and Speaker Disentanglement in Many-to-many Voice Conversion
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Accent and Spe ...
语音合成（TTS)论文优选：End-to-End Code-Switching TTS with Cross-Lingual Language Model
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 End-to-End Cod ...
语音合成（TTS)论文优选：Location-Relative Attention Mechanisms for Robust Long-Form Speech Synthesis
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Location-Relat ...
语音合成（TTS论文优选：VocGAN: A High-Fidelity Real-time Vocoder with a Hierarchically-nested Adversarial Netw
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 VocGAN: A High ...
语音合成（TTS)论文优选：ByteSing: A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-De
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 ByteSing: A Ch ...
语音合成论文优选：Efficiently Trainable Text-to-Speech System Based on Deep Convolutional Networks with Guide
声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Efficiently Trainab ...
语音合成 | 精选论文汇总（197篇）
语音合成 | 精选论文汇总(197篇) 本文为大家整理了语音合成相关论文197篇,共分为12部分,分类如下: (转至文末链接,免费获取源码链接及PDF版论文) Journal and confere ...
语音信号处理（DSP）论文优选：Interactive Modeling for Speech Enhancement
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Interactive Sp ...

语音合成TTS论文优选：A HYBRID TEXT NORMALIZATION SYSTEM USING MULTI-HEAD SELF-ATTENTION FOR MANDARIN

语音合成TTS论文优选：A HYBRID TEXT NORMALIZATION SYSTEM USING MULTI-HEAD SELF-ATTENTION FOR MANDARIN相关推荐

最新文章

热门文章