语音合成TTS论文优选:A HYBRID TEXT NORMALIZATION SYSTEM USING MULTI-HEAD SELF-ATTENTION FOR MANDARIN
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。
欢迎关注微信公众号:低调奋进
A HYBRID TEXT NORMALIZATION SYSTEM USING MULTI-HEAD SELF-ATTENTION FOR MANDARIN
该文章是字节跳动AI实验室在2020.02.09发表的文章,该文章主要对TTS前端的tn模块进行优化。我们知道中文的前端TN是很琐碎的的东西,很多企业选择使用基于规则的处理方案,本文章在基于规则的方案基础上提出了混合规则和神经网络模型的方案,使tn的准确度更高,具体的文章链接https://arxiv.org/pdf/1911.04128.pdf
1 研究背景
TN(text normalization)的工作主要是把NSW(non-standard words)转成SFW(spoken-form words),用于消除歧义。例如“2020”是按照数据读法还是年月读法?"1:3"读成时间还是比分?“1”是都读“yi1"还是"yao1"?这些情况需要根据该词的上下文来判断。现有处理tn的方案主要有基于规则的方案和基于神经网络的方案。基于规则的方案主要通过正则表达式来进行匹配,该方案需要大量的实例来进行测试,主要特点是处理灵活但不便于优化提高准确度。基于神经网络的方案则可能造成不可逆的错误(目前很多公司还是基于规则,优化TTS前端工作相对后端来说还是很少)。为解决以上问题,本文提出了基于规则和神经网络混合的解决方案。
2 详细的系统结构
本文的详细结构如图1所示,本文把数字和符号相关NSW使用神经网络进行处理分类,其余的NSW例如缩写等使用规则进行处理。Neural TN model只进行分类判断,例如”2020“是按照何种方式来读,该模型的结构如图2所示的multi-head的结构。neural model产生的输出还需要使用正则进行判断是否与预测的pattern匹配,如果不匹配则还需要使用规则进行处理,匹配则进行SFW转换,由此提高TN的准确度。
由图3可知,训练模型的pattern数据分布严重不均衡,为了处理数据不均衡,本文提出了以下的LOSS函数。
3 实验结果
本文实验很简单,主要对比本文提出方案的准确度提升,这里看图表很容易看出本方案提高了1%,不做详细介绍。
4 总结
本文的工作是对TTS前端TN模块进行优化,提出基于规则和神经模型混合方案,其中神经模型主要对NSW进行pattern分类,整体提升1%。(前端工作很繁琐,费事费力,提高不是太明显)
语音合成TTS论文优选:A HYBRID TEXT NORMALIZATION SYSTEM USING MULTI-HEAD SELF-ATTENTION FOR MANDARIN相关推荐
- 论文阅读——A HYBRID TEXT NORMALIZATION SYSTEM USING MULTI-HEAD SELF-ATTENTION FOR MANDARIN
文章目录 0. 摘要 1. 介绍 2. 方法 2.1 基于规则的文本标准化(TN)模型 2.2 本文提出的混合TN模型 2.3 训练和推理 3. 实验 3.1 训练数据集 3.2 系统配置 3.3 模 ...
- 语音合成(TTS)论文优选:Accent and Speaker Disentanglement in Many-to-many Voice Conversion
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Accent and Spe ...
- 语音合成(TTS)论文优选:End-to-End Code-Switching TTS with Cross-Lingual Language Model
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 End-to-End Cod ...
- 语音合成(TTS)论文优选:Location-Relative Attention Mechanisms for Robust Long-Form Speech Synthesis
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Location-Relat ...
- 语音合成(TTS论文优选:VocGAN: A High-Fidelity Real-time Vocoder with a Hierarchically-nested Adversarial Netw
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 VocGAN: A High ...
- 语音合成(TTS)论文优选:ByteSing: A Chinese Singing Voice Synthesis System Using Duration Allocated Encoder-De
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 ByteSing: A Ch ...
- 语音合成论文优选:Efficiently Trainable Text-to-Speech System Based on Deep Convolutional Networks with Guide
声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Efficiently Trainab ...
- 语音合成 | 精选论文汇总(197篇)
语音合成 | 精选论文汇总(197篇) 本文为大家整理了语音合成相关论文197篇,共分为12部分,分类如下: (转至文末链接,免费获取源码链接及PDF版论文) Journal and confere ...
- 语音信号处理(DSP)论文优选:Interactive Modeling for Speech Enhancement
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Interactive Sp ...
最新文章
- 66 Airflow安装与部署
- 4g通信模块怎么连接sim卡_你好eSIM,再见SIM卡
- Apple 的CEO 吹响了战斗的号角啦!
- Shell入门(一)之简介
- 单模光纤收发器产品介绍及常见分类方式
- 一篇文章了解架构师能力模型
- 2、运行WordCount程序
- Boost笔记--Thread--Ubuntu上初次使用时遇到的问题
- 【备忘录】创建自己的消息映射
- 华为机试-字符串通配符
- android利用socket与java后台交互的设计与实现
- ubuntu + gcc-linaro-交叉编译环境搭建
- linux /etc/profile文件,linux系统中/etc/profile和.profile的介绍
- 第一款个人应用——《不做手机控》——终于上线啦!
- 计算机中专实训方案,中职学校计算机专业实训模式初探
- 软工专硕考研_03 2018年考研经验贴:西安交通大学软件工程专硕
- 微软 Build 2016年开发者大会发布多项功能升级
- IasS,CasS,PasS,SasS的区别
- /id_xndu5otm2mdq0.html,index.html
- centos安装python3.8.1_centos6.6下安装python3.8.1后报错?
热门文章
- 基于EasyPOI的使用导出Excel
- 微信H5视频抓娃娃,没你想的那么难,看完你也会
- 如何储存拨发带分机号的电话
- 告别3D-DNA试试chromap和yahs做Hi-C辅助组装吧
- 自动驾驶中常见的位姿表示和坐标系问题
- usb接口供电不足_电脑USB不够用(或坏掉)怎么办?桌面 USB HUB(集线器)来帮你...
- 软件测试常见的智力题
- 第十一届国际分子模拟与人工智能应用学术会议 (2023-ICMSAI)
- 如何解决 conda install 库时报错:The environment is inconsistent, please check the package plan carefully
- 龙芯linux安装checkinstall方法