语音合成论文优选：Unified Mandarin TTS Front-end Based on Distilled BERT Model

声明：语音合成论文优选系列主要分享论文，分享论文不做直接翻译，所写的内容主要是我对论文内容的概括和个人看法。如有转载，请标注来源。

欢迎关注微信公众号：低调奋进

Unified Mandarin TTS Front-end Based on Distilled BERT Model

本文章是华为诺亚方舟实验室在2020.12.31更新的文章，主要做语音合成前端的工作，把韵律预测和多音字消歧进行同时预测，具体的文章链接

https://arxiv.org/pdf/2012.15404.pdf

（语音合成前端的文章真是稀少，阅读起来感觉倍感轻松有趣）

1 研究背景

语音合成前端的主要工作是把输入的内容转换到统一格式的语言特征序列，其中最主要的两个工作是韵律预测PSP：prosodic structure prediction 和G2P: grapheme-to-phoneme，具体实例如图1所示，其中中文的g2p最艰难的任务是多音字消歧，因此本文把韵律预测和多音字消歧工作进行统一建模，使模型大小和预测准确度都得到优化。

2 详细设计

本文使用预训练的中文bert上进行多任务训练，具体如图2所示，对于多音字消歧主要是分类任务，把所有多音字的拼音个数作为分类种类，然后预测概率。韵律预测本文进行统一预测，不再单独预测pw.pph和iph三级预测，具体事例如图3所示。两者训练的loss为公式3，其中α为可调节的超参。

因为bert是计算密集型任务和超大模型，因此本文在预训练的bert上进行知识蒸馏tinyBERT，具体如图4所示，蒸馏过程分为4个步骤，具体为图5所示。1）在预训练的bert上进行蒸馏获取general tinybert; 2)在预训练的bert上使用多音字和韵律语料进行微调获取finetuned bert; 3)从general tinybert上对finetuned bert进行蒸馏为task tinybert；4)对task tinybert进行微调获取多任务的TinyBert-MTL。

3 实验

实验结果多音字准确率，本文的tinyBert-mtl比最好的bert-polyphone稍微差一点，但好于wfst和blstm。韵律预测结果如table 2所示亦是如此。table3和4是使用mlp和blstm对结果影响。最后table显示tinybert的大小比现有的方案的模型大小只有25%，但速度为原来慢了一倍。

4 总结

本文把韵律预测和多音字消歧工作进行统一建模，使模型大小和预测准确度都得到优化。(但优化的模型也有47M，说实话还是挺大的。以前我们做嵌入式，前端模型+声学模型的总的存储开销才是15M，47M很多微小嵌入式设备应该无法使用。当然在手机这些设备上还是没啥问题）

语音合成论文优选：Unified Mandarin TTS Front-end Based on Distilled BERT Model相关推荐

语音合成论文优选：Efficiently Trainable Text-to-Speech System Based on Deep Convolutional Networks with Guide
声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Efficiently Trainab ...
【front-end】Unified Mandarin TTS Front-end Based on Distilled BERT Model
文章目录 1. 模型结构 1.1 预训练的BERT/TinyBERT 1.2 多音字消歧 1.3 韵律预测 1.4 多任务联合训练 1.5 TinyBERT的蒸馏 2. 实验 2.1 数据和实验配置 ...
语音合成论文优选：M2voc大赛总结The M2voc Challenge 2021
声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 The Multi-speaker M ...
语音合成论文优选：Flavored Tacotron: Conditional Learning for Prosodic-linguistic Features
声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Flavored Tacotron: ...
语音合成论文优选：唇语Speaker disentanglement in video-to-speech conversion
声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Speaker disentangle ...
语音合成论文优选：语音合成综述（2021）
声明:工作以来主要从事TTS工作,平时看些文章做些笔记.文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tech/page/tts_p ...
语音合成论文优选:音素韵律控制Prosodic Clustering for Phoneme-level Prosody Control in End-to-End Speech Synthesis
声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...
语音合成TTS论文优选：A HYBRID TEXT NORMALIZATION SYSTEM USING MULTI-HEAD SELF-ATTENTION FOR MANDARIN
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 A HYBRID TEXT ...
语音合成（TTS)论文优选：Accent and Speaker Disentanglement in Many-to-many Voice Conversion
声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Accent and Spe ...

语音合成论文优选：Unified Mandarin TTS Front-end Based on Distilled BERT Model

语音合成论文优选：Unified Mandarin TTS Front-end Based on Distilled BERT Model相关推荐

最新文章

热门文章