声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法。如有转载,请标注来源。

欢迎关注微信公众号:低调奋进

Unified Mandarin TTS Front-end Based on Distilled BERT Model

本文章是华为诺亚方舟实验室在2020.12.31更新的文章,主要做语音合成前端的工作,把韵律预测和多音字消歧进行同时预测,具体的文章链接

https://arxiv.org/pdf/2012.15404.pdf

(语音合成前端的文章真是稀少,阅读起来感觉倍感轻松有趣)

1 研究背景

语音合成前端的主要工作是把输入的内容转换到统一格式的语言特征序列,其中最主要的两个工作是韵律预测PSP:prosodic structure prediction 和G2P: grapheme-to-phoneme,具体实例如图1所示,其中中文的g2p最艰难的任务是多音字消歧,因此本文把韵律预测和多音字消歧工作进行统一建模,使模型大小和预测准确度都得到优化。

2 详细设计

本文使用预训练的中文bert上进行多任务训练,具体如图2所示,对于多音字消歧主要是分类任务,把所有多音字的拼音个数作为分类种类,然后预测概率。韵律预测本文进行统一预测,不再单独预测pw.pph和iph三级预测,具体事例如图3所示。两者训练的loss为公式3,其中α为可调节的超参。

因为bert是计算密集型任务和超大模型,因此本文在预训练的bert上进行知识蒸馏tinyBERT,具体如图4所示,蒸馏过程分为4个步骤,具体为图5所示。1)在预训练的bert上进行蒸馏获取general tinybert; 2)在预训练的bert上使用多音字和韵律语料进行微调获取finetuned bert; 3)从general tinybert上对finetuned bert进行蒸馏为task tinybert;4)对task tinybert进行微调获取多任务的TinyBert-MTL。

3 实验

实验结果多音字准确率,本文的tinyBert-mtl比最好的bert-polyphone稍微差一点,但好于wfst和blstm。韵律预测结果如table 2所示亦是如此。table3和4是使用mlp和blstm对结果影响。最后table显示tinybert的大小比现有的方案的模型大小只有25%,但速度为原来慢了一倍。

4 总结

本文把韵律预测和多音字消歧工作进行统一建模,使模型大小和预测准确度都得到优化。(但优化的模型也有47M,说实话还是挺大的。以前我们做嵌入式,前端模型+声学模型的总的存储开销才是15M,47M很多微小嵌入式设备应该无法使用。当然在手机这些设备上还是没啥问题)

语音合成论文优选:Unified Mandarin TTS Front-end Based on Distilled BERT Model相关推荐

  1. 语音合成论文优选:Efficiently Trainable Text-to-Speech System Based on Deep Convolutional Networks with Guide

    声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Efficiently Trainab ...

  2. 【front-end】Unified Mandarin TTS Front-end Based on Distilled BERT Model

    文章目录 1. 模型结构 1.1 预训练的BERT/TinyBERT 1.2 多音字消歧 1.3 韵律预测 1.4 多任务联合训练 1.5 TinyBERT的蒸馏 2. 实验 2.1 数据和实验配置 ...

  3. 语音合成论文优选:M2voc大赛总结The M2voc Challenge 2021

    声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 The Multi-speaker M ...

  4. 语音合成论文优选:Flavored Tacotron: Conditional Learning for Prosodic-linguistic Features

    声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Flavored Tacotron: ...

  5. 语音合成论文优选:唇语Speaker disentanglement in video-to-speech conversion

    声明:语音合成论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Speaker disentangle ...

  6. 语音合成论文优选:语音合成综述(2021)

    声明:工作以来主要从事TTS工作,平时看些文章做些笔记.文章中难免存在错误的地方,还望大家海涵.平时搜集一些资料,方便查阅学习:TTS 论文列表 http://yqli.tech/page/tts_p ...

  7. 语音合成论文优选:音素韵律控制Prosodic Clustering for Phoneme-level Prosody Control in End-to-End Speech Synthesis

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  8. 语音合成TTS论文优选:A HYBRID TEXT NORMALIZATION SYSTEM USING MULTI-HEAD SELF-ATTENTION FOR MANDARIN

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 A HYBRID TEXT ...

  9. 语音合成(TTS)论文优选:Accent and Speaker Disentanglement in Many-to-many Voice Conversion

    声明:语音合成(TTS)论文优选系列主要分享论文,分享论文不做直接翻译,所写的内容主要是我对论文内容的概括和个人看法.如有转载,请标注来源. 欢迎关注微信公众号:低调奋进 Accent and Spe ...

最新文章

  1. 欢迎来到美多商城!-项目准备之项目介绍-项目需求分析-项目架构设计
  2. js小数运算出现多为小数问题_JS操作小数运算,结果莫名其妙出现多位小数问题...
  3. 安全设置不许可html,快捷指令提示安全性设置不允许不信任怎么办_安全性设置不允许不信任解决办法_咖绿茵手游站...
  4. Android高级控件(二)——SurfaceView实现GIF动画架包,播放GIF动画,自己实现功能的初体现...
  5. Linux学习:gcc 编译其他常用参数
  6. servlet action is not available
  7. dotnet core开发体验之开始MVC
  8. 工业交换机的端口号结构特征
  9. Silverlight+WCF 新手实例 象棋 介绍(一)
  10. 测试奶粉真假的软件,体绝假货!最详尽的奶粉真假辨别方法都在这里!
  11. CocoStudio练习笔记3 - 动画编辑器
  12. 易学入门书籍V8.7版
  13. python打字案例,Python 小案例 打字练习
  14. iOS 【iOS-切换控制器的手段及异同】
  15. 计算机里不显示u盘盘符,U盘不显示盘符怎么办 U盘没了盘符解决方法【详解】...
  16. C语言中的while(y--)什么意思,while(x)什么意思
  17. 1000瓶水其中有一瓶水有毒,有10只老鼠并且只要老鼠喝了有毒的水必死。请问怎样通过一次实验找出有毒的那瓶水。
  18. 科研论文翻译软件|无广告|强力推荐
  19. android 13 热点启动流程
  20. 微信小程序完整精品demo:移动小商城:基于node,包含前后台

热门文章

  1. EtherCAT协议连接调试:一体化伺服电机与欧姆龙PLC (NJ501)
  2. 【k8s】RuoYi-Cloud部署
  3. The Java IAQ: Infrequently Answered Questions (有关Java的不经常被问到的问题)
  4. 太吾绘卷开源代码_请注意代码的来源:开源太多了?
  5. 通过python自动发送测试验收邮件及报告-实现邮件自动发送
  6. ds9 标记并显示指定范围星等
  7. VB编程:DoWhile...Loop当循环计算0~100累加和-15
  8. java adf_Java ADF开发入门-添加命令和工具
  9. 通用旗下Cruise推迟年底前推出自动驾驶出租车服务计划
  10. SATA FPGA IP CORE verilog驱动开发