(以下内容搬运自 PaddleSpeech)

PP-TTS

  • 1. 简介
  • 2. 特性
  • 3. Benchmark
  • 4. 效果展示
  • 5. 使用教程
    • 5.1 模型训练与推理优化
    • 5.2 语音合成特色应用
    • 5.3 语音合成服务搭建

1. 简介

PP-TTS 是 PaddleSpeech 自研的流式语音合成系统。在实现前沿算法的基础上,使用了更快的推理引擎,实现了流式语音合成技术,使其满足商业语音交互场景的需求。

PP-TTS

语音合成基本流程如下图所示:

PP-TTS 默认提供基于 FastSpeech2 声学模型和 HiFiGAN 声码器的中文流式语音合成系统:

  • 文本前端:采用基于规则的中文文本前端系统,对文本正则、多音字、变调等中文文本场景进行了优化。
  • 声学模型:对 FastSpeech2 模型的 Decoder 进行改进,使其可以流式合成
  • 声码器:支持对 GAN Vocoder 的流式合成
  • 推理引擎:使用 ONNXRuntime 推理引擎优化模型推理性能,使得语音合成系统在低压 CPU 上也能达到 RTF<1,满足流式合成的要求

2. 特性

  • 开源领先的中文语音合成系统
  • 使用 ONNXRuntime 推理引擎优化模型推理性能
  • 唯一开源的流式语音合成系统
  • 易拆卸性:可以很方便地更换不同语种上的不同声学模型和声码器、使用不同的推理引擎(Paddle 动态图、PaddleInference 和 ONNXRuntime 等)、使用不同的网络服务(HTTP、Websocket)

3. Benchmark

PaddleSpeech TTS 模型之间的性能对比,请查看 TTS-Benchmark。

4. 效果展示

请参考:Streaming TTS Demo Video

5. 使用教程

5.1 模型训练与推理优化

Default FastSpeech2:tts3/run.sh

流式 FastSpeech2:tts3/run_cnndecoder.sh

HiFiGAN:voc5/run.sh

5.2 语音合成特色应用

一键式实现语音合成:text_to_speech

个性化语音合成 - 基于 FastSpeech2 模型的个性化语音合成:style_fs2

会说话的故事书 - 基于 OCR 和语音合成的会说话的故事书:story_talker

元宇宙 - 基于语音合成的 2D 增强现实:metaverse

5.3 语音合成服务搭建

一键式搭建非流式语音合成服务:speech_server

一键式搭建流式语音合成服务:streaming_tts_server

更多教程,包括模型设计、模型训练、推理部署等,请参考 AIStudio 教程:PP-TTS:流式语音合成原理及服务部署

P.S. 欢迎关注我们的 github repo [PaddleSpeech](https://github.com/PaddlePaddle/PaddleSpeech), 是基于飞桨 PaddlePaddle 的语音方向的开源模型库,用于语音和音频中的各种关键任务的开发,包含大量基于深度学习前沿和有影响力的模型。

PaddleSpeech 流式语音合成系统 PP-TTS相关推荐

  1. GitHub 3.1K,业界首个流式语音合成系统开源!

    智能语音技术已经在生活中随处可见,常见的智能应用助手.语音播报.近年来火热的虚拟数字人,这些都有着智能语音技术的身影.智能语音是由语音识别,语音合成,自然语言处理等诸多技术组成的综合型技术,对开发者要 ...

  2. GitHub 3.1K,业界首个流式语音合成系统开源

    本文已在飞桨公众号发布,查看链接戳: GitHub 3.1K,业界首个流式语音合成系统开源! 智能语音技术已经在生活中随处可见,常见的智能应用助手.语音播报.近年来火热的虚拟数字人,这些都有着智能语音 ...

  3. PaddleSpeech 流式语音识别系统 PP-ASR

    (以下内容搬运自 PaddleSpeech) PP-ASR 目录 1. 简介 2. 特点 3. 使用教程 3.1 预训练模型 3.2 模型训练 3.3 模型推理 3.4 服务部署 3.5 支持个性化场 ...

  4. 【飞桨PaddleSpeech语音技术课程】— 流式语音合成技术揭秘与实践

    (以下内容搬运自飞桨PaddleSpeech语音技术课程,点击链接可直接运行源码) PP-TTS:流式语音合成原理及服务部署 1 流式语音合成服务的场景与产业应用 语音合成(Speech Sysnth ...

  5. 非流式语音合成和流式语音合成

    语音合成技术:https://zhuanlan.zhihu.com/p/113282101 流式语音合成技术揭秘与实践 1.非流式语音合成,一次性输入文字,一次性输出语音,注重语音合成系统的 整体运算 ...

  6. Bootstrap 流式栅格系统

    Bootstrap的默认栅格系统没有启用响应式布局,如果加入响应式布局的CSS文件bootstrap-responsive.css,栅格系统会自动根据视口(viewport)宽度,在 724px 到 ...

  7. linux流式访问日志,流式实时日志分析系统的实现原理

    我们知道网站用户访问流量是不间断的,基于网站的访问日志,即 Web log 分析是典型的流式实时计算应用场景.比如百度统计,它可以做流量分析.来源分析.网站分析.转化分析.另外还有特定场景分析,比如安 ...

  8. 低延迟流式语音识别技术在人机语音交互场景中的实践

    美团语音交互部针对交互场景下的低延迟语音识别需求,提出了一种全新的低出字延迟流式语音识别方案.本方法将降低延迟问题转换成一个知识蒸馏过程,极大地简化了延迟优化的难度,仅通过一个正则项损失函数就使得模型 ...

  9. 从上往下 流式布局_教大家怎么写前端布局

    一.静态布局(Static Layout) 1. 布局概念 最传统.原始的Web布局设计.网页最外层容器(outer)有固定的大小,所有的内容以该容器为标准,超出宽高的部分用滚动条(overflow: ...

最新文章

  1. 开启注册丨NeurlPS 2021论文预讲会议题全公开,4大主题和25场报告等你来
  2. 基于Springboot实现校友录管理系统
  3. 实例讲解js中的预编译
  4. Dynamics2011中Attachment的区别
  5. 《能源专业的展望及其未来择业方向的分析》
  6. [ BZOJ 4668 ] 冷战
  7. 操作系统Ubuntu(实验三四)
  8. 苹果笔记本电脑亮度无法调节_苹果MacBook AirM1评测:M1芯片给您不一样的体验
  9. 数据的实操与测试|附代码(全了)
  10. 十个C语言项目,从小白到月入10K
  11. 较为容易理解的MUSIC算法DOA估计
  12. 北京交通大学离散数学 谓词逻辑_【精选】离散数学习题解答-第3章谓词逻辑.pdf...
  13. SpringBoot 通用项目配置
  14. 系统故障等级和故障报告规定
  15. 饭饭的零基础神经网络学习笔记——python,numpy,scipy,matplotlib简明教程
  16. java中sof是什么意思_SOF是什么意思
  17. linux亮度调节指令,Linux Mint 亮度调节——xrandr命令学习
  18. 【分布式】psutil cpu_percent如何使用;python如何测试cpu的使用率
  19. 授权公众号第三方平台和开发者模式冲突吗?
  20. 微信小程序闭环处理 App -- 小程序 -- 企业微信 + 公众号

热门文章

  1. Lzma(7-zip) SDK LzmaCompress 使用心得
  2. Day21 - Web前端概述
  3. 8-Arm PEG-Epoxide,八臂聚乙二醇环氧基,8-Arm-PEG-EP
  4. [MODIS数据处理#8]批量将ET栅格的时间分辨率从8-day转换为monthly的一种思路
  5. 苹果手机左上角的数字怎么弄_出了新朋友,莫忘老朋友,苹果Macbook这款小键盘能让你键步如飞...
  6. 与计算机科学有关的论文,有关计算机科学论文范文2篇
  7. python mysql连接池 知乎_使用python脚本部署mariadb主从架构
  8. mysql5.7驱动(tableau,excel)
  9. 超详细的MySQL8.0.20安装教程及其安装问题处理
  10. qc35 说明书_教你Bose QC35耳机的使用方法