PaddleSpeech 流式语音合成系统 PP-TTS
(以下内容搬运自 PaddleSpeech)
PP-TTS
- 1. 简介
- 2. 特性
- 3. Benchmark
- 4. 效果展示
- 5. 使用教程
- 5.1 模型训练与推理优化
- 5.2 语音合成特色应用
- 5.3 语音合成服务搭建
1. 简介
PP-TTS 是 PaddleSpeech 自研的流式语音合成系统。在实现前沿算法的基础上,使用了更快的推理引擎,实现了流式语音合成技术,使其满足商业语音交互场景的需求。
PP-TTS
语音合成基本流程如下图所示:
PP-TTS 默认提供基于 FastSpeech2 声学模型和 HiFiGAN 声码器的中文流式语音合成系统:
- 文本前端:采用基于规则的中文文本前端系统,对文本正则、多音字、变调等中文文本场景进行了优化。
- 声学模型:对 FastSpeech2 模型的 Decoder 进行改进,使其可以流式合成
- 声码器:支持对 GAN Vocoder 的流式合成
- 推理引擎:使用 ONNXRuntime 推理引擎优化模型推理性能,使得语音合成系统在低压 CPU 上也能达到 RTF<1,满足流式合成的要求
2. 特性
- 开源领先的中文语音合成系统
- 使用 ONNXRuntime 推理引擎优化模型推理性能
- 唯一开源的流式语音合成系统
- 易拆卸性:可以很方便地更换不同语种上的不同声学模型和声码器、使用不同的推理引擎(Paddle 动态图、PaddleInference 和 ONNXRuntime 等)、使用不同的网络服务(HTTP、Websocket)
3. Benchmark
PaddleSpeech TTS 模型之间的性能对比,请查看 TTS-Benchmark。
4. 效果展示
请参考:Streaming TTS Demo Video
5. 使用教程
5.1 模型训练与推理优化
Default FastSpeech2:tts3/run.sh
流式 FastSpeech2:tts3/run_cnndecoder.sh
HiFiGAN:voc5/run.sh
5.2 语音合成特色应用
一键式实现语音合成:text_to_speech
个性化语音合成 - 基于 FastSpeech2 模型的个性化语音合成:style_fs2
会说话的故事书 - 基于 OCR 和语音合成的会说话的故事书:story_talker
元宇宙 - 基于语音合成的 2D 增强现实:metaverse
5.3 语音合成服务搭建
一键式搭建非流式语音合成服务:speech_server
一键式搭建流式语音合成服务:streaming_tts_server
更多教程,包括模型设计、模型训练、推理部署等,请参考 AIStudio 教程:PP-TTS:流式语音合成原理及服务部署
P.S. 欢迎关注我们的 github repo [PaddleSpeech](https://github.com/PaddlePaddle/PaddleSpeech), 是基于飞桨 PaddlePaddle 的语音方向的开源模型库,用于语音和音频中的各种关键任务的开发,包含大量基于深度学习前沿和有影响力的模型。
PaddleSpeech 流式语音合成系统 PP-TTS相关推荐
- GitHub 3.1K,业界首个流式语音合成系统开源!
智能语音技术已经在生活中随处可见,常见的智能应用助手.语音播报.近年来火热的虚拟数字人,这些都有着智能语音技术的身影.智能语音是由语音识别,语音合成,自然语言处理等诸多技术组成的综合型技术,对开发者要 ...
- GitHub 3.1K,业界首个流式语音合成系统开源
本文已在飞桨公众号发布,查看链接戳: GitHub 3.1K,业界首个流式语音合成系统开源! 智能语音技术已经在生活中随处可见,常见的智能应用助手.语音播报.近年来火热的虚拟数字人,这些都有着智能语音 ...
- PaddleSpeech 流式语音识别系统 PP-ASR
(以下内容搬运自 PaddleSpeech) PP-ASR 目录 1. 简介 2. 特点 3. 使用教程 3.1 预训练模型 3.2 模型训练 3.3 模型推理 3.4 服务部署 3.5 支持个性化场 ...
- 【飞桨PaddleSpeech语音技术课程】— 流式语音合成技术揭秘与实践
(以下内容搬运自飞桨PaddleSpeech语音技术课程,点击链接可直接运行源码) PP-TTS:流式语音合成原理及服务部署 1 流式语音合成服务的场景与产业应用 语音合成(Speech Sysnth ...
- 非流式语音合成和流式语音合成
语音合成技术:https://zhuanlan.zhihu.com/p/113282101 流式语音合成技术揭秘与实践 1.非流式语音合成,一次性输入文字,一次性输出语音,注重语音合成系统的 整体运算 ...
- Bootstrap 流式栅格系统
Bootstrap的默认栅格系统没有启用响应式布局,如果加入响应式布局的CSS文件bootstrap-responsive.css,栅格系统会自动根据视口(viewport)宽度,在 724px 到 ...
- linux流式访问日志,流式实时日志分析系统的实现原理
我们知道网站用户访问流量是不间断的,基于网站的访问日志,即 Web log 分析是典型的流式实时计算应用场景.比如百度统计,它可以做流量分析.来源分析.网站分析.转化分析.另外还有特定场景分析,比如安 ...
- 低延迟流式语音识别技术在人机语音交互场景中的实践
美团语音交互部针对交互场景下的低延迟语音识别需求,提出了一种全新的低出字延迟流式语音识别方案.本方法将降低延迟问题转换成一个知识蒸馏过程,极大地简化了延迟优化的难度,仅通过一个正则项损失函数就使得模型 ...
- 从上往下 流式布局_教大家怎么写前端布局
一.静态布局(Static Layout) 1. 布局概念 最传统.原始的Web布局设计.网页最外层容器(outer)有固定的大小,所有的内容以该容器为标准,超出宽高的部分用滚动条(overflow: ...
最新文章
- 开启注册丨NeurlPS 2021论文预讲会议题全公开,4大主题和25场报告等你来
- 基于Springboot实现校友录管理系统
- 实例讲解js中的预编译
- Dynamics2011中Attachment的区别
- 《能源专业的展望及其未来择业方向的分析》
- [ BZOJ 4668 ] 冷战
- 操作系统Ubuntu(实验三四)
- 苹果笔记本电脑亮度无法调节_苹果MacBook AirM1评测:M1芯片给您不一样的体验
- 数据的实操与测试|附代码(全了)
- 十个C语言项目,从小白到月入10K
- 较为容易理解的MUSIC算法DOA估计
- 北京交通大学离散数学 谓词逻辑_【精选】离散数学习题解答-第3章谓词逻辑.pdf...
- SpringBoot 通用项目配置
- 系统故障等级和故障报告规定
- 饭饭的零基础神经网络学习笔记——python,numpy,scipy,matplotlib简明教程
- java中sof是什么意思_SOF是什么意思
- linux亮度调节指令,Linux Mint 亮度调节——xrandr命令学习
- 【分布式】psutil cpu_percent如何使用;python如何测试cpu的使用率
- 授权公众号第三方平台和开发者模式冲突吗?
- 微信小程序闭环处理 App -- 小程序 -- 企业微信 + 公众号
热门文章
- Lzma(7-zip) SDK LzmaCompress 使用心得
- Day21 - Web前端概述
- 8-Arm PEG-Epoxide,八臂聚乙二醇环氧基,8-Arm-PEG-EP
- [MODIS数据处理#8]批量将ET栅格的时间分辨率从8-day转换为monthly的一种思路
- 苹果手机左上角的数字怎么弄_出了新朋友,莫忘老朋友,苹果Macbook这款小键盘能让你键步如飞...
- 与计算机科学有关的论文,有关计算机科学论文范文2篇
- python mysql连接池 知乎_使用python脚本部署mariadb主从架构
- mysql5.7驱动(tableau,excel)
- 超详细的MySQL8.0.20安装教程及其安装问题处理
- qc35 说明书_教你Bose QC35耳机的使用方法