(以下内容搬运自 PaddleSpeech)

PP-TTS

1. 简介
2. 特性
3. Benchmark
4. 效果展示
5. 使用教程
- 5.1 模型训练与推理优化
- 5.2 语音合成特色应用
- 5.3 语音合成服务搭建

1. 简介

PP-TTS 是 PaddleSpeech 自研的流式语音合成系统。在实现前沿算法的基础上，使用了更快的推理引擎，实现了流式语音合成技术，使其满足商业语音交互场景的需求。

PP-TTS

语音合成基本流程如下图所示：

PP-TTS 默认提供基于 FastSpeech2 声学模型和 HiFiGAN 声码器的中文流式语音合成系统：

文本前端：采用基于规则的中文文本前端系统，对文本正则、多音字、变调等中文文本场景进行了优化。
声学模型：对 FastSpeech2 模型的 Decoder 进行改进，使其可以流式合成
声码器：支持对 GAN Vocoder 的流式合成
推理引擎：使用 ONNXRuntime 推理引擎优化模型推理性能，使得语音合成系统在低压 CPU 上也能达到 RTF<1，满足流式合成的要求

2. 特性

开源领先的中文语音合成系统
使用 ONNXRuntime 推理引擎优化模型推理性能
唯一开源的流式语音合成系统
易拆卸性：可以很方便地更换不同语种上的不同声学模型和声码器、使用不同的推理引擎（Paddle 动态图、PaddleInference 和 ONNXRuntime 等）、使用不同的网络服务（HTTP、Websocket）

3. Benchmark

PaddleSpeech TTS 模型之间的性能对比，请查看 TTS-Benchmark。

4. 效果展示

请参考：Streaming TTS Demo Video

5. 使用教程

5.1 模型训练与推理优化

Default FastSpeech2：tts3/run.sh

流式 FastSpeech2：tts3/run_cnndecoder.sh

HiFiGAN：voc5/run.sh

5.2 语音合成特色应用

一键式实现语音合成：text_to_speech

个性化语音合成 - 基于 FastSpeech2 模型的个性化语音合成：style_fs2

会说话的故事书 - 基于 OCR 和语音合成的会说话的故事书：story_talker

元宇宙 - 基于语音合成的 2D 增强现实：metaverse

5.3 语音合成服务搭建

一键式搭建非流式语音合成服务：speech_server

一键式搭建流式语音合成服务：streaming_tts_server

更多教程，包括模型设计、模型训练、推理部署等，请参考 AIStudio 教程：PP-TTS：流式语音合成原理及服务部署

P.S. 欢迎关注我们的 github repo [PaddleSpeech](https://github.com/PaddlePaddle/PaddleSpeech), 是基于飞桨 PaddlePaddle 的语音方向的开源模型库，用于语音和音频中的各种关键任务的开发，包含大量基于深度学习前沿和有影响力的模型。

PaddleSpeech 流式语音合成系统 PP-TTS相关推荐

GitHub 3.1K，业界首个流式语音合成系统开源！
智能语音技术已经在生活中随处可见,常见的智能应用助手.语音播报.近年来火热的虚拟数字人,这些都有着智能语音技术的身影.智能语音是由语音识别,语音合成,自然语言处理等诸多技术组成的综合型技术,对开发者要 ...
GitHub 3.1K，业界首个流式语音合成系统开源
本文已在飞桨公众号发布,查看链接戳: GitHub 3.1K,业界首个流式语音合成系统开源! 智能语音技术已经在生活中随处可见,常见的智能应用助手.语音播报.近年来火热的虚拟数字人,这些都有着智能语音 ...
PaddleSpeech 流式语音识别系统 PP-ASR
(以下内容搬运自 PaddleSpeech) PP-ASR 目录 1. 简介 2. 特点 3. 使用教程 3.1 预训练模型 3.2 模型训练 3.3 模型推理 3.4 服务部署 3.5 支持个性化场 ...
【飞桨PaddleSpeech语音技术课程】— 流式语音合成技术揭秘与实践
(以下内容搬运自飞桨PaddleSpeech语音技术课程,点击链接可直接运行源码) PP-TTS:流式语音合成原理及服务部署 1 流式语音合成服务的场景与产业应用语音合成(Speech Sysnth ...
非流式语音合成和流式语音合成
语音合成技术:https://zhuanlan.zhihu.com/p/113282101 流式语音合成技术揭秘与实践 1.非流式语音合成,一次性输入文字,一次性输出语音,注重语音合成系统的整体运算 ...
Bootstrap 流式栅格系统
Bootstrap的默认栅格系统没有启用响应式布局,如果加入响应式布局的CSS文件bootstrap-responsive.css,栅格系统会自动根据视口(viewport)宽度,在 724px 到 ...
linux流式访问日志,流式实时日志分析系统的实现原理
我们知道网站用户访问流量是不间断的,基于网站的访问日志,即 Web log 分析是典型的流式实时计算应用场景.比如百度统计,它可以做流量分析.来源分析.网站分析.转化分析.另外还有特定场景分析,比如安 ...
低延迟流式语音识别技术在人机语音交互场景中的实践
美团语音交互部针对交互场景下的低延迟语音识别需求,提出了一种全新的低出字延迟流式语音识别方案.本方法将降低延迟问题转换成一个知识蒸馏过程,极大地简化了延迟优化的难度,仅通过一个正则项损失函数就使得模型 ...
从上往下流式布局_教大家怎么写前端布局
一.静态布局(Static Layout) 1. 布局概念最传统.原始的Web布局设计.网页最外层容器(outer)有固定的大小,所有的内容以该容器为标准,超出宽高的部分用滚动条(overflow: ...

PaddleSpeech 流式语音合成系统 PP-TTS

PP-TTS

1. 简介

PP-TTS

2. 特性

3. Benchmark

4. 效果展示

5. 使用教程

5.1 模型训练与推理优化

5.2 语音合成特色应用

5.3 语音合成服务搭建

PaddleSpeech 流式语音合成系统 PP-TTS相关推荐

最新文章

热门文章