0. 题目

CONVERSATIONAL END-TO-END TTS FOR VOICE AGENTS

语音代理的会话式端到端TTS

1. 摘要

端到端神经TTS在阅读风格语音合成方面取得了出色的表现。但是，由于语料库和建模能力的限制，构建高质量的会话式TTS仍然是一个挑战。这项研究的目的是在序列到序列建模框架下为语音代理建立对话式TTS。首先，我们采用一种新的录音方案来构建一个非常适合语音代理的自发性对话语音语料库，以确保录音质量和对话风格。其次，我们提出了一种会话上下文感知的端到端TTS方法，该方法采用了辅助编码器和会话上下文编码器来专门增强会话中当前话语及其上下文的信息。实验结果表明，所提出的方法根据会话上下文产生了更自然的韵律，在话语级和会话级均具有明显的偏好增益。此外，我们发现该模型具有表达某些自发行为的能力，例如填充词和重复单词，这使得会话说话的风格更加逼真

关键词: Text-to-Speech, End-to-End, Conversational TTS, Speech Corpus, Voice Agent

文本到语音，端到端，会话TTS，语音语料库，语音代理

2. 简介

文本语音转换（TTS）在人机对话中扮演着越来越重要的角色[1]，使机器能够与用户对话。但是，现有的TTS技术在面向会话的任务中仍然无法获得令人满意的性能和沉浸式体验。它仍然希望具有更人性化的自然语言，并具有适应特定对话环境的对话式讲话风格。为了构建高质量的会话TTS系统，至少需要解决两个问题：1）开发会话语音语料库的有效方法，以及2）在会话中捕获丰富韵律的高性能高表现力TTS模型

标准语料库通常由精心设计的文本和高质量的录音。这种语料库主要要求说话者以一致的阅读方式说出每个话语。因此，在该记录方案下，说话者难以阅读具有自然的会话风格韵律的上下文感知的会话记录。在[2]中，语料库是通过让两个说话者自由地讨论一个话题来呈现真正的自发性对话说话风格而建立的。但这还会带来其他问题，例如发音不清晰，韵律过度和背景噪音，可能会加重数据注释和建模的难度。为了缓解这些问题，本文提出了一种构建自发会话语料库的新方案，该方案包括三个步骤：场景和对话设计，表演形式的录制和转录。通过结合文献[2]中的阅读风格记录方案和自由交谈方案，建立具有清晰发音，高音质和自发会话风格的会话语料库变得更加有效

会话语料库具有以下显着特征韵律种类繁多，上下文相关性强。而且，由于上述收集和注释的困难，语料库通常具有较小的大小。我们需要丰富的文本功能和高性能的模型来构建会话式TTS系统。先前的大多数研究都是基于基于HMM或基于DNN的统计参数语音合成（SPSS）[3]，它们利用了与会话相关的复杂标签，例如语音或对话行为[4]和扩展上下文[5]，以直接提供丰富的文本信息以补偿其有限的建模能力。但是，昂贵的标签成本和不完整的对话表示使构建高表现力的对话TTS变得更加困难。为避免这些问题，在本文中，我们基于最新的序列到序列（seq2seq）模型，提出了一种新的会话上下文感知TTS方法。基于seq2seq范例的端到端TTS [6、7、8、9、10]最近展示了强大的建模能力，可以直接从字符或音素序列合成自然语音。这带来了放弃常规复杂标签的可能性。此外，我们引入了辅助编码器，通过从BERT嵌入和语法结构上的统计特征中提取更多有用的潜在语义和句法特征，来帮助产生更好的韵律。此外，与传统的对话TTS不同，我们直接使用对话上下文编码器从聊天历史中提取与韵律相关的信息，该信息由一系列话语级BERT嵌入表示

本文将首先介绍我们的新录音方案自发会话语音语料库，并以此方式开发了中文语音代理语料库。然后，我们详细描述了我们提出的会话上下文感知的端到端TTS系统，包括端到端模型，辅助编码器和会话上下文编码器。最后，我们使用包含客户与代理商之间典型对话的测试集进行CMOS测试，以评估我们的方法在话语级别和对话级别上的性能。实验结果表明，辅助编码器和会话上下文编码器都可以有效地提高自然性。此外，我们发现该模型具有表达某些自发行为的能力，例如填充词和重复单词，从而使对话的说话风格更加逼真

3. 其他-容易懂

辅助编码器使用BERT嵌入及以上统计特征以表示句子中的每个字符

由于BERT可用于提取单词嵌入和句子嵌入，因此我们仍然使用它来提取句子表示

4. 其他-不容易懂

模型细节

训练细节

实验对比

没细看

SLT2021: CONVERSATIONAL END-TO-END TTS FOR VOICE AGENTS相关推荐

Subdomain of Voice Synsthesis 声音合成简介
声音合成子领域 1. TTS: Text-to-Speech 文字转语音,比如特朗普讲中文,需要利用声音的频谱特征训练. 2. SVS: Singing Voice Synthesis 歌声合成,更有 ...
语音合成 - TTS pyttsx3
目录 1. 简单介绍 2. 代码示例 1. 简单介绍 pyttsx3 · PyPIText to Speech (TTS) library for Python 2 and 3. Works with ...
10万视频，所有面部图像均获授权，Facebook创建大规模Deepfake数据集
本文经授权转载自机器之心(almosthuman2014),未经授权禁止二次转载与摘编. 本文约6000字,建议阅读10+分钟 DFDC数据集是目前最大的公开可用换脸视频数据集. [ 摘要 ]前不久, ...
10万视频，所有图像均获授权，Facebook创建大规模Deepfake数据集
2020-06-22 13:00:11 前不久,Facebook 主办的 Deepfake 检测挑战赛(DFDC)落下帷幕.近日,Facebook撰文介绍了其构建的大规模 Deepfake 数据集 D ...
爱奇艺谢丹铭：用AI让创作者提升效率，让消费者简单快乐丨MEET2021
编辑部整理自 MEET 2021 量子位报道 | 公众号 QbitAI AI技术,究竟能在哪些行业实现规模化应用? 这是视频行业面对AI浪潮,交出的一份答卷: 素材智能检索.老电影修复.音色克隆. ...
我如何在20小时内为AWS ML专业课程做好准备并进行破解
I am a great fan of how Tesla is executing the problem of gathering data from the fleet of cars to t ...
天猫精灵 python 控制_树莓派4B小爱同学、天猫精灵、智能音箱、百度语音极速版、百度语音标准版、语音识别、语音合成终极方案...
来源:树莓派创客空间 https:/r-pi.cn,里面更多教程第一句话,python2版本的代码,python3你改改就完事了第一句话,python2版本的代码,python3你改改就完事了流 ...
树莓派小爱同学、天猫精灵、智能音箱、百度语音极速版、百度语音标准版、语音识别、语音合成终极方案
第一句话,python2版本的代码,python3你改改就完事了流程图如下: 全套教程下载地址点击下载首先需要调用这个方法安装百度的语音识别 https://ai.baidu.com/ai-doc ...
第十二章 HTTAPI – FreeSWITCH向Webserver寻问下一步操作
HTTAPI允许FreeSWITCH向webserver询问如何处理呼叫,还可以在执行之后再次询问.因此,它实际上是一种高层次的动态协议,FreeSWITCH向webserver发送呼叫的所有相关信息 ...
英语二语者韵律的评估
最近写了一篇比较枯燥的简介,要有耐心看完哦. 评估二语者的英语一般从两个角度进行评估:1.音段内容2.超音段内容.其中音段内容主要包括音素.词语.句子的发音,超音段内容一般又称为韵律相关的内容.这篇博 ...

SLT2021: CONVERSATIONAL END-TO-END TTS FOR VOICE AGENTS