【腾讯TMQ】【AI专栏】语音合成系统评测介绍
前言
语音合成(Text To Speech,TTS)技术将文本转化为声音,目前广泛应用于语音助手、智能音箱、地图导航等场景。TTS的实现涉及语言学、语音学的诸多复杂知识,因实现细节的不同,TTS系统合成的语音在准确性、自然度、清晰度、连贯性等方面也有着不一样的表现,如何从多维度评价TTS系统质量成了TTS测试人员的一大挑战。本文针对TTS前端、后端的问题介绍了一种包括主观评测、客观评测TTS测试方法。
一、前端后端问题
当前典型的TTS系统可分为前端、后端两部分,前端完成输入文本的归一化、分词、发音预测、韵律结构预测的处理,后端对声音建模,通过学习得到声音参数,最后由声码器合成声音。
由于自然语言本身的复杂性和开放性,前端处理部分难度较大,难以覆盖所有情况,可能引入的问题举例如下:
1、发音错误。汉语中的多音字、数字、专有名词根据上下文的不同,发音也不一样,训练语料的覆盖不全,会导致合成的语音中部分字词的发音错误。另外现在国际化背景下,各类中英混合语料、缩略词、符号的存在,也为发音预测带来了巨大挑战。
2、声调不准。中文在实际口语发音时,存在一系列复杂的的变调规则,如一/不变调,上声变调等。这类规则的处理不当会导致合成的语音与平时发音习惯不符,听来怪异。
3、韵律异常。前端通过语法词分词、韵律词分词、断句等方式在文本中插入不同程度的停顿,通过时长预测控制字词的发音时长。分词、断句的错误会引起合成语音时的错误停顿,听起来节奏不当。
后端通过声音参数和声码器(WaveNet不在此列)合成语音波形,实际实现过程中无论是声音参数的选择,还是声码器的设计都是对真实发音过程的有损估计,无法百分百还原人声,可能引入的问题如下:
(1)清晰度差。合成的字、词发音不清晰,近音词区分度差;
(2)还原度差。合成音与目标说话人的音色有差异;
(3)杂音。在合成语音过程中引入背景噪声、字词间隔不顺畅。
二、客观评测
针对前后端可能存在的问题,本评测方法选择如下语料和指标对TTS系统做客观评测。
1、语料
本评测方法从发音准确性测试、韵律测试、字典覆盖度测试、字清晰度测试、词清晰度测试等角度出发搜集测试语料,语料结构如下:
2、客观评测指标
(1)发音准确率
根据前端发音预测可能存在的问题,准备测试语料,包括语料文本,待检查词汇,标准发音等,合成语音后人工评测发音准确率。
(2)韵律准确率
前端文本处理过程中会对文本做分词处理和时长预估,人工准备部分语料,对语料做停顿标注,检查前端输出,统计韵律准确率,韵律标注需要较高的语言学知识,因此这块的测试进行起来比较困难。
(3)字典覆盖率
检查语音合成系统对汉字的覆盖程度,检测字表包括普通话不同等级的字库和生僻字库,输入字库语料,检查是否正确合成,统计覆盖率。
(4)字清晰度得分
采用汉语清晰度诊断押韵测试(DRT)法测试字清晰度,由不同听音人对押韵字表听音选择,并计算总DRT清晰度得分,详见《GB-T 13504-1992》。
(5)词清晰度得分
采用语义不可测句(Semantic Unpredictable Sentence, SUS)测试单词清晰度,由待测词组成不合语法的待测句子。语义的不可测可以避免听音人的经验猜测,影响测试准确性。
三、主观评测
1、MOS评测
国际上对语音自然度的评测,一般是使用MOS评测,邀请听音人对被测系统输出语音打分衡量。最好是能够邀请到有经验的听音专家来参与评分,听音专家从拟人性、连贯性、韵律感等方面对语音进行打分。
目前我们的评测是培训众测用户做为听音人,流程大致如下:
(1)双方语音音量归一化;
(2)语音字词发音准确性校验;
(3)生成众测问卷,语音顺序交叉打乱;
(4)众测用户培训,试听自然人声和较差合成音锚定打分标准;
(5)众测用户听音打分;
(6)回收问卷,答题数据校验;
(7)计算MOS得分。
MOS打分表:
2、细分主观指标
MOS作为一个整体的主观打分可用于反映不同TTS合成的语音之间的差距,但是不适用于细致分析差异所在。因此,在MOS之外我们与用研同学合作,从前端、后端、主观体验上拆解了15个细分主观评测指标,通过两两比较评分法(Paired Comparison,PC),让听音人从各细分指标进行打分,指标列举如下,详细问卷描述略。
关注微信公众号腾讯移动品质中心TMQ,获取更多测试干货!
版权所属,禁止转载!
【腾讯TMQ】【AI专栏】语音合成系统评测介绍相关推荐
- 腾讯医疗AI新突破:提出器官神经网络,全自动辅助头颈放疗规划 | 论文
来源:量子位 腾讯医疗AI实验室又有新研究. 这次跟美国加州大学合作,在国际权威期刊<Medical Physics>发表最新研究成果: <器官神经网络:深度学习用于快速和全自动整体 ...
- 腾讯医疗AI实验室:3篇论文被国际顶尖会议收录
近日,腾讯在医疗 AI 领域的学术研究获得实质性进展,旗下医疗 AI 实验室共有 3 篇论文分别被 KDD 2018.SIGIR2018 .COLING 2018 三个国际顶尖学术会议收录,论文的主要 ...
- 墙裂安利!用腾讯云AI语音合成打造自己的第一本有声书
现代生活中,我们不可避免会遇到很多碎片时间,等公交.倒地铁.排核酸.买早点等等.这些时间累积起来,无疑是一笔很大的个人资源,而想利用这部分时间,听显然是最好的方式. 国内云计算语音合成服务已经非常成熟 ...
- vivos机器人_【vivoNEXS评测】操作:人工智能无处不在 Jovi AI正在接管系统-中关村在线...
操作:人工智能无处不在 Jovi AI正在接管系统 vivo NEX 旗舰版搭载了基于Android 8.1的Funtouch OS 4系统,整体采用了小清新式的UI设计,无论是观感还是使用都透露出灵 ...
- 腾讯「AI In All」的背后,是开放AI技术能力,探索腾讯应用场景
来源:灯塔大数据 概要:过去一年中,我们听到不少公司在谈到未来的时候都会谈到一个词,叫做「All In AI」,腾讯在 AI 方面的战略也用一个词概括,那就是「AI In All」. 「过去一年中,我 ...
- 腾讯云 AI 在新基建领域下一盘什么大棋
从阿里的3年2000亿到腾讯的5年5000亿,头部互联网公司正在加大资源投入,全面布局新基建. 这周末,投资总额超过450亿的腾讯长三角人工智能超算中心及产业基地在上海松江开工的新闻刷爆朋友圈.这是继 ...
- FastSpeech语音合成系统技术升级,微软联合浙大提出FastSpeech2
来源 | 微软研究院AI头条(ID: MSRAsia) 编者按:基于深度学习的端到端语音合成技术进展显著,但经典自回归模型存在生成速度慢.稳定性和可控性差的问题.去年,微软亚洲研究院和微软 Azure ...
- 速度提升270倍!微软和浙大联合推出全新语音合成系统FastSpeech
作者 | 谭旭 转载自微软研究院AI头条(ID: MSRAsia) [编者按]目前,基于神经网络的端到端文本到语音合成技术发展迅速,但仍面临不少问题--合成速度慢.稳定性差.可控性缺乏等.为此,微软亚 ...
- 业界丨一文详解腾讯布局AI生态的四大战略
新一波AI浪潮的涌起,让全球科技巨头们无时无刻不处于风暴当中.谷歌的"AI is First",百度的"All in AI",近日腾讯也提出"AI i ...
最新文章
- php 比较字符串差,PHP字符串比较函数strcmp()和strcasecmp()使用总结
- 优化老手分享网络优化中的4大方法
- mysql linux 客户端_MySQL—Linux查看客户端连接信息(连接数、进程等)
- 防止html转义字符,如何防止我的HTML标签被转义?
- 单例模式——饿汉式和懒汉式
- 工欲善其事 必先利其器
- 微型计算机的主要,微型计算机组成,微型计算机主要由什么组成
- vba 指定列后插入列_Vba代码插入指定数量的空白行
- 程序设计用户生日怎么发推送_生日祝福:儿子生日怎么发朋友圈说说 儿子生日怎么写祝福语...
- html5 webStorage:localStorage sessionStorage
- office表格怎么冻结前两行_怎样冻结表格前两行(excel2003中怎么冻结行列标题)
- STN( Spatial Transformer Network)
- css实现烟雾效果(css制作汽车尾气排放效果)
- 《算法导论》15章-动态规划 15.1 钢条切割(含有C++代码)
- IT行业都有哪些岗位?
- C++ opengl 漫反射和镜面反射参数
- 如何关上计算机设备锁,微信如何设置应用锁?微信怎么开启设备锁?
- 从程序员到项目经理(4):外行可以领导内行吗【转载】
- MFC中单文档程序框架
- SM4国密算法实现分析