摘要:微软Azure Neural TTS让AI语音像真人一样富有感情,自然逼真。

Neural TTS(神经网络文本转语音)是微软Azure认知服务的强大语音合成功能,自推出以来,已被广泛应用于从语音助手、新闻阅读到有声读物创作等多种场景。同时,越来越多的用户希望它也可以支持到更多日常的对话场景,拥有更加富有情感和自然逼真的拟人效果。如今,这一愿望已经得到实现——通过对Neural TTS多个方面的升级,它所合成的声音已经能够良好适应日常对话场景。

不同对话场景,用户期待不同语气的拟人AI语音

TTS语音已被越来越多地用于支持人机对话或机器辅助的日常交流——例如人与人之间对话的同声传译。在这些场景中,人们普遍期待能够实现更自然、更口语化的对话风格。我们不妨从以下三个典型场景中,来理解用户对于对话声音和风格的不同需求。

客服机器人:语气要自然、友好且专业

很多企业正在使用支持语音的聊天机器人或IVR(互动式语音应答)系统,为客户带来相比传统方式更为高效、体贴的客户服务。例如国际移动通讯网络公司沃达丰就成功地创建了一个拥有自然语音的客服机器人TOBi。Azure的人工智能和自然语言处理功能赋予了TOBi鲜明的个性,使客户与TOBi之间的人机对话变得轻松自然,让客户更乐于与之交流。

设想这样的情景:在客户对TOBi报出姓名后,当TOBi需要了解客户的地址以便提供进一步服务时,Tobi并不会生硬地接着发问:“请说出您的地址。”而是会这样表达:“嘿,好名字!接下来我还需要了解一下您住在哪里?”此时此刻,客户一定希望AI能够以听起来热情、友好、温暖,且又专业的声音来说出这句话。类似的需求不仅体现在AI解答客户疑问时,还适用于AI语音向客户打招呼,或表达共情态度时。

个人助理:表情符号、重点强调要读懂

随着虚拟助手和虚拟现实技术的兴起,使用Neural TTS来支持闲聊和日常对话功能的客户数量正在不断增加。想要让AI与人类的对话更加自然,最主要的挑战之一在于如何让AI理解包含特殊字符在内的聊天用语——比如“呵呵”、“哈哈”、“哎哟”这类词汇,这类表情符号,还有重复字母如“soooo good”——然后再以自然的语气提供即时响应。此外,让AI能使用不同的信息来表达相应情感,从而表现出对人类感受的共鸣感,也正在成为一种越来越普遍的用户需求。

同声传译:翻译前后说话风格、语气要一致

语音互译是又一个对话式AI语音可支持的典型场景。Azure Neural TTS已覆盖110多种不同语言,被应用于多种翻译场景中。不过,如何在翻译的同时保持讲话者的原始语气风格,一直都是个挑战。尤其是在较为随意的对话场景中,讲话者往往会使用语气上的细微差别来与听众建立情感联系。在这种情况下,如果AI语音可在提供同步翻译的同时,又能捕捉并理解讲话者的风格,就能使不同语言之间的对话依然生动且具有吸引力。

Azure Neural TTS进化:多国语言皆可栩栩如生、“以假乱真”

Sara(英语):更能表现自然情感的聊天机器人语音

Sara是一个新近推出的美式英语音色,尤其擅长轻松的对话。“她”有着轻松自然的年轻女性声线,能够胜任各种需要聊天机器人的场景。Sara拥有三种情绪:快乐、悲伤和气愤。她在阅读表情符号时,可以发出笑声、叹息或气愤语气,而且还能发出“太~(拉长语调)好了”这种人类特有的语调。

播放下面的语音,亲耳感受一下效果。

语音1:https://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/SaraFSM_CPU24K0817_637655010744911720.wavhttps://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/SaraFSM_CPU24K0817_637655010744911720.wav

​语音2:

https://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/SaraFSM_CPU24K0817_637655014041446089.wavhttps://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/SaraFSM_CPU24K0817_637655014041446089.wav

下面这段录音,来自Sara作为聊天机器人与人类用户之间的自然对话。(此示例来自机器人和人类用户之间的闲聊,对话很随意,可能包含错误。)

https://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Sara_Melinda.wavhttps://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Sara_Melinda.wav 

除了预设的几种“情绪”,用户还可以通过SSML让Sara在常规交流、欢快、悲伤和愤怒等几种语气风格之间随意切换。

语音1:

https://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Sara%20Cheerful.wav

语音2:

https://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Sara%20Sad.wavhttps://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Sara%20Sad.wav

语音3:

https://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Sara%20Angry.wavhttps://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Sara%20Angry.wav

语音4:https://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Sara%20Chat.wavhttps://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Sara%20Chat.wav

晓辰和晓颜(中文普通话):专为日常对话及客服场景而优化的全新中文语音

晓辰和晓颜是专为中文用户提供的普通话语音。其中晓辰擅长逼真的自然语气,晓颜与客户服务场景更匹配。

晓辰和晓颜最显著的特征,在于能逼真模仿人类在日常场合下的交流。与朗诵、播音这类“严肃”场合不同,人们的日常对话中除了语气随意,韵律多变,而且常常出现词语发音不完整,句子语法不像课本那么严谨,且会出现重复、不完整、或者啰嗦等情况。

借助先进的建模技术,晓辰和晓颜的AI语音能够学习并活用这些人类表达的“缺陷”,并逼真地还原这些“不完美”,使合成语音听起来更加真实亲切。

在下面这段客服场景模拟对话中,晓颜是客服助理,晓辰是客户。您可以从中感受到他们如同真人一般轻松、自然的对话语气。

https://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Conversation%20between%20Xiaochen%20and%20Xiaoyan.mp4https://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Conversation%20between%20Xiaochen%20and%20Xiaoyan.mp4

Nanami(日语):元气满满的东瀛女声

Nanami是拥有动听女性声线的日语语音。“她”有着三种不同语音风格:聊天风格、客服风格和开朗风格,让合成语音在各种场景中都更具吸引力。

来听一听Nanami元气满满的声音:

语音1:https://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Nanami_CustomerService.wavhttps://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Nanami_CustomerService.wav语音2:

https://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Nanami_Chat.wavhttps://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Nanami_Chat.wav

语音3:

https://cvoicemcdev.blob.core.chinacloudapi.cn/acc/Audios/Nanami_Cheerful.wav

现在就来感受Azure Neural TTS拟人语音的动人表现力吧!

微软不断倾听全球用户对于Azure Neural TTS在不同情况下语音发音准确性的反馈,以负责任的AI及公平、可靠和安全、隐私和保障、包容、透明、负责的六项人工智能准则为前提,进行了这次更新,为用户带来表达更自然、语义更清晰的语音体验。

现在,微软的文本转语音可以支持超过110种语言的270多种AI语音。如果想亲身感受Azure Neural TTS的强大,就来Azure官网亲自体验吧!还有声音定制平台可以即刻为企业创建多种语言和风格的独特品牌语音。

Azure Neural TTS能让AI语音自然逼真到什么程度?相关推荐

  1. Azure AI的又一里程碑,Neural TTS新模型呈现真人般情感饱满的AI语音

    在人与人之间的对话中,即使是同样的字句,也会因为所处情景和情感的不同而表现出丰富的抑扬顿挫,而这种动态性恰恰是各种AI合成语音的"软肋".相比于人类讲话时丰富多变的语气,AI语音的 ...

  2. 口播神器,基于Edge,微软TTS(text-to-speech)文字转语音免费开源库edge-tts实践(Python3.10)

    不能否认,微软Azure在TTS(text-to-speech文字转语音)这个人工智能细分领域的影响力是统治级的,一如ChatGPT在NLP领域的随心所欲,予取予求.君不见几乎所有的抖音营销号口播均采 ...

  3. 干货丨AI语音二三事:你需要了解这些AI 语音对话技术

    机器学习以及自然语言处理技术的进步,开启了人与人工智能进行语音交互的可能,人们透过对话的方式获取信息.与机器进行交互,将不再只是存在科幻情结当中.语音交互是未来的方向,而智能音箱则是语音交互落地的第一 ...

  4. 离线语音识别软件_从音乐识别软件起家,这家公司如何备战车载AI语音市场GGAI对话...

    加入高工智能汽车专业行业群(自动驾驶5群,车联网智能座舱3群,智能网联商用车2群),加微信:17157613659,出示名片,仅限智能网联汽车软硬件供应商及OEM厂商. 早在2016年,亚马逊推出的语 ...

  5. 打造 AI 语音新标杆,英特尔与腾讯云小微创新共赢

    英特尔宣布已于近日开始生产的第三代英特尔®至强®可扩展处理器(代号"Ice Lake")将于 2021 年第一季度实现规模量产. 人工智能的影响力正在不断加深. 如今,越来越多企业 ...

  6. Neural Approaches to Conversational AI Question Answering(问答,任务型对话,闲聊)

    摘要 本文概述了最近几年开发的对话式AI神经方法. 我们将对话系统分为三类:(1)问答代理,(2)面向任务的对话代理和(3)聊天机器人. 对于每个类别,我们将使用特定的系统和模型作为案例研究,对当前最 ...

  7. 探路人与解题者:腾讯数字生态大会上AI语音助手+X的无限可能

    日本声优(配音演员)花泽香菜官宣结婚的那一天,不少宅男都直呼"爷青结"(爷的青春结束了).互联网上被奉为"大众情人"的男神/女神,哪个不是声形并茂的存在? &q ...

  8. 小鹏P7将上线新一代AI语音:无限接近人类、带情感、会调侃

    小鹏汽车似乎对产品有近乎偏执要求:要在车内创造出一种能「无限接近人类语气」的声音交互系统.   7月,这套「全新AI声音」的小P系统将在P7部分车型上线. 直接上视频,推荐带耳机食用,0:07高能: ...

  9. 全新 AI 语音芯片、双麦 AIoT 模组,科大讯飞硬核技术助力智能家电创新

    据艾瑞咨询的数据显示,2017 年中国智能家居市场规模为 3342.3 亿元,其中智能家电规模为2828.0亿元,占比87%.预计到 2020 年智能家电的市场规模将达到 5155.0 亿元. 智能家 ...

最新文章

  1. T-SQL查询进阶--详解公用表表达式(CTE)
  2. JDBC(一)——statement对象、PreparedStatement对象
  3. 关于Unity3D中函数说明
  4. 476 Number Complement
  5. 开源项目怎么变成自己的_将产品变成开源项目的深入指南
  6. java excel条件格式_Java 使用条件格式高亮Excel单元格
  7. SpringBoot 2 整合 Spring Session 最简操作
  8. win10照片查看器_图片打开方式中找不到Windows图片查看器怎么办
  9. 使用js一行代码解决上网培训弹窗问题
  10. 轴承选型选不好,可别再说轴承质量差劲啦!
  11. 信息系统项目管理师和PMP®对比
  12. java飞机代码_java实现飞机游戏代码
  13. java基础--名词解释汇总
  14. 骨传导原理是什么?骨传导耳机对保护耳朵健康有帮助吗?
  15. 怎么把中文用户名改成英文?
  16. php access 会员管理,Member access operators(会员接入运营商)
  17. 全志A64触摸屏驱动调试
  18. Python 在线免费批量美颜,不比某秀秀方便好用一些吗!
  19. 20.创新与企业家精神——结论,企业家社会
  20. 3天1W赞的程序员学习路线,入门进阶都非常实用

热门文章

  1. java培训:什么是抽象类?怎么定义?
  2. leetcode--两数之和--python
  3. mongDB的常用操作总结
  4. 深入解析Angular Component的源码示例
  5. 基于libevent和unix domain socket的本地server
  6. 怎么安装MYSQL5.0的JDBC驱动
  7. JS加强学习-DOM学习01
  8. swift集成alamofire的简单封装
  9. 对于装饰器Decorator的理解
  10. Python 函数初识 (1)