文 |余凯文

来源 | 智能相对论(ID:aixdlun)

在人机交互不再满足于“听”时,“说”的环节变得尤为重要,“怎么说”、“谁来说”成了关键按钮。

而目前语音产品赛道逐渐进入了常规化模式,邀请明星出声也成为了基本操作,相比传统的机械式AI声音,真人语音无论是在效果还是情感方面都是无可比拟的,再加上明星效应,用户的体验效果将来得更加直观。

12月24日,百度地图官方宣布汤唯正式签约代言人,同时上线“汤唯导航语音”。在“说”的领域,百度地图这款“新一代人工智能地图”又迈出了一步。

从语音导航到汤唯定制语音,百度地图“AI+女神”到底进化了什么

传统语音导航,是单调无聊的,定制语音将其变为了过去式。拥有汤唯的柔美声音作为导航,在体验上有什么差别?当“前方路段交通拥挤,请小心驾驶”变成“前方行驶缓慢,慢慢欣赏路上风景”,会不会觉得这才是“人性化”服务?

1、摆脱中性,汤唯带给我们的不只是女神之声

很多人会问,一定要给AI加上性别吗?不,AI不一定需要性别,但语音最好有。

以往我们听到的AI语音都是机械式的声音,是“中性”或者说是“无性”的声音,带来的问题也很直接,就是太冰冷、没个性。之前也有说到,目前个性化、表现力正是语音合成所追求的方向之一,所以百度地图带来的汤唯语音也就不止是一款语音那么简单。可以说汤唯语音从一个功能点体现出结合了人工智能的百度地图正在变得越来越强大。

声音具有和视觉传达一样很强的感染力,甚至有时,以声音为主的交互会带来更好的沉浸感。

并且语音合成研究已开始从文字到语音的转换阶段向概念到语音的转换阶段发展。所涉及的技术也更加复杂,百度地图就是利用其深度神经网络技术、深度学习技术,再结合车内应用场景进行打造。例如百度语音合成系统采用的全深度学习的框架,是在语音合成领域首次采用全深度学习框架,实现了语言合成上的个性化、口语化。

2、语音算法模型让机器人性化

女神汤唯之所以能完成高质量的语音包,语音合成技术功不可没,在庞大的道路信息和交通数据之下,谁也无法通过直录的方式通通记录,这时就需要靠语音系统来支撑。

以汤唯语音包来说,就是先录制汤唯声音特点的第一手资料,录制的语句包含一些常见的导航提示语句和一些覆盖到常见的中文发音的句子。

其实无论语音还是文字,在计算机看来都是数字化的,语音合成模型的任务就是要建立这两组数字之间的关系,通过一系列的计算,将文本的输入转化为语音的输出。首先需要建立一个神经网络的模型,去学习汤唯录制的语音和录音文字之间的映射关系,就好比让一个不会发音的孩子学汤唯说话。而在合成时,它就可以读取导航语句,并大声朗读出来了。

AI浪潮之下,语言合成才是语音技术的高地

使电脑具有类似于人一样的说话能力,是当今时代信息产业的重要竞争市场,不过大家的注意力多集中在语音合成之外。

1、差点被忽略的“黄金”场景

目前,语音技术的应用多为了语音唤醒和交互,在智能硬件和软件上都有很多典型应用——智能音箱、智能电视、智能扫地机器人、百度地图、百度输入法等等。但不可否认的是,智能硬件的侧重仍在于“语音识别”,对于“语音合成”的应用有,可还不够深。

语音合成本是把文本经一系列计算处理后输出对应音频,通过机械的、电子的方法产生人造语音技术。因为完美的人机交互体验无法忽略“说”的环节,所以语音合成的重要性日益凸显。

从早期的机械化语音合成开始发展至今,语音合成的应用场景也经历了较大的转变,以前语音合成应用都是在相对单调的场景,现在应用场景更加复杂,对于语音合成技术的要求自然变得更高。

例如,在有声读物方面,用户需求越来越个性化,单调的机械声已经完全不够;在机场、车站广播等服务行业,需要的是温柔、甜美的音质;在办事机构、窗口机关又需要严谨、有力的声音。而百度地图上线汤唯语音,也是给在路上的用户更加磁性、知性的嗓音。

在外部,车内空间显然是一块“宝地”,车内空间的交互可以说是市场刚需,截止到2018年9月,全国机动车保有量已经达到了3.22亿辆,机动车驾驶人数超过了4亿人,交互价值巨大。

百度地图等加速车内空间交互,是将传统的“室内交互”做了外延,给百度带来的也不仅仅是用户层面的拓宽,更体现出百度搜索之外的野心。

2、技术上,语音合成一直是语音技术的高山和壁垒

语音合成可以说是人工智能的“嘴”,是人机交互的基础,一个没有“嘴”的人工智能何谈什么交互?

就现阶段而言,语音识别已经不再是语音技术的关键问题,很多产品的语音识别率都到达了95%以上。但在语音生成上,能让机器说的话与人类说出来的话相近依旧很难,即便是一些简单的词组,你我也能一耳就听出是机器合成的还是真人播报。

如果将语音合成技术拆解,可以分为文本分析、韵律分析和声学分析三个部分,每一个部分都是技术难点。首先需要对文本进行解析,对文本的语言、字符进行分析,提取出文本特征;接着在文本信息的基础上,要判断文本信息字符间奏、长度、频率等多种特征;然后通过声学模型实现从前端参数到语音参数的映射,最后通过声码器合成语音。

而且,目前主流的语音合成方法为统计参数语音合成和波形拼接的语音合成,统计参数语音合成由前端文本分析、统计参数模型和声码器三个部分组成,对语料库的时长要求较低且在合成目标波形时具有较高灵活性,但重建出来的语音比较机械,缺乏自然度。主要为声码器在对语音信号建模时舍弃了语音细节,合成的语音相比原始语音丢失部分信息。

而百度地图采用的百度语音合成系统,可以将很多模块用深度神经网络去实现,有效解决了使用统计参数合成时所带来的问题。

波形拼接的语音合成不使用声码器,直接通过拼接原始录制语音片段来合成目标语音,相比参数法,合成的语音更加自然真实。由于直接面向语料库操作,故对语料时长和基元种类具有较高要求。

当然,当语音流畅度达到人们预期时,也并不是完结,音质、自然度和情感等要素也依旧需要攻克。

就拿汉语语音合成来说,目前在单字和词组一级上,合成语音的可懂度和自然度已基本解决,但是到句子乃至篇章一级时其自然度问题就比较大。

比如,国内外大多数语音合成研究是针对文语转换系统,且只能解决以某种朗读风格将书面语言转换成口语输出,缺乏不同年龄、性别特征及语气、语速的表现,更不用说赋予个人的感情色彩。

3、比起听得清和听得懂,“说得好”要求的是更懂人

正如上文所提到过的,目前大部分产品的语音识别率都达到了95%以上,却无法像人类一样表达,其根本原因就是还“不懂人”。

何为“懂人”?我们人与人之间可以从对方的音量、声调、语速、用词等方面听懂对方的要求、情绪、心情、状态,这就是所谓的“懂人”。

说得直白点就是“情感表达”,这是目前而言语音合成技术需要攻克的关键要素。

想要达成这一目标,针对普通生活场景的语音合成是提高情感表达的最佳方式。目前使用语音合成技术播报下天气或者阅读简讯,无疑能合成出完美的语音,但遇到生活化的场景,或者在特定氛围之下,语音合成的效果就会降低很多。一方面由于系统对韵律信息的捕获不准确,另一方面由于生成的声学参数存在误差。当语音合成可以完美消化各类生活化的语境时,其应用场景将得到极大的拓宽。

另外,在语音合成的应用中,大多都是单人、单语言、单语音,如何能由单变多也是语音合成应用中的一大困扰。在“3单”语境的限制下,语言合成技术难以完成应用突破,而目前一些解决“3单”语境的解决方案也不够完美,或多或少都存在瑕疵,并且也没有足够的语料素材来进行支撑。

如何使计算机算法能够自适应技术实现任意说话人、不同风格的高质量语音合成,如何充分挖掘不同语言的发音空间,在语料受限条件下实现多语言语音合成,也是语音合成现阶段的一大挑战。

百度地图在深度神经网络技术的支撑下,已经开始对“3单”语境作出反应,并已收到成效,百度语音合成开始支持中文英文混读,可以提供数十种不同音色,更支持语速、音调、音量设置。这些技术活功能上的增加,无疑将给语音合成带来更加广阔的想象空间。

近年来,在语音技术行业中开始流行一句话:“得语音合成者得天下”,百度地图此时牵手国民女神,导航语音全量上线似乎也在卡这个时间点。

语音技术个性化时代,百度地图占领AI地图高地

地图从羊皮到纸卷,从PC到手机,其实一直在随技术的进步而进化。放眼整个行业,在人工智能浪潮下,百度地图已经走在了前列。语音合成上越来越讲究个性化,个性化的需求就无法绕开大数据和AI,而在这两个方面百度的经验正好合适。

1、汤唯女神的定制语音,不止是百度语音合成技术体现出情感特征的标志

赋予合成语音情感,让合成语音表现出个性生理、心理等特点,是语音合成领域一个难题。

百度地图在推出汤唯语音导航的同时,也足以证明其语音组技术能力的成熟。

神经网络的模型随着百度技术经验的积累,也越来越精巧和高效。汤唯采用的模型,正是百度近期研发出的高质量合成模型,具有很好的音质,音色还原度和自然度。

让语音合成具备情感,还要建立多视角情感描述模型,需要描述认知、心理、生理等影响因素之间的关联性,再通过语音频谱特征表现出来。并且不能一厢情愿,还需要从用户的角度模拟不同人群的使用习惯,偏好等。

而这一系列过程背后,是一套复杂且庞大的数据系统在支撑,百度之所以能够完成还得益于百度地图大数据的丰富。目前百度地图覆盖了全球209个国家及地区超过850万公里道路里程,每日响应位置服务近千亿次等,这些正是百度语音组在打造语音合成技术时的基石。

2、两款导航语音开始满足个性化需求,百度地图AI化已经不再只是技术端

在今年3月,百度地图事业部正式并入AI技术平台体系(AIG),不仅是对其作为基础性服务地位的肯定,也意味着百度地图能够获得更直接的AI技术支持。

依托于整个百度,百度地图在AI技术研发上处于先发行列,有着比较全面的AI技术积累,涵盖语音、图像、大数据智能等。

而“汤唯迷人语音”和“汤唯常规语音”两款导航语音就能直观体现出百度语音组在韵律模型、声学模型预测(神经网络的模型)、弹性单元挑选技术等技术上的功力。

从AI技术应用来看,百度地图已经表现出强大的AI能力,除了能提供实时路况、提前规划路线,推测拥堵等智能地图的“常规功能”外,百度地图开始提供更加个性化的交互,例如,AR实景导航、全景地图、旅游地图、充电桩地图、急救车让行播报等个性化功,这些创新功能不止是听觉还包括视觉上。值得一提的是,百度智能地图还能够“学习”不同路段对应的交规信息,这一点是极具应用价值的。

由此可见,百度地图AI化已经真正意义上实现了从技术端走到了应用端。

结论

汤唯女神导航语音对于百度地图而言是一个标志性事件,是在AI风口下,百度地图作出的重大变革之一,意味着百度地图AI能力呈现立体化。

从杨洋到汤唯,百度地图致力于展现地图AI的先进性,一直不竭余力,智能语音助手作为一个辅助功能,对于其他地图产品的无足轻重,百度地图则是高度重视,仅在视觉提供上,百度地图的语音助手就一定会是在最显眼的位置,并且不止于辅助,百度为语音助手所寄予的是“交互”,充分发挥导航语音“听”和“说”的能力。

如今,百度地图邀请女神汤唯“献声”,无疑是给百度地图语音的锦上添花,在打造新一代人工智能地图上百度地图又先行一步。

从以前的听清、听懂到满足,发展到在满足之后更有“反馈和应变”。在交互方式上也由单一交互变为了真正的双向交互。

同时在百度地图“更精准、更丰富、更易用”的理念基础上可以再加上一条“更具情感”。

在抢占智能地图高地上,百度地图已然领先。

*以上图片来源于网络。

【完】

智能相对论(微信ID:aixdlun):深挖人工智能这口井,评出咸淡,讲出黑白,道出vb深浅。重点关注领域:AI+医疗、机器人、智能驾驶、AI+硬件、物联网、AI+金融、AI+安全、AR/VR、开发者以及背后的芯片、算法、人机交互等。

汤唯成了百度地图的“AI算法官” 女神背后靠的就是这些语音技术相关推荐

  1. 5亿用户呼唤“小度小度”,百度地图掌舵AI赛道

    百度地图对外披露了一组新数据: 截止到2021年9月底,百度地图的智能语音助手用户量突破5亿,个性化定制语音包每日播报次数达2亿.累计下载量超过1.5亿,同时百度地图的全景照片超过20亿张-- 有别于 ...

  2. 每天导航超4亿公里,百度地图整合AI功能

    9月19日,百度地图召开"AI出行更简单 百度地图十一全民畅行节"发布会上.百度地图在AI技术平台体系(AIG)内,越来越深度地与AI结合,更加顺畅地为百度地图进行定制化AI,同时 ...

  3. php地址转换成经纬度,百度地图 获取地址转换为经纬度

    html> 根据地址查询经纬度 a.{ margin-right:100px; } style="position: absolute; margin-top:30px; width: ...

  4. AI+大数据助力抗疫,带你认识百度地图的新玩法!

    作者 | Aholiab 责编 | Carol 出品 | AI科技大本营(ID:rgznai100) "喂,你好,我是百度地图的客服,请问是xx店铺对吗?" "嗯,什么事 ...

  5. 百度地图让用户“私人定制“:一场语音定制背后的AI能力强势输出

    百度地图更新了. 对于一款互联网产品,尤其是国民级的移动应用,显然再正常不过.但如果细看此版本更新的主要功能,大概率还是会让你眼前一亮. 这不,在国庆节前夕,百度地图重磅推出"语音定制功能& ...

  6. 地图服务“新基建”决胜AI,百度地图如何再度领先行业?

    文|曾响铃 来源|科技向令说(xiangling0815) 阿里说2000亿,腾讯转眼就"跟"5000亿,巨头在新基建这件事上的竞逐已经明面化. 为什么要投入这么多真金白银?说白了 ...

  7. 百度地图的智能化成绩单:1亿4千万用户呼唤与AI新纪元

    十一长假是地图的使用高峰期,可以说是年度地图大考.当人人都在用手机地图规划路径和导航时,地图的下一步又该朝哪个方向走?地图还有进化的可能吗? 在今年的十一长假中,百度地图为我们回答了上述那些问题:地图 ...

  8. 百度地图交硬核成绩单,用AI推动的百度生态跃进时

    1200亿! 当看到这个如此有杀伤力的大数字,你会想到什么?可能是某个领域的市场总规模,或者全宇宙中黑洞的数量,或者-. 当这个庞大数字跟地图产生关系,又是怎样一种存在? 就在昨天召开的2019百度地 ...

  9. 全球首推语音定制产品,百度地图背后的语音技术到底有多强大?

    文|李永华 来源|智能相对论(aixdlun) 地图APP的竞争日趋激烈,但往往都是你来我往,各大产品互有来回. 但现在,一些基于AI技术的颠覆性创意功能正在冒出,它们将成为竞争"杀招&qu ...

最新文章

  1. YTKNetwork使用application json方式传递参数
  2. love2d杂记9--光照效果
  3. Eclipse断点调试出现Source not found
  4. 滚动页面一定距离后固定导航条
  5. 微波浅谈(一)更新中
  6. 全文搜索引擎 Elasticsearch 安装
  7. php利用ftp上传视频,PHP用FTP类上传文件视频等的简单实现方法
  8. 62. 拆分初始化负载
  9. python做大型网站_django可以开发大型网站吗
  10. vue项目使用阿里云播放器 Prismplayer 组件,可记录播放时间
  11. 电子沙盘技术和android,ERP沙盘与电子沙盘的区别
  12. linux命令查看文件读写,linux系统查看和修改文件读写命令
  13. 【转】精益看板核心实践大作战
  14. 谷歌浏览器能打开网页微信_Chrome浏览器打开微信页面-Go语言中文社区
  15. python如何画贝塞尔曲线_使用Python实现贝塞尔曲线连接多点形成光滑曲线
  16. uniapp添加蒙版的时候怎么禁止页面滚动
  17. 当爬虫被拒绝时(Access Denied)
  18. 2022-2028全球与中国数字化销售室软件市场现状及未来发展趋势
  19. 1521端口已被占用解决方案
  20. 网站推广秘诀二十法(经试验有效,最后有绝招)

热门文章

  1. IQD晶振AT切割方式及流程
  2. 场效应管(FET)知识点释义
  3. 进出口海运货物保险条款及做法
  4. piv图像处理文献综述_体视2D-3cPIV相机标定方法研究
  5. 神思二代身份证读卡器Demo的C++版本
  6. 客厅智能化(5、6)
  7. 经验分享 | 搭建帮助中心的最强攻略
  8. NodeJS 频繁请求服务器限速工具
  9. 微服务架构设计实践系列之九:应用架构
  10. python分拣豆子_一, 认识一下Python