文|李永华

来源|智能相对论(aixdlun)

地图APP的竞争日趋激烈,但往往都是你来我往,各大产品互有来回。

但现在,一些基于AI技术的颠覆性创意功能正在冒出,它们将成为竞争“杀招”,很可能一招制胜,让战况不再胶着。

你可能经常使用XX明星的声音作为手机地图的提示音,但你可能没有想到,有一天“前面路口左转”这样的发音准确、播音员级别的语音播报,会通过“你的声音”发出来。

近日,百度地图推出“语音定制功能”,简而言之,用户通过手机就能自主录制与合成个人完整语音包,可以同步应用到地图全端语音场景,如驾车导航、语音交互、智能旅游等。

从技术角度看,如果了解为每个人进行“语音定制”的技术难度的话,就知道百度先发制人推出的“语音定制功能”,或已经让行业对手“无计可施”。这背后是百度大脑语音能力的强力加持,是深厚技术积淀的产物。

毫无疑问,百度地图出的这一招,已经没有人能够在短时间内接得起。

而从整个行业角度看,语音定制功能的加入,也让“AI+地图”组合的 “完全体”获得了进一步进化、升级。

百度地图事业部总经理李莹

盘点语音合成:百度地图AI实力成为竞争“杀招”

百度地图此次推出的语音定制功能,依赖的技术即百度语音独创的风格迁移技术MEITRON模型。

该技术实际上已经“露过脸”,大型公益节目《等着我》有一期讲述了91岁老兵袁林昌寻找老排长的故事,老排长2004年即已去世,但技术团队采集老排长的语音素材,利用MEITRON对音色、情感、风格等进行独立的编码建模,最终合成了老排长声音发出的句子,让老兵袁林昌与观众感动落泪。

智能相对论认为,同样作为AI语音合成技术,MEITRON价值和优势在于三个方面:

素材要求低,一般仅需提供20句话的素材,在百度地图上,用户仅需跟随录制20句、每句15个字左右的语句即完成数据采集;

训练时间短,在百度地图上,一般仅需20分钟即可完成训练(实测往往15分钟即可完成),合成个性化的目标声音,用户无需漫长等待;

“情感”丰富,即合成的语音可以注入不同的情感,效果变得更加逼真、丰富,就好像是某个人真的在说一样。

直接说这些优势可能大家没有直观感受,当我们盘点和回顾语音合成的发展史,就会发现MEITRON这些卓有成效的能力对整个语音合成领域的重要价值。在它的加持下,百度地图的语音定制场景应用直接摘取了“目标声音个性化”这颗皇冠明珠,让竞争对手不得不摆手放弃追赶。

1、大面上,AI已经解决语音合成的几个基本问题

事实上,在MEITRON之前,AI深度介入语音合成领域,已经解决了行业的三大基本痛点问题:

韵律问题:可理解为符合正常人聊天语态,例如句子的停顿,重读等要求,计算机过去往往比较机械,听起来不自然,例如,过去合成“你真好看”四字简单的句子,可能读成“你真/好看”等,现在AI可以实现“你/真好看”相对正确的短句和顿挫,或者如普通人一样还能在“真”字上加上重音;

音色拟合问题:即不只有一个单调的女声,还可以拟合其他想要的种类的声音;

情感拟人问题:即说出的话有不同的“调调”,个人风格浓厚,而不是冰冷的、无情感的输出。

2、AI长时间难以解决“目标声音个性化”问题,MEITRON出手

但是,AI解决的语音合成三大基本问题,只是在“商用层面”,尚不能到达“民用层面”。

形象地理解,过去几乎所有的地图产品都能针对一个特定的“目标声音”进行采集和训练,实现有韵律、有音色、有情感,百度地图的汤唯、杨洋、郭采洁、韩乔生、柳岩,高德地图的郭德纲、林志玲等,都是如此。

早期这种“商用采集”的特点是“目标声音”的提供者,需要配合进行大量的采集工作,并等待十天半个月甚至更长时间的合成,才能生成我们在地图APP里熟悉的明星语音包。如果面向海量的普通用户,这种成本平台无法承受,用户也很难谈得上有什么体验。

所以,地图产品的语音包早期只能一个一个来,只在商用层面无法抵达“民用”。

而问题恰恰又在于,AI浪潮下,所有面向大众的产品都在谈个性化,地图产品概莫能外。个性化需求只要生根就会发芽、长大,在AI语音合成的支持下,有了不同的明星语音包,越来越多的用户潜在也会有的更为个性化的语音需求,谁能激发和实现这种需求,谁就赢得了无法追赶的竞争优势。

将目标声音“个性化”,千人千面、每个人定制自己想要的语音,无疑成了语音合成皇冠上的明珠。

此时,MEITRON出来了,百度地图语音定制功能落地了,20句15字左右的跟读素材采集,实测15分钟左右的合成速度,驾车导航、语音交互、智能旅游的多样化个人语音应用……当百度地图打出这张技术+体验牌时,就是彻底的杀招。

一旦把地图APP中用户日常接触最频繁的语音改造成用户自己想要的声音,也意味着移动APP们共同的梦想——为每个用户打造只属于自己的“专属APP”得到切实的落地,APP产品梦寐以求的高用户粘性也有了额外支撑。

直白地说,如果百度地图APP独有用户个人或者想要的某种特质语音,他可能就更加没有理由再去使用其他产品。

百度语音首席架构师贾磊

出彩的语音定制,本质仍是百度地图“AI+地图”策略的重要一环

语音定制是百度地图的竞争杀招,但它仍旧处在百度地图“AI+地图”的整体招式之中。

这不是第一次AI技术在百度地图的应用。

2018年,百度AI开发者大会曾现场演示一段长达60多字的服务请求:“我要从三里屯的团结湖地铁站出发路过望京的家乐福然后再去南锣鼓巷最后到我家,我要红绿灯少的不堵车的最快的路线,你帮我路线规划一下吧”,百度地图语音助手顺利接受语音输入,自然流畅地提供了导航服务。

这个过程中,百度地图的语音技术迈过了AI语音操控的三道坎:听清,在类似驾车等嘈杂环境中听清楚语音;听懂,识别复杂语句的真实意图,尤其是适应用户非标准的、随性的请求;满足,将意图与后台操作对应,满足用户真实诉求。只有这样,所谓“全语音操控”才能坐实。

而这些同样得益于百度的语音技术能力——从SMLTA模型(一种大大提高语音理解能力的技术),到小度全双工连续交互技术(连续多次指令,不需要重复说小度小度这样的唤醒词,只要按正常人与人交流的方式即可)以及更多百度AI的亮眼语音技术来看,百度地图的全语音操控也并不意外。

在语音之外,百度地图还有许多与前沿科技结合的交互技术来提升用户体验。

例如,百度地图利用AR现实增强技术,在各个场景中,为用户提供沉浸式实景地图使用体验。比如,AR双屏步导功能可以同步显示常规地图与实景画面,用户只需要跟随实景画面中的箭头图案即可到达目的地;AR周边探索功能可显示当前场景内美食、娱乐、购物、丽人、运动、银行、酒店、景点、楼宇等POI点(兴趣点),点击即可导航;此外,地图常常被使用的旅游场景中,AR导览可以屏幕上标记当前景区的景点。

回过头来看,自从2018年3月百度地图并入AIG后,借助AI技术的百度地图焕发出全新的生机,凭借各种颠覆性的用户体验创新,百度地图与竞品的差异化程度逐步加深。

定制语音功能的推出,更标志着百度地图在竞争中已经升维,以拥抱未来的新一代产品姿态参与竞争。

可以料想的是,未来,这样借助AI等前沿技术的细节体验打磨想必会更多,技术上的绝对领先让百度地图不会再像过去那样在竞争中见招拆招不分胜负,招招必杀的2.0时代或已经开启。

结语

语音技术在百度地图上有了最佳实践,其实也是百度AI技术本身硬核实力的表现。除了百度地图,百度硬核的语音技术一直在赋能百度系内部各大产品,例如:

语音输入用户认知、使用状况、准确率遥遥领先行业的百度输入法,已经凭借语音输入获得了全新的差异化竞争优势;全新体验的语音搜索彻底解放用户双手,“所说即所得”,简单动动嘴即可探索世界,这为搜索注入了全新的动能;出货量国内第一、全球领先的小度音箱,区别竞品听不懂、乱回话的尴尬状况,为智能音箱的智能和体验正名……

百度AI业界公认最强,而语音定制功能反映出语音技术更是业界翘楚。从最深层的技术能力,到最表层的用户体验,百度语音技术凭借内部产品和外部合作伙伴打通了全部链路、进行了全面落地化的布局,正在成为百度AI的重头戏。

【完】

智能相对论(微信id:aixdlun):AI新媒体,今日头条青云计划获奖者TOP10,澎湃新闻科技7月榜单top5,著有《人工智能 十万个为什么》,重点关注领域:AI+医疗、机器人、智能驾驶、AI+硬件、物联网、AI+金融、AI+安全、AR/VR、开发者以及背后的芯片、算法、人机交互等。

全球首推语音定制产品,百度地图背后的语音技术到底有多强大?相关推荐

  1. 李宁签约肖战为运动潮流产品全球代言人;麦当劳中国内地首推植物肉产品 | 美通企业日报...

    今日看点:李宁签约肖战为李宁运动潮流产品全球代言人.麦当劳中国内地首推植物肉产品.强生全视旗下全球首个且唯一可同时矫正视力并缓解过敏性眼痒的药物缓释隐形眼镜获批.百适美矫正中心正式落地南京.亚马逊云科 ...

  2. 搜狗全球首推云输入 创新概念引领新方向

    搜狗全球首推云输入 创新概念引领新方向  佟强 http://blog.csdn.net/microtong 今日,搜狗率先将输入法发挥到极致,在全球范围首个推出云输入法.搜狗云输入法是基于搜狗拼音输 ...

  3. html调用百度地图语音播报,实现百度地图导航演示的语音播放功能

    在上面,百度地图导航演示是本地导入的,那么如何在此基础上实现导航语音广播呢? 首先,为应用程序申请语音广播(也称为注册) SDK具有内置的百度TTS语音广播功能,在使用该应用程序之前,需要对应用程序进 ...

  4. 提供NEC电子全球首推支持USB3.0主控系统芯片

    NEC公布了全球首颗USB 3.0主控芯片,USB 3.0再次点燃了观众的热情.今天我们讨论的重点就是USB 3.0.USB 3.0又名SuperSpeed USB(超速USB),USB 3.0由此美 ...

  5. 清华系创企RealAI:独家“隐私保护机器学习”技术,全球首款编译级产品

    原创:谭婧   以侵犯隐私的方式处理数据,已属非法行为,违法必究,犯罪分子,瑟瑟发抖. 但数据,作为人工智能(AI)的"石油",不能简单粗暴一刀切,如何加高数据安全的"围 ...

  6. 百度地图多点路线规划_精选文章 | 工业解密:百度地图背后的路线时长预估模型!...

    本文主要关注于工业界的路线时长预估的挑战!这篇工作可以说兼具前沿力与工业风,论文提出的ConSTGAT模型同时在准确率和计算速度方面较现有模型获得了显著提升.至于这个炫酷模型的线上表现如何,感兴趣的小 ...

  7. 百度地图多点路线规划_AI行业企业头条 |百度地图背后的路线时长预估模型!...

    文章来源于微信公众号:夕小瑶的卖萌屋 原文链接:请点击 文章仅用于学习交流,如有侵权请联系删除 无论你是苦逼学生(公交地铁狗).职场萌新(打车狗)还是有钱大佬(有车一族),只要站在了北上广深的土地上, ...

  8. 工业解密:百度地图背后的路线时长预估模型!

    星标/置顶小屋,带你解锁 最萌最前沿的NLP.搜索与推荐技术 编 | YY 无论你是苦逼学生(公交地铁狗).职场萌新(打车狗)还是有钱大佬(有车一族),只要站在了北上广深的土地上,就不可避免的每天要跟 ...

  9. 百度地图线路颜色_山东到底发展成了什么样子,这两张地图不会说谎

    城市之间对比时,可以选择GDP.人口.教育.交通.医疗等各种指标,但这些指标或多或少的都受到政绩考核的影响,并不是百分百客观的. 今天我想选两个地图来分析下山东16市的城市发展情况,一个是热力图,一个 ...

最新文章

  1. contentProvider中有关query方法的使用
  2. WPF命中测试示例(二)——几何区域命中测试
  3. [HNOI 2011]数矩形
  4. linux学习笔记(10)fdisk命令
  5. 机器学习项目(四)疫情期间网民情绪识别
  6. 6个重要的.NET概念:栈,堆,值类型,引用类型,装箱,拆箱
  7. World Wind Java开发之十二——加载粗制三维模型(ExtrudedPolygon)(转)
  8. https open api_通过bilibili_api获取弹幕+绘制词云的方法
  9. Springboot数据库配置文件明文密码加密解密
  10. 用学习逃避成长,听新知缓解焦虑
  11. 常见算法在实际项目种的应用
  12. Win10如何优化系统?电脑运行比较卡怎么优化?
  13. linux 兼职,远程后端(兼职)
  14. 七夕表白代码(动画爱心)
  15. python在手机上可以画图吗_python可以画图么
  16. windows服务启动 1053错误
  17. 批处教程 for /f 中的Delims和Tokens总结
  18. 《计算机网络》笔记-第3章运输层
  19. 【用户分析-用户场景】这TM才是产品思维!
  20. Matlab eval用法

热门文章

  1. 16秋南开计算机应用答案,南开16秋学期“计算机应用基础”在线作业.doc
  2. element-ui表格表头内容 限制不换行
  3. 滑块验证成功后,对勾对号显示为根号
  4. 重整旗鼓学java之java基础
  5. Linux命令大全,从A到Z,2023年收藏大吉!
  6. 服务器日志文件已被清除恢复,Linux服务器入侵后日志文件删除/恢复方法
  7. module_param传递参数
  8. 百度成小满运维面试题
  9. 机器学习之聚类算法:K均值聚类(一、算法原理)
  10. Response响应详解