人们容易高估新技术短期的爆发力,却低估其长期的影响力,比如语音交互。2012年,伴随着iPhone 4S的发布,苹果将语音助理服务Siri推向世人,一时之间,出现了许多类似“中国版Siri”的创业公司,然而几年后,语音交互依然只是一个配角,一些人开始认为,语音可能只是小众交互方式,特别是在罗永浩推出“坚果TNT”这样的奇葩语音交互产品后。

到了2019年,语音是不是未来的主流交互方式,似乎已经没有争议。百度最近公布的一组数据足以说明语音交互的普及。11月28日在百度大脑语音能力引擎论坛上,百度宣布百度大脑语音能力日均调用量已超过100亿次,应用规模处于业界第一,百度大脑面向各行各业开发者提供覆盖云、端、芯的全栈全场景语音开放能力,这一数据基本体现出各行各业智能语音调用的热度。

日均百亿次,语音迎来新奇点

日均100亿次是什么概念?截止到今年11月14日,小米小爱同学累积被语音唤醒341亿次,百度大脑语音每日被调用的次数,跟小米小爱同学多年来积累的唤醒次数,在一个量级。当然,小米小爱同学以及百度小度、天猫精灵诸多智能音箱的强劲增长,也是语音交互爆发的侧影。

只不过,智能音箱只是语音应用的冰山一角,语音搜索、语音助理、智能翻译机、声纹识别、虚拟偶像和智能硬件等C端软硬件产品,互联网教育、呼叫中心、智能客服等行业应用,都在大规模应用语音能力,语音成为跟触摸一样普及的交互方式,不同的是语音交互依赖底层AI技术,因此,才有了百度大脑这样的第三方语音能力平台的发展空间,才有了日均100亿次的语音能力调用数据。

这样的增长已经有了很长一段时间,2016年,KPCB合伙人、享有“互联网女皇”称号的玛丽·米克尔在她一年一度的互联网趋势报告中预测:

“语音已成为人机交互的新范式,在过去75年里,每10年就有一次人机交互的重大革新,人类对机器的操作,从物理手柄按键,到物理键盘鼠标,再到触摸屏,而现在语音成了重要的交互方式。”

在其看来,语音交互相对于传统交互而言具有以下特点:输入更快速,人类每分钟可说出150个单词,打字却只能完成40个单词;使用更简单,不需要用手和眼,时间更及时,不需要任何学习;更加个性化,机器可基于上下文、环境、位置、语调等大环境更好地理解人类的需求。从技术角度来看,语音计算具有成本低、尺寸小的特点,特别适合物联网。

当时互联网女王认为,如果语音识别准确率从95%提升到99%将从量变引发质变,即“爆发点”到来。当年百度、搜狗和讯飞均宣布语音识别准确率达到97%,距离“爆发点”已很近,这几年,语音识别准确率不断提升。百度大脑语音能力引擎,采用领先国际的流式端到端语音语言一体化建模方法,融合百度自然语言处理技术,近场中文普通话识别准确率已达98%。同时,针对户外嘈杂环境和讲话者特性的语音识别,远场交互,可支持自然对话的全双工语音交互,诸多语音技术取得突破性进展,语音交互变得更加智能、自然和友好。

语音应用场景增加,各行各业都在用。2016年前语音只是科技公司以及少部分先知先觉企业的专属,近两年特别是2018年在AI产业化趋势下,各行各业都在应用AI技术,语音是头部AI能力,百度大脑这样的平台提供覆盖云、端、芯的全栈全场景语音开放能力,让各行各业低门槛应用语音。

百度语音开放平台2013年10月上线,最初只有语音识别以及文本转语音(TTS)功能,上线后每日使用量急速攀升,2016年11月22日百度语音开放平台上线三周年之际,每日在线语音识别调用1亿4千万。最近几年百度大脑语音引擎从基础技术向全栈技术演进,拥有语音识别、语音合成、语音硬件等技术栈,覆盖智能设备、互联网应用、呼叫中心等核心场景,可满足各行各业的语音需求,这一次引擎大会上,百度大脑语音引擎就全新发布和升级了14大产品内容,包括基于百度鸿鹄语音芯片的4款硬件模组、开发板及3大场景解决方案,升级了语音自训练平台、呼叫中心语音解决方案等。

从0到1亿次用了三年,从1亿次到100亿次也只用了三年,加速度增长表明语音应用已经迎来新奇点。2019年是5G商用元年,AIoT爆发前夜,语音在万物互联时代,将迎来更大的爆发。美国投资机构Mangrove Capital Partners发布的2019年《语音技术报告》显示,语音经济规模将超移动应用,这一报告甚至认为:键盘将在未来5到10年内基本上消亡;无屏幕智能手机会出现;“声音”识别将彻底改变搜索;虚拟伴侣将变成现实;苹果将于2020年推出Siri操作系统。现在看来,或许很多预测都是天荒夜谈,但是,今天发生的一切,在多年前不同样不可思议吗?我想,百度大脑语音平台从100亿到10000亿,或许已为时不远。

百度大脑“AI大佬”越坐越实

语音是头部AI技术,却只是百度大脑众多AI能力的一部分。

作为百度AI的核心基础,百度大脑2013年就已面世,比百度语音开放平台上线更早一些。关于百度大脑是什么,百度CTO王海峰曾表示:百度人工智能的集大成就是“百度大脑”。今年7月,百度AI开发者大会上,百度大脑5.0发布,王海峰给百度大脑的定位是:基于AI算法、计算架构和应用场景融合创新,软硬一体的 AI大生产平台,目前包括228项开放的AI技术能力,覆盖语音、视觉、知识图谱、自然语言处理等,平台开发者数量已超过150万。

9月26日,在深圳召开的百度大脑人脸识别新产品及伙伴计划发布会上,百度大脑宣布人脸识别公有云服务日均调用量超过1亿,居业界第一;人脸技术开发者已有13万,合作伙伴超过1000个,实际落地应用超过10万个,收入年同比增长高达300%。

人脸识别只是机器视觉技术的一部分,百度不只是在人脸识别上进展迅速,而是整个机器视觉。11月14日,Forrester发布的《The Forrester New Wave:Computer Vision Public Cloud Platforms In China, Q4 2019》研究报告显示,在百度大脑的AI视觉技术的支持下,百度智能云处于中国市场“领导者(Leaders)”领域最上方,在数据、解决方案、应用场景、管理能力等多维度显著领先于友商。

不论是语音还是视觉,底层都是深度学习技术。11月27日,IDC 发布的《中国人工智能软件及应用市场半年度研究报告(2019H1)》报告显示,百度是国内较早推出自动化机器学习产品的厂商,其EasyDL产品已拥有较高的市场认知度。在商业化方面,依托百度云的客户积累及市场拓展能力,百度能够将机器学习能力快速输出并不断迭代,百度是最具潜力的深度学习开放平台玩家。

AI最底层的技术平台是深度学习框架。2016年,百度在国内最早推出深度学习开源平台飞桨PaddlePaddle,推出后下载量以及活跃用户量都保持高速增长,今年7月IDC发布的《中国深度学习平台市场份额调研》则显示,百度深度学习平台飞桨成为中国企业使用度最高、市场份额最大的中国深度学习平台,与谷歌、Facebook名列前三,领衔中国深度学习平台市场。

算法、算力、数据、场景是AI的要素,AI产业化解决后两个问题,百度大脑作为AI基础设施核心在解决前两个问题,算法上有飞桨、EasyDL等产品以及视觉、语音等垂直应用能力。近年来AI算法对算力需求增长近300,000倍,而芯片的计算性能仅提升30倍,两者之间存在巨大鸿沟,百度基于自身的AI战略布局构建了新一代AI计算架构,可以满足AI训练功能方面IO密集、计算密集、通信密集的需求和AI推理功能方面大吞吐和低延迟的需求,这一架构可以填补AI算法与算力的鸿沟。

从算力到算法,百度大脑拥有极具竞争力的基础AI技术,这一点行业有共识,基于基础AI技术,百度大脑采取“应用场景融合创新”的模式,软硬一体,深耕语音、视觉、语义等垂直场景,也在不断进化,刷脸项目应用10万+,语音调用日均100亿+,就是百度大脑应用场景融合创新的成果。

不只是底层AI技术能力,《中国人工智能软件及应用市场半年度研究报告(2019H1)》报告还展示出,百度大脑在多个垂直领域拥有领先或者头部市场地位。

比如在语音语义开放平台上,百度在消费产品(如智能音箱)、金融、政务、法庭审理等头部行业,都是主流供应商;

再比如百度是AI+云服务的头部玩家,百度智能云是唯一一家主打“AI”的公有云平台,11月28日发布的《IDC MarketScape:2019中国AI云服务市场厂商评估》则显示,百度智能云凭借着在AI技术、市场和商业上的优异表现,在能力和战略两个维度都处于领先地位,位居领导者象限最上方,在中国排名第一。11月22日,Canalys发布的报告则显示,2019年三季度,百度智能云收入同比增速70.3%,高于中国基础云服务行业60.8%的增速水平,排名第四,与阿里云、腾讯云一起稳居行业第一阵营,这一点正是得益于AI+云的差异化战略。

5G普及在即,AIoT时代到来,AI产业化正在加速,各行各业都正在被AI重构。百度大脑刷脸项目应用10万+,语音调用日均100亿+这样的数据,体现出AI爆发的“奇点”已到,AI正在从量变到质变,而百度大脑也已在事实上成为AI产业化的基础设施,是各行各业拥抱AI的得力助手。“百度大脑Inside”正在成为现实。

百度大脑凭什么屡创新高?

AI产业化时代来临,大多数企业都不具备AI技术,正是因为此,AI公司特别是帮助企业AI化的AI服务公司成为近年来科技创业的黄金赛道。11月28日,搜狐科技联合天眼查发布了《2019 中国AI创新报告》,截止当前,中国AI企业总量近82万家,约占全国企业总量的0.43%,其业务范围主要包括机器人、数据处理、云计算、语言识别、图像识别、自然语言处理。其中,约84%的AI企业成立时间不超过5年。AI公司很多,头部AI平台不少,仅仅是做“送水人”的,就有AI芯片、计算机视觉、语音语义、机器学习开发平台等基础技术平台,以及面向各行各业、各种场景的AI解决方案商。

百度大脑在众多AI平台中脱颖而出,原因不只是因为百度AI技术强大,我试着找到原因:

1、先发优势。

百度2012年布局深度学习技术,将DNN(深度神经网络)技术用于中文语音搜索,成为全世界最早把深度学习技术落地工业化产品的企业之一。2013年百度就成立了IDL,2014年在全世界高调挖人让人印象深刻。当2016年Google AlphaGo战胜李世石让AI被各行各业关注时,百度在AI上已布局三年。经过几年战略投入,2018年百度正式对外宣称已是一家AI公司。

从时间点来看, 百度做AI是最早的,百度大脑早在2013年就正式对外公布,2014年李彦宏对外表示:“百度内部有个‘百度大脑’的项目,用技术模拟人脑思维,现在大约已经相当于2~3岁孩子的智力水平。随着计算成本的飞速下降和计算能力的飞速提升,未来十几二十年,这样的大脑或许比人脑还要聪明。”让“百度大脑”给人留下深刻印象。

先发优势对于尖端技术的价值不言而喻:后来者或许可以战略投入,但是技术绝对不是砸钱就可以得到的,技术是要靠时间养的,很难像市场或者产品一样,“花钱换时间”。

2、技术优势。

百度大脑不只是做得早,而且做得好。一方面,百度有技术基因,而搜索引擎本身就是AI的核心应用场景,因此百度本身就有AI人才基础,同时百度对AI人才很贪婪,广揽世界级科学家,这样的人才战略是很有效果的。另一方面,百度做技术不站在巨人肩上,而且强调自主研发,深入底层,突破技术边界和极限,比如自主研发深度学习平台飞桨就是一个例子。因此尽管很多公司都在做AI技术,但百度在一些技术上依然有壁垒,特别是底层AI技术。

体现出百度AI技术实力的还有专利,乌镇智库显示,百度拥有935件AI专利,在中国企业中位列第一;世界知识产权组织报告则显示,百度深度学习领域专利申请量位居全球第二;有世界级论文体现出理论水平,国际AI顶级会议收录论文110+篇,其中ACL收录10篇,百度CTO王海峰曾出任ACL五十年来首位华人主席也能说明百度的技术实力;还有各种AI大赛获奖,公开资料显示,在诸如CVPR、ICCV、NeurIPS国际赛事及大会上,百度AI已斩获至少23次冠军。

在AI技术上,百度不只是进入早,而且大投入、深积累、底层化,进而有大产出,形成了高壁垒。就跟芯片一样,尖端技术最重要的是底子,而不是上层应用技术,百度的AI技术实力,已在语音、视觉、语义、知识图谱、智能云服务等上层应用技术上,体现出优势。2017年,由国家发改委批复,百度牵头筹建了国内唯一的深度学习技术及应用国家工程实验室,成为深度学习国家队,百度的AI技术实力可见一斑。

3、策略优势。

很重要的一点是,百度AI技术不是“吃独食”,在将AI技术深度应用到全场景核心业务的同时,将AI技术开放。百度AI技术大投入有了大产出,大量的AI技术堆叠,一定会有“溢出效应”,只给自己用很可惜,就像华为的5G、阿里的商业能力、腾讯的流量,都会溢出一样。溢出了给谁?传统的做法是专利转让或者技术转化为产品销售,就像三星卖屏幕、内存、电池等元器件一样,互联网科技公司的普遍做法是开放,做生态。

百度AI同样选择了开放,百度大脑底层的飞桨,百度大脑上的语音、视觉、语义、算力,小度、Apollo、百度地图、“云智未来城市”……则面向不同行业或者场景开放。开发者、软件开发商、ICT集成商、企业级客户以及组织,都能在百度大脑得到AI能力。当然,百度不只是提供技术能力,而是做生态建设,比如通过编写教材、培训师资来支持AI教育培育更多AI人才,再比如通过种种策略扶持飞桨开发者等等。

建开放生态的做法,不只是让AI技术溢出得到回报,同时可以反哺AI技术生态,让百度AI技术更强大。早在2011年王兴在接受凤凰科技采访时直言:开放是为了更大更持久的垄断,而“开放”的好处在于,好的游戏规则可以通过使外界受益而使自己最大受益。从百度AI的开放来看,王兴说得非常有道理了。

4、节奏优势。

任何新技术,都有技术成熟周期,我在很多篇文章中都谈到高德纳(Gartner)的“技术成熟度曲线”模型(Gartner Hype Cycle),非常有说服力。这个模型认为,一门技术的发展要经历五个阶段:启动期、泡沫期、低谷期、爬升期、高原期。高原期意味着该技术经过不断发展,慢慢成为主流,技术标准得到了清晰定义,使用起来越发方便好用,市场占有率越来越高,进入稳定应用阶段。现在,AI技术曲线已进入高原期,各种基础设施已经具备,AI应用在各行各业都在出现,不论是政府还是企业都有强烈的应用AI技术的主动意愿,AI大规模应用的时间节点已经到了。

百度AI技术布局步伐跟AI技术周期曲线是完全一致的。从2012年到现在,百度做AI确实坚持了很多年,中间甚至到现在都被唱衰,伴随着外界的不解,自身的孤独,资本的压力,百度一直很笃定,踏踏实实地做AI,在对的时间做对的事情,对人才贪婪,对技术贪婪,对生态贪婪,将技术做深、应用做实、生态做强、壁垒做高。我相信,只要AI产业化时代来临,百度AI就会爆发,百度大脑也会创造更多10万+,100亿+。

欢迎添加 luochaozhuli (备注:进群)分享交流。

关注罗超频道(luochaotmt),精彩内容。

语音百亿+、刷脸十万+,百度大脑如何炼成AI第一?相关推荐

  1. 语音购票、刷脸进站:上海联手阿里打造全球首个AI地铁之城

    对着售票机喊句话就能买到地铁票?这个在过去看来完全无法想象的事,在阿里的黑科技加持下已成现实. 12月5日,语音购票.刷脸进站.智能客流监测等多项"黑科技"首度惊艳亮相上海.这三项 ...

  2. 12月6日云栖精选夜读:语音购票、刷脸进站:上海联手阿里打造全球首个AI地铁之城...

    摘要: 对着售票机喊句话就能买到地铁票?这个在过去看来完全无法想象的事,在阿里的黑科技加持下已成现实.语音购票.刷脸进站.智能客流监测等多项"黑科技"首度惊艳亮相上海. 对着售票机 ...

  3. 百度世界2020大会技术干货硬核来袭,百度大脑6.0跃升AI新型基础设施

    点击左上方蓝字关注我们 9月15日,科技界年度盛会"百度世界2020"线上开幕.今年的百度世界大会由百度与"央视新闻"联合呈现,上午刚刚结束的主论坛精彩纷呈,反 ...

  4. 开源50万行代码,百亿广告分成,百度智能小程序能成吗?

    作者 | 非主流 出品 | AI科技大本营 终于,BAT 在小程序的赛道上展开了激战,而这一场战争得到了百度前所未有的重视. 9 月 4 日,百度总裁张亚勤称拉动百度业务的"新四小龙&quo ...

  5. 高通投资商汤,是因为手机刷脸市场吗?阿里巴巴再砸AI芯片,弄啥咧 | AI三分钟

    1. 谷歌翻译在微信朋友圈打广告,这不是第一次 近日,一则来自谷歌官方微信公众号"谷歌黑板报"的 广告 ,出现在了部分用户的朋友圈中,广告主要宣传的是谷歌翻译的相机实时翻译. 其实 ...

  6. 科大讯飞营收破百亿,员工涨薪27%,羡慕这个AI“老大哥”​了!

    科大讯飞,中国AI公司"老大哥",交出2019年成绩单. 营收达到100.79亿,首次破百亿:净利润同比增长51.12%,达到8.19亿,日均盈利224万元,创下历史最佳业绩. 与 ...

  7. 深度拆解高爷家:单品年销过亿的国产猫粮是怎么炼成的?

    都快2022年了,国产猫粮翻身了吗? 在国产猫粮被贴上"毒猫粮"标签后,铲屎官们宁愿高价买进口猫粮,也不想再碰国产猫粮.这样选择无可厚非,毕竟大家都希望给主子更好的. 但是,国产猫 ...

  8. 透视鹏程.盘古:首个2000亿参数中文大模型是怎样炼成的?

    2021-05-19 10:21:00 机器之心原创 机器之心编辑部 给足算力和数据,就能训练出千亿参数的大模型?事实没有那么简单. 「70 年的人工智能研究史告诉我们,利用计算能力的一般方法最终是最 ...

  9. 超越Facebook、谷歌、微软,百度发布全球首个百亿参数对话预训练生成模型PLATO-XL...

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 来自:机器之心 和 AI 进行无障碍的对话,是什么样的体验?你或许能够在这篇文章里找到 ...

最新文章

  1. android 获取短信验证码倒计时
  2. 中国人民大学_《组织行为学》_11怎样招到最合适的人
  3. 白话Elasticsearch04- 结构化搜索之使用terms query搜索多个值以及多值搜索结果优化
  4. One order search dynamic sql statement生成位置
  5. Linux——更换python版本
  6. filter wiz_Grid Wiz简介:只需一瞬间即可制作出具有自定义浏览器支持CSS网格框架。
  7. 面试问题:MyBatis和Hibernate的区别
  8. 被迫“内卷”的程序员,真的就不值钱了吗?
  9. 前端问题求助input type=“range”问题求助
  10. linux中的设备名称和设备号
  11. ege管理系统_网上人才管理系统方案
  12. html js设置div可拖动效果
  13. laravel 数据库迁移后增加字段
  14. otl c mysql_OTL的使用
  15. 职称最新消息:2022年开始湖北全面实行职称电子证书
  16. K-S检验两样本分布是否相同
  17. php 自适应 博客,三种方法让网站背景自动适应各浏览器大小
  18. 点击按钮显示文字,再次点击隐藏文字
  19. python线程锁和线程池
  20. 区块链让公益更透明安心 | FinTechathon 上园村小红果团队

热门文章

  1. CH2906 武士风度的牛 BFS
  2. 电脑很大,电脑声音很大怎么回事
  3. DVWA 不跳转_触发器+VBA……PPT:我不做幻灯片了jojo!
  4. uni-app 104退出和解散群聊(二)
  5. Alphabet 推出 Intrinsic 使工业机器人更易于使用
  6. 无线法则亚服服务器,《无限法则》自带亚服 1060冰龙抢先体验
  7. 微软收购诺基亚,没移动真的不行了吗?
  8. C++文件操作解析及使用(读、写文件 使用文件指针)
  9. 华为笔试机考题库2023【区域发电量统计】
  10. [Linux]Ubuntu安装vnc并解决花屏问题