导语:百度是国内对人工智能投入力度最大的公司,但其不碰硬件的战略很可能导致它最终错过人工智能里对它最关键的部分

2017年2月16日,有两条关于百度的消息很有意思:一条是收购渡鸦团队,一条是把度秘团队升级为度秘事业部,两边都向陆奇汇报工作。这种软硬融合的战略选择是极其正确的。这并不是马后炮,我在2016年10月发的《虽然很投入,但李彦宏可能正在错过人工智能》里核心观点之一就是:百度是国内对人工智能投入力度最大的公司,但其不碰硬件的战略很可能导致它最终错过人工智能里对它最关键的部分。虽然大方向正确,但如果互联网公司真想学亚马逊,就还差了那么一点东西。

语音赛道的AI到底需要解决什么问题

国内绝不缺和Echo类似的产品,但此前的命运都是折戟沉沙,这里的关键在于对什么是这类产品上要解决的核心问题认知不清。自由交流,唤醒词,速度,方言,内容,习惯等每个似乎都可以成为要解决的核心问题,但实际上所有这个赛道上玩家最核心的问题是:

在语义、方言这些刚性约束不突破的条件下打造出速度、精度、内容相匹配的产品。

智能语音也就是说要解决的并非宽适配问题,而是要在面对主流人群真在技术上下功夫,把体验做好。语音交互上糊弄的空间极小,两句话就能感受出体验咋样。

这里面最受关注的是语义的问题,因为人们总是向往自由的交流,语义肯定是交互的一个瓶颈,但我们可以把语音交互根据语义的技术进展分解为两个阶段:

第一阶段是语义并没有核心突破,也就是说最理想状态也就达到75分。这时候打造产品的根本出发点是不指望自由语言交流,而让语音交互偏命令控制,但也打造出极为优秀的用户体验。Echo大的定位就是这样一种产品。这时候产品的核心瓶颈是前端的声学(麦克风阵列+声学算法),这是眼下的问题,不解决产品体验不可能好。基于这判断我在2015年末开始使了很大力气为公司寻找公司,最终这也是我2016年投资声智科技的核心原因,当时逻辑很简单:这个问题显然中科院声学所更擅长解决,而声智科技几乎是声学所人员所创办的唯一的一家AI企业。

第二阶段是语义真的取得突破,这无疑会更大的扩展语音交互的应用范围,一旦这个点得以突破,语音交互会变的无处不在,但我们必须承认什么时候语义能够彻底解决仍然不确定,这是属于未来的事情。

这种时间轴上的错乱是很可怕的,那样就会在现有产品上挑战不可能解决的问题,比如不用唤醒词,指望Echo这类产品什么都能干等。

总结来看我们可以这样讲:如果真想做出Echo那样的产品,声学(麦克风阵列+算法),语音识别,语义三层里面眼下的瓶颈是声学,未来的瓶颈是语义,前者影响现在产品卖不卖的出去,后者影响适用范围的大小。但即使只是前者这也是一个足以对标Pad的新品类。

差的那么一点点

真走软硬融合的道路,显然的关键要素是:良好的产品定义,足够成熟的技术要素,系统整合产品的能力(其实还有通畅的销售渠道)。系统整合一项要求一个公司整合软硬团队,否则不同利益诉求会导致软硬团队很难高度配合,而在产业初期,不同层次间接口标准化很差,容易导致产品夭折。产品定义则高度依赖于个人,就看当事人的能力,对公司而言需要一点运气。

这样一来唯一欠缺的是足够成熟的技术要素。

这是非常麻烦的一点,对于互联网公司尤其艰难,因为真往这条路上走欠缺的并非是计算机算法上的认识,也还牵扯物理,这对于互联网公司是个大大的盲点。

从这个视角正好可以理解苹果和Google的差别,苹果是要高度关注物理层面的东西的,比如材料、电池、屏幕、传感器等,Google显然会更关注算法。所以苹果的云端技术始终不好,而Google做产品就也总是一般。乔布斯万众瞩目所以大家看到的是他的偏执、癫狂乃至艺术气息,但实际上他背后是有一群人在帮他解决物理上的麻烦事的,现在的库克就是其中之一。

这并不只是百度一个公司的问题,而是新时代趋势对互联网公司的一种系统型挑战。我在之前的文章中曾经提到过,一个行业的兴起事实上是三个大的阶段:

第一阶段是Enabling技术的成熟,类比的话就是手机上的高通和MTK,在语音产业链上声智科技扮演类似的角色。

第二阶段是硬件产品的成熟,类比的话就是Apple II或者iPhone 1代,在语音产业链上就是Echo。需要注意Echo是起点而不是终点,是刚跨过可用线的一款产品。

第三阶段才是新硬件平台上软件应用的成熟,比如PC上就是Office,手机上就是微信。在语音产业链上这点还没展开。

互联网缩短了第一阶段和第二阶段间的过渡过程,相当于两者在同步发生,也正因此才需要软硬融合。但互联网公司独自解决第一个问题能力会偏弱,这就是欠缺的那一点点。

硝烟会从今日起

也许是为了提振股价,百度十分高调的公布了这件事情。这也很有意思,因为百度这样做很可能会引起连锁反应。在这之前,大家基本都处于观望状态,当其中一个真的下注后,别的人就会开始系统考虑这件事情别人做成了对我会有什么样的影响。

这事一旦开始推敲,腾讯、阿里就会认识到这是自己输不起的战争。

这点我在之前的文章里提到过,但很有必要在百度采取行动的时候再次重述:

我们先做个基本的假设,那就是Alexa获得了巨大成功(Echo、智能音箱、Alexa有关联,但其实是不同的东西,这点在之前文章中有说,这里不再重复),渗透到各种设备之中,包围了人们的生活,人们有50%的时间在通过语音和设备打交道,并且日活逼近Android。

那这时候一定会衍生这样的需求,用户会说:Alexa,帮我通知下马化腾,明天我不见他了。这时候就需要有一种通讯的IM来实现这种需求。这时候亚马逊就有两个选择:第一它接入一种已有IM,比如Whatsapp,或者Skype。第二种是自己做一个嵌在Alexa里面。亚马逊至少有一半的几率会选择后者,而不是把这种基础设施开放给别人,因为前两种要么属于Facebook,要么属于微软。如果在中国是阿里巴巴做成了Alexa,那估计百分百不会选择对接微信。这样一来配合一个语音交互的核心特征,颠覆性的事情就出现了:

语音交互背后隐藏的各种应用具有唯一性。

我们很难想象这种语音交互方式:Alexa帮我用Whatsapp给马化腾留个消息,明天我不见他了。在语音交互中WhatsApp这类应用的标识很可能会被优化掉。如果Alexa还只是百万级、千万级DAU的应用时那这个特性还不关键,但如果它是10亿DAU的系统,那这个特性的影响就会被无限放大,也就说搜索、IM、电商很可能都只有一家,而不是像现在虽然少,但还有个1,2,3名。

小结

今天几乎已经没人再怀疑语音交互的成立了,有意思的事情是这种变化只发生在过去不到半年的时间里。现在看2017年的热闹很可能在这里发生,这是件牵连极广的事情:它会牵涉人工智能(声学、语音语义公司),它会升级智能硬件公司,原本的智能硬件其实已经被鄙视了,但Echo显然不是什么万物互联赛道而是人工智能赛道。

好吧,想做的要尽快进来,不想做这个行业的,可以搬个板凳看热闹了。

转载于:https://my.oschina.net/u/3579120/blog/1533182

走在边缘地带上的百度,还是差了那么一点!相关推荐

  1. 百度的人工智能终于走在辙上,但还差了那么一点

    转自:http://tech.sina.com.cn/zl/post/detail/it/2017-02-20/pid_8509875.htm 文/李智勇 2017/2/16有两条关于百度的消息很有意 ...

  2. 陆权论和边缘地带理论的主要原则

    陆权论和边缘地带理论的主要原则 <陆权论>是世界十大兵书之一,其作者是英国地缘政治学鼻祖哈尔福德•麦金德.1904年,麦金德发表了"历史的地理枢纽"论文,创立了与海权相 ...

  3. 阿里云专家赵伟教你在CDN边缘节点上构建多层纵深防护体系

    网络安全态势严峻,常见的五大网络攻击风险类型 赵伟认为,企业线上服务所面临的安全风险,主要来自以下五个方面: DDoS攻击 DDoS攻击类型已有20多年历史,它攻击方式简单直接,通过伪造报文直接拥塞企 ...

  4. YolactEdge:首个开源边缘设备上的实时实例分割(Jetson AGX Xavier: 30 FPS)

    YolactEdge 是第一个可在小型边缘设备上以实时速度运行的有竞争力的实例分割方法. 在550x550分辨率的图像上,以ResNet-101为主干网的YolactEdge 在Jetson AGX ...

  5. 边缘设备上的实时AI虫害消除:入门

    目录 介绍 选择器与检测器 实时性呢? 下一步 在这里,我们从使用AI和DNN的角度阐述了害虫消除的问题.然后,我们提出两种可能的解决方案:1--使用预训练的SSD模型检测猫.羊和其他动物:2--使用 ...

  6. 边缘设备上的实时AI人员检测:以实时模式检测视频中的人员

    下载数据-19.3 MB 下载模型-43.5 MB 下载结果-36.66 MB 这是七篇系列文章中的最后一篇.到目前为止,我们已经有了用于人员检测的DNN模型和用于在Raspberry Pi设备上启动 ...

  7. 边缘设备上的实时AI人员检测:检测视频中的人员

    下载数据-19.3 MB 下载模型-43.5 MB 下载结果-36.66 MB 从本系列的前几篇文章中,我们获得了使用SSD DNN模型检测图像中人物的Python代码.而且我们已经展示了该代码可以在 ...

  8. 边缘设备上的实时AI人员检测:入门

    下载数据-19.3 MB 下载模型-43.5 MB 下载结果-36.66 MB 得益于深度学习(DL),实时视频流中的人的实时检测几年前就已经解决了.但是,在边缘和物联网设备上并不总是那么容易,因为它 ...

  9. 170 FPS!YolactEdge:边缘设备上的实时实例分割,已开源!

    点击上方"CVer",选择加"星标"置顶 重磅干货,第一时间送达 本文转载自:AI人工智能初学者 论文:https://arxiv.org/abs/2012.1 ...

最新文章

  1. 一文揭秘微服务架构统一安全认证设计与实践!
  2. express 解析 ajax post 数据 body 为空对象
  3. 计算机网络(谢希仁第八版)第三章:数据链路层
  4. datax mysql replace_DataX-MySQL(读写)
  5. 2019沙雕失误瞬间!哈哈哈哈笑出猪叫...
  6. wangmarket-master
  7. 纯手工打造简单分布式爬虫(Python)
  8. python链表定长翻转_python实现单链表翻转
  9. Http Status Code (http 状态号)
  10. c# Quartz使用
  11. asterisk sip codec协商
  12. 安装树莓派摄像头模块方法
  13. 计算机义诊暑期社会实践报告,义诊社会实践报告
  14. 基于JAVAweb唐院寻人表白系统计算机毕业设计源码+数据库+lw文档+系统+部署
  15. HTML5期末大作业:抗疫主题网站设计(14页) HTML+CSS+JavaScript web课程设计网页规划与设计...
  16. Kali2020详细的安装教程
  17. 苹果微信换行怎么打_微信两根毛表情怎么打出来?左右小辫子符号苹果安卓手机教程介绍...
  18. C 统计数字和大写字母和小写字母的个数
  19. 浪潮cs5280H raid方案详细
  20. 圣诞树 圣诞树 圣诞树_圣诞网页设计资源

热门文章

  1. 30.1lvs-adm与ipvsadm命令
  2. 关于ESM Flag问题
  3. 按揭买房的朋友请仔细看,怎样办理贷款最省钱
  4. 在职Java_java在职学习班
  5. Android Framework 窗口子系统 (08)窗口动画之动画系统框架
  6. 2012年宝兰德软件技术服务有限公司三句半节目台词
  7. SpringBoot与安全SpringSecurity
  8. Ubuntu20.04安装nVidia显卡遇到的各种坑
  9. ESP8266-12F最小系统板程序烧录
  10. 3D MAX 入门教程内容结构