提及语音识别,就不能不说Nuance,就像提到PC处理器不能跨过intel,智能手机SOC不能忽略高通,Nuance有着辉煌的历史,曾经在语音领域一统江湖,就算现在,仍旧是瘦死的骆驼比马大,仍旧是全球最大的语音技术公司,专利数量和市场份额都遥遥领先。苹果iPhone手机的虚拟语音助手Siri(风传放弃)、三星的语音助手S-Voice、各大航空公司和顶级银行的自动呼叫中心和虚拟在线语音助手,都采用了Nuance的技术。Nuance曾经很热门,三星和苹果都和它传过绯闻,都要收购它,不知道为什么,都无疾而终。

Nuance的语音技术是以统计推断方法为基础,着眼于音素(音节的声音)和语境来识别话语。在识别的方面,在引擎和算法技术方面Nuance领先一个层次。毕竟有着多年的积累。

但是,在具体应用上,差距就没有那么大了——语音识别技术并非高不可攀,好的语音识别系统,很大程度上依靠经验,专利和算法什么的并没有多重要。所以只要Google们挖到牛人,自主研发出不逊于Nuance的语音识别技术并非难事——因为大家的纯识别率都在一个水平线上,差不多都达到了当前技术(主要是Nuance采用的技术)的极限,差距不再可感,但再往上走,如果基于当前的技术,路会越走越窄。如果考虑到周围环境的噪音、用户发音不准、方言等等因素,这种技术的前景并不乐观。这个时候就要从另外一个角度考虑问题了——语义理解。

语音交互,主要取决于两点:语音识别,和语义理解。

举一个例子,张飞张翼德在长坂坡嚎了一嗓子,我想,五湖四海出身的曹军们没有多少人能辨清楚张三爷的每一个字(就不信汉朝没有方言,就不信张飞说话不方言,就不信有多少人能听得懂张飞的方言),他们没有100%听清楚,但是,他们听懂了,然后害怕了,于是,撤退了。为张飞的名声添砖加瓦。

在日常生活当中,如果只从语音出发,我们根本没有可能听懂XX牌普通话,但是我们还是听懂了,更能用另一种牌子的普通话和他交流。这就涉及到语义理解。

有了语义理解的突破,语音识别才能脱离桎梏,更上一层楼。

关于语义理解,目前一门技术正火,神经网络。这是一种十分炫酷的技术,将机器学习的方式模仿人类大脑的神经元,当处理的语言越来越多时,这种网络就可以逐渐理解语言。实验结果发现,这种技术可使得精确度提升25%以上,这是一个巨大的飞跃,因为这个行业只需要提升5%就具备革命意义。目前,谷歌的Google Now、微软的Cortana都采用了这种技术。人工智能大师杰弗里·希尔顿(Geoffrey Hinton)在2013年初加盟谷歌。此外,谷歌还挖走了Nuance的一些职员,其中包括在2004年挖走Nuance联合创始人迈克·科恩(Mike Cohen),让他出任谷歌的语音技术总监。至于微软,我只有一句话,微软研究院里的大牛们真的是大牛啊。感兴趣的可以查一查微软在这方面的技术。

对于Google而言,语音是生死攸关的大事。想象一下,十年或者五年后的某一天,我想登录雷锋网,可我一如既往的记不住雷锋的域名,只需要对着麦说一句:“登录雷锋网(公众号:雷锋网)”,如果我想搜索什么东西,直接说就可以了。如果没有语音服务,那么,Google如何自处?微软的bing会不会咸鱼翻身?所以,Google有必要自己做。这种涉及生死的技术,还是掌握在自己手里比较踏实。

Google和微软都参合了,苹果当然不会落后。来自Wired 的消息,苹果正在着手更换掉 Nuance,打算用自己研发的语音识别技术,最快可能在iOS 9中亮相。在过去几年,苹果不仅吸纳了Siri的语音技术人才,更是将Nuance公司的多名高级语音研究人员挖角过来,包括了前研发副总裁Larry Gillick,以及来自微软语音识别项目高管Alex Acero,后者在微软工作达 20 年之久。苹果打算利用神经网络来提升语音识别率,微软研究部门主管 Peter Lee 认为,苹果大约需要花6个月才能赶上Google 和微软。2013年,苹果悄悄收购了一家语音识别技术公司Novauris Technologies,价格未知。Novauris公司以语音识别著称,由其推出的产品和语音识别系统并非简单的识别单个的词句,而是理解上下文。Novauris 也成推出一个名为 Novasystem 的分布式服务器语音识别系统,可同时处理多个并发语音请求,识别完整的句子,并分析音节结构。

说完国外,再说说国内。

科大讯飞是nuance的国内版,同样的一览众山小,当然,国内的语音识别企业不只科大讯飞一家,还有中科信利,尚科语音,捷通华声等等。百度、腾讯都在打造自己的语音团队。百度看起来最高大上。吴恩达加盟,担任百度的首席科学家,负责百度研究院,他的研究领域就是机器学习和人工智能,研究重点是深度学习(deep learning)。深度学习被认为是当前的机器学习算法里最接近人脑思维的一种。吴恩达也是牛人一枚。

看过国外百舸争流,再对比国内的欣欣向荣,在不入流的算命先生都能得出结论,语音是个大热门,是未来的趋势。

这个趋势是实实在在的,不是吹起来的泡沫。

人类打成为人类以来就使用声音,声音已经融入我们的身体,成为一种本能,它是最优的表达方式,这也就是为什么iPhone4s能够在普遍看衰的情况下大卖的关键,所有人都低估了siri,低估了人们对人机交互模式从键盘升级到声音的渴望。

在未来,也许就是不久的未来,智能家居(通过微软的cortana,已经可以实现语音开灯关灯拉窗帘。这不是Google now和siri无能,完全是因为微软开放了API,Google now和siri没有开放)、驾驶等等领域。人机交互的领域越来越广,语音的前景必将大到不敢想象。想象一下,当互联网发展到无处不在时,人们随时随地都在互联网之中,人机交互甚至可能会是时时刻刻,语音会是一个多么大的市场。

什么?你说脑波?

我觉得脑波这玩意和幸福、上帝一样,你相信它存在,它就存在。

雷锋网原创文章,未经授权禁止转载。详情见转载须知。

人才为王,语音识别技术并非高不可攀相关推荐

  1. 汪潮涌:AI创业落地为王,技术和算法难以成为核心壁垒

    汪潮涌:AI创业落地为王,技术和算法难以成为核心壁垒 https://mp.weixin.qq.com/s/xnvEEAWPDzIQIW-F3LjcTA 汪潮涌看来,单纯靠技术和算法的红利期已经过去. ...

  2. 【百度贾磊】汉语语音识别技术重大突破:LSTM+CTC详解(22PPT)

    1新智元原创1 作者:王嘉俊 新智元福利 回复1028下载贾磊22页PPT Google 去年发布了一项研究报告,说在美国年龄介于13到18岁的青年当中,约有55%的人每天使用语音搜索. 语音搜索正在 ...

  3. 语音识别技术发展史与行业最佳实践全解析

    原标题:语音识别技术发展史与行业最佳实践全解析 在人工智能技术的探索征程里,语音语义识别技术一直扮演着先驱的角色,不管是在技术探索还是商业落地方面都走在了前面.近两年来随着深度学习技术的进一步深入,其 ...

  4. 语音识别技术的发展及难点分析

    语音识别技术的发展 与机器进行语音交流,让它听明白你在说什么.语音识别技术将人类这一曾经的梦想变成了现实.语音识别就好比"机器的听觉系统",该技术让机器通过识别和理解,把语音信号转 ...

  5. 通过语音发展史及语音识别产品对比,来看看语音识别技术都有哪些难点-通信/网络-与非网...

    与机器进行语音交流,让它听明白你在说什么.语音识别技术将人类这一曾经的梦想变成了现实.语音识别就好比"机器的听觉系统",该技术让机器通过识别和理解,把语音信号转变为相应的文本或命令 ...

  6. 关于在呼叫中心业务中应用语音识别技术的探讨

    关于在呼叫中心业务中应用语音识别技术的探讨 摘要:本文首先给出了语音技术的应用现状,接着对语音识别技术在呼叫中心中可应用可尝试的业务进行探讨,最后提出呼叫中心业务中应用语音识别技术的虚拟CSR概念. ...

  7. 语音识别技术准确率早已超过人类平均水平

    语音交互在某些方面是一个"升维"的操控方式,相比传统的操控方式来说,"语音"能让使用者无需直接接触被操控物就能实现某些功能.比如在实时互译.智能家居的操控以及面 ...

  8. 亚马逊首席科学家:揭秘 Alexa 语音识别技术|AI NEXT

    雷锋网(公众号:雷锋网)按:本月 18 日,由美中技术与创新协会(Association of Technology and Innovation,ATI)主办的第一届"AI NEXT&qu ...

  9. 【重磅】亚马逊向第三方开放Echo音箱语音识别技术(附AmazonEcho Dot拆解)

    原标题:[重磅]亚马逊向第三方开放Echo音箱语音识别技术(附AmazonEcho Dot拆解) Amazon周四(4/13)宣布,将把Amazon Echo所使用的远场(far-field)麦克风数 ...

最新文章

  1. 采购计算机的,如何采购计算机
  2. 搭建服务器集群——Windows7系统中nginx与IIS服务器搭建集群实现负载均衡
  3. 【生成函数基础题】hdu1085 hdu1028
  4. NB-IOT的优势体现在哪些方面
  5. 关于文件系统权限的管理
  6. 解决MySQL忘记root密码
  7. oracle中文字段名怎么查询_sql注入联合查询总结
  8. 服务器asp.net权限设置问题及解决方法时间:
  9. 揭秘ASP.NET 2.0的Eval方法
  10. 女儿是程序员爸爸的小棉袄,礼物太暖心
  11. 用lua实现ByteArray和ByteArrayVarint
  12. 常见的几种负载均衡技术
  13. 【观察】从实践到赋能再到引领,华为释放数据中心无限潜
  14. 大数据概念思维导图_大数据技术思维导图
  15. 你可能需要的各个行业年度总结 ppt 模板
  16. GW INSTEK GPD 3303系列稳压源控制软件(自行使用c#编写)更新
  17. Ubantu16.04安装五笔拼音输入法
  18. 数据库课程设计矿大_中国矿业大学选课系统
  19. C# 之 ZipOutPutStream 压缩文件
  20. unity代码控制物体的透明度总结

热门文章

  1. pycharm使用总结
  2. java+jxls利用excel模版进行导出
  3. 2017年BackBox5和Ubuntu16.04.1国内更新源
  4. Tomcat配置多个端口号或多个应用
  5. ubuntu 学习笔记2--安装tomcat
  6. CCF NOI1115 找数
  7. CPU 架构 —— ARM 架构
  8. numpy 高阶函数 —— np.histogram
  9. Matlab Tricks(二十)—— Hilbert matrix 的创建
  10. C++ public、protected、private 继承方式的区别