原标题:人物 | 当我们在谈论语音识别时,我们在谈些什么?——知乎达人、CMU博士生王赟

王赟:本科毕业于清华大学电子工程系,当前是卡内基梅隆大学(CMU)语言技术研究所(LTI)的博士生,研究方向为语音识别。在业余时间里,他是一名语言爱好者,通过自学掌握了六门外语(英日韩西法越)。此外,他还活跃在知乎社区中,为语言文化、算法、机器学习等多个话题贡献了上千条高质量回答。

1

“早上好,先生。现在刚刚过7点,马里布(Malibu)气温22摄氏度,多云。海水的温度和高度非常适合冲浪。”

“贾维斯(Jarvis),我想新建一个项目,叫‘马克2号’。”

“要存到公司的中心资料库里吗?”

“贾维斯,启用头盔显示器,把家里的环境设置调出来。”

“好的。”

图片来源网络

以上内容出自漫威电影《钢铁侠(Iron Man)》,托尼·史塔克(Tony Stark)和他的高智能、人性化的AI管家“Jarvis”的对话。在电影中,“Jarvis”能独立处理日常事务、管理“马克军团”,并以幽默的方式回(吐)应(槽)托尼的指令。或许这并不是人工智能的最终形态,可它已经“很好很强大”了。

虽说是想象,但“Jarvis”的出现意味着人工智能领域能够突破技术层面。在整合了语音识别、计算机视觉、自然语言理解等基础技能后,不断深化自我学习和数据处理能力,形成一个具备“人格”的系统。

图片来源于网络

走出电影银幕,“Jarvis”也在线下成为了现实。就在去年,科技大佬马克·扎克伯格(Mark Zuckerberg)亲自演示了“Jarvis”系统,通过应用程序来控制家中设备。这个项目有点儿像进化了的亚马逊“Alexa”——可以开关灯、烤面包、根据个人喜好播放音乐,甚至唤醒女儿Max准备上中文课。

目前,“Jarvis”系统还存在技术上的难题,无法实现量产。通过语音和智能系统联结家居,实现科技服务于生活,这既是人类的目标,也是包括王赟在内的众多科技工程师们正在做的事情。

2

王赟在2013年开始大规模使用知乎,相当于是社区建立后的第二批用户。在这个以“分享知识、经验和见解”为主的讨论型线上社区里,王赟贡献了2800条回答、参与了800多次公共编辑、写下60多篇文章,和社区用户分享自己学习6门外语(英、日、韩、西、法、越南语)的心得体会,以及与语言文化、语音识别、机器学习和算法等话题有关的信息。

在线下,王赟还有另一个身份——卡内基梅隆大学(Carnegie Mellon University, CMU)的博士生。算算时间,今年已经是他待在卡梅语言技术研究所(Language Technology Institute, LTI)的第7个年头了。

“来美之前我申请的是硕士项目(MA),要在斯坦福(Stanford)和卡梅(CMU)两所学校中做选择。”王赟回忆起刚拿到申请结果的时候,“经过咨询后,我了解到CMU的MA和PhD类似,要一边上课一边做研究,也有奖学金拿。就选了CMU,来到了匹兹堡。”

硕士学业结束后,王赟选择留在CMU继续深造。在此后读博过程中,他的研究主要和语音识别有关。简单地说,就是把某一段声音识别出来,变成文字。最常见的应用是iPhone Siri助手,它能够识别用户的语音指令(关键词),并根据指令执行相应的命令。

但王赟的研究不仅如此,他还要识别“语音以外的声音”——音频事件检测。比如,一段在野外拍摄的视频,其中出现了许多动物的叫声。通过音频识别处理后,摄像师可以辨识出视频中具体出现了哪些动物,并且把这些动物的名称编入关键信息,方便观众搜索。

从“关键词”识别到“语音以外的声音”辨识,难度不断加深,数据量不够是当前一项挑战。包括Google, Facebook在内的大公司正在积极收集数据,并且进行人工标注。可若想“音频事件检测”领域能够进一步发展,还需要更多数据、更强网络作为支撑。在王赟看来,这个过程至少要五年。

3

语音识别如何落地,如何成为商业项目。相信这是很多人都非常关心的问题。在王赟看来,语音识别在科研阶段的技术已经基本成熟了,同时,许多公司在引领该领域的发展。例如,Google凭借着足够多的机器和数据,在普通语音识别保持领先;而Amazon则在远距离语音识别有较好的表现。

随时技术的发展,人们的生活变得更复杂。而生活和科技的关系或许会由过去的“需求驱动技术革新”的模式,会逐渐变为多种模式并存,其中也包括——“科技(产品)创造出新的需求”。当我们捧着第一部诺基亚手机玩贪吃蛇时,难以想象十几年后,竟然能够通过语音来指挥手机做更多事情:发送消息、查阅天气和路况等等。

图片来源于网络

眼下,人们并没有强烈的意识,认为自己迫切的需要“Alexa”或“Jarvis”来打理日常起居。可人工智能管家以及便利化的生活还是相当诱人的,谁不希望在劳累了一天后,能窝在沙发里打个盹,偷偷小懒?在未来的某一天,科幻大片里的高科技说不定就成真了。

当科技发展到一定水平,研究者手中有充足的信息和数据(用户调查),很有可能就由这批人描绘出未来生活的模样。相信那时,想象力将成为创新之源,借由这一双翅膀,人类能够飞得更高,走得更远。

4

最后,采访话题落到了人工智能和人类社会的关系上。前者是否会威胁甚至颠覆传统人类社会,这是一个久盛不衰的话题。硅谷大佬们也纷纷亮出各自立场,Facebook创办人扎克伯格看好人工智能的未来,而马斯克、霍金等人则是“人工智能威胁论”的忠实拥趸。

在王赟看来,人工智能自然是一把双刃剑。“人工智能有威胁,但不见得会在短期内体现出来。”从技术发展的角度来说,目前,人工智能面临一道很大的坎——从“弱”到“强”。二者的主要区别在于,“弱”意味着只能干一件事儿。比如,语音软件只能识别语音,AlphaGo只能下棋。“强”则能做很多,能够像人类一样去“体验”和“理解”,就像钢铁侠的智能管家“Jarvis”,或是美国影星施瓦辛格(Arnold Schwarzenegger)在电影《终结者(The Terminator)》中饰演的“T-800”。

图片来源于网络

现在,若是给人工智能一个任务,它能在这个任务上做得好比人好;但它暂时无法胜任“多管齐下”任务组合。目前,神经网络方面的研究并不能完全解释人或电脑是如何思考的;人们熟悉的机器学习更多依赖“数据”,而非“亲身体验”。若有一天,人类的经验能够用机器能懂的方式表达出来,或让机器和人一起生活、收集生活中的一手体验,人工智或许能越过这道“坎”。

友好匹兹堡是由总部位于匹兹堡市的Idea Foundry有限公司于2013年底发起的。友好匹兹堡的战略目标是将匹兹堡教育、旅游、商贸投资以及房地产移民等机遇介绍给中国市场,并为匹兹堡吸纳资源发展当地社会经济。该战略获得宾州政府、地方政府及地区经济发展战略伙伴的支持,合作伙伴包括宾州政府国际业务拓展部,匹兹堡市长办公室,匹兹堡区域联盟,和匹兹堡旅游局。

官方网站:friendlypittsburgh.com,邮箱:info@friendlypittsburgh.com返回搜狐,查看更多

责任编辑:

人物 | 当我们在谈论语音识别时,我们在谈些什么?——知乎达人、CMU博士生王赟...相关推荐

  1. 当谈论迭代器时,我谈些什么?

    作者 | 樱雨楼 编辑 | 豌豆花下猫 转载自python猫(ID:python_cat) 导语:之前说过,我对于编程语言跟其它学科的融合非常感兴趣,但我还说漏了一点,就是我对于 Python 跟其它 ...

  2. 当我谈秋招时,我谈些什么

    文章目录 一.前言 二.就业大环境 三.提高自己的竞争力 1.如果你是大一大二的小萌新 2.如果你是大三党 3.如果你是大四老油条 四.关于面试 1.怎么找公司 2.面试有几轮 3.不同的面试官会问些 ...

  3. 【福利帖】当我谈学习视觉时,我谈些什么

    目录 当我谈学习视觉时,我谈些什么 硬件 软件 算法平台:VisionMaster 应用平台:GeneralFramework 项目 资料获取(不容错过!!!) 当我谈学习视觉时,我谈些什么 初次接触 ...

  4. 《当我谈跑步时,我谈些什么》痛楚难以避免,而磨难可以选择

    <当我谈跑步时,我谈些什么>痛楚难以避免,而磨难可以选择 村上春树,日本当代小说家,情感类类型作家.主要作品有<且听风吟><挪威的森林><海边的卡夫卡> ...

  5. 荐书 | 当我们在谈论死亡时,应该说些什么?

    Hello,大家好, 这里是心研书籍,我是平原~ 今天我想和大家探讨一个独特的话题:当今时代的死亡教育. 01 我们需要死亡教育吗? 我们身边的大多数人,尤其是老人对于"死亡"这个 ...

  6. 当我们谈游戏优化时,我们谈些什么

    前言 过去几年里,我经历过大约几十场面试,几乎在每次面试的时候,面试官都会问提一个问题:"你在渲染性能优化方面有什么经验?"这个时候我就会开始揣测面试官的意图,试着去回忆他之前提的 ...

  7. 【说透中台】03 | 中台定义:当我们谈中台时到底在谈些什么?

    前面两讲,我带你从时间维度重新走了一遍中台的发展历程,又在空间维度为你介绍了目前市面上出现过的各类中台. 估计你现在一定被这么多种类的中台搞的有点晕头转向了,这些中台都称的上是中台么?感觉和之前一直在 ...

  8. 当我谈跑步时,我谈些什么

    上一个周六,我第一次参加了马拉松活动.说是马拉松,实际上参与的是最低一档的距离:6公里.6公里这个距离对于不爱运动的人来说,可能是一个非常可怕的数字,但对于经常跑步的人而言,实在是一个拿不出手的距离. ...

  9. 当谈论工程师文化时我们在谈些什么

    "工程师文化不是谈论出来的-" "事实胜于雄辩. 但什么是事实, 则需要雄辩一番. " 综下所述, 工程师文化是一种能力型文化, 关注可能性, 理性决策. 打造 ...

最新文章

  1. 从零开始搭建spring-cloud(5) ----config
  2. mysql使用小技巧_MySQL使用小技巧
  3. Spring boot整合ElasticSearch
  4. hive连接mysql报错_hive远程模式初始化mysql报错
  5. 聚合函数查询 group by having
  6. Airflow 中文文档:管理连接
  7. object string java_Object类和String类
  8. Win10电脑如何查看本机mac地址
  9. java log info乱码_跟光磊学Java开发-Java开发常用API的使用
  10. Flutter 2.5正式版发布,带来重大更新
  11. 八个经典的java多线程编程题目
  12. 神一样的产品经理——基于移动与互联网产品实践
  13. Opencv之疲劳检测
  14. python计算隐含波动率_用Python快速计算隐含波动率
  15. android h5 唤醒微信,H5唤醒App,用通用连接解决在微信打开APP的问题
  16. ios 清理缓存功能实现
  17. 手把手教你绘制积分动图
  18. 计算机被限制压缩包打不开怎么办,【解决】压缩文件打不开,压缩文件损坏怎么修复?...
  19. 9 计算机键盘是一个______,一种计算机键盘专用的清洁装置专利_专利申请于2018-05-31_专利查询 - 天眼查...
  20. 电车难题和他的n个**变种分享

热门文章

  1. (HDU)1061 --Rightmost Digit( 最右边的数字)
  2. Linux Ubuntu 内核升级
  3. Stream - Web大文件上传插件
  4. Sqlserver 以前我在学校T-sql建ATM取款机的sql语句
  5. CCF201812-5 管道清洁【最小费可行流】(100分题解链接)
  6. POJ1164 The Castle【DFS】
  7. 51NOD-1029 大数除法【大数】
  8. 51Nod-1013 3的幂的和【快速模幂+逆元】
  9. Java 技术体系(JDK 与 JRE 的关系)、POJO 与 JavaBeans
  10. 周易 —— 文本阅读