来源:大数据文摘

编译:李佳、汤圆、钱天培

“我的飞机什么时候到?”

把这个问题抛给智能机器人助手。几乎可以肯定,机器立马就懵逼了。

“我”是谁?“飞机”是航班还是淘宝上订的模型玩具呢?“到”又是到哪呢?

如果是人类来回答这个问题,即使在情景不明确的情况下也能在快速澄清后给出回答,但对机器来说,除非依赖大量人为制定的规则,回答这样的问题难度堪比“哥德巴赫猜想”。

面对自然语言处理发展(NLP)存在的诸多难题,该领域的大牛、Salesforce的首席科学家Richard Socher在近日指出:NLP领域的发展要过三座大山。

困扰NLP领域的这三座大山究竟是什么?一起来听大佬说。

一直以来,语言都被认为是人类的独特能力,是智慧的表现。但最近,自然语言处理技术的发展似乎也将语言能力赋予给了机器。

帮你打电话订餐,给你讲故事,解决各种刁钻的冷知识问答…机器的语言能力已经无限接近人类水平。

现在你可以走进昏暗的客厅,让Alexa把智能灯的亮度提高到75%。你也可以询问他世界另一边的天气情况。在Google最近的Duplexde,AI助理已经能够给理发店打电话,为你预约剪发。

曾经被视为科幻的场景现在变为了现实,但为了维持真正的人机关系,机器必须能够与人进行更直观、理解上下文和自然的对话--这仍然是一个挑战。我致力于研究NLP,但是就像AI一样,我们还在这个旅程的开始阶段。

语言是分享信息和与周围连接的一种机制,但是机器需要理解语言的复杂性以及作为人类是如何使用语言进行交流的。情感分析、问题回答和联合多任务学习方面的进步使AI能够真正理解人类以及我们的交流方式。

情感分析

语言本身就是复杂的。它不断发展,而且细致入微,一般人需要数年才能掌握。通过情绪分析,我们可以使用AI来理解特定内容,比如品牌或电影评价是正面的、负面的还是中性的。

我们也能弄清楚演讲者的态度和意图(她是生气,高兴,惊讶还是准备好要买东西了?)。从客户服务到在线社区调节再到算法交易,能够即时分析数千条推特和数百条产品评论来理解公众对一个品牌的看法,这对于企业来说是非常有价值的。

情感分析技术已经存在了一段时间,但并不总是非常精准。随着NLP的进展,这种情况正在发生变化。在我担任首席科学家的Salesforce,我们的AI(叫做Einstein)允许品牌能够通过电子邮件,社交媒体,和聊天短信得到实时的情感分析,为客户提供更好的体验。

准确的情感分析,例如,服务代理可帮助了解应优先服务哪些不满意的客户,或者应向谁提供优惠。也可识别产品缺陷,衡量产品满意度,通过社交平台改变人们对品牌的认知。其他科技公司也提供类似服务。

对于情感分析来说,理解上下文也是很重要的。假设你有一家肥皂公司,有人在推特上说:“这种肥皂对婴儿来说真的很棒。”这可以是对儿童肥皂的积极支持,也可能是暗讽这对孩子来说很可怕。

这句陈述可能包含很多上下文,但又很简单!使用AI分析某一句子结构的所有可能性,并理解一个人在特定语境下的用意,是NLP研究的重大挑战。它既需要标记数据来改进模型培训,也需要新的模型在学习上下文的同时在许多不同类型的任务之间共享知识。

问  答

随着NLP更好地解析文本的含义,帮助管理我们生活的数字助理智能将会提高。Siri和Google Assistant等应用程序可为常见问题提供优质答案,并执行简单的命令。理想情况下,我们应该能够问电脑任意问题,并且得到好的答案。

提供更好答案的一种方式是确保计算机理解问题。如果你问“我的飞机什么时候到达?”计算机怎么知道是在谈论你的航班还是从亚马逊订购的木工工具呢?

通过对语义的更深入理解,再加上对上下文数据的更好使用,计算机在判断语义这方面正变得越来越好。我们正在研究如何使用NLP学习每一层上下文,这样AI就可以同时处理所有内容,而不会错过重要的信息。

例如,动态共聚焦网络( dynamic coattention networks可以根据不同的问题对单个文档进行不同的解释,比如,面对一篇体育报道,在回答“哪位运动员获得了冠军?”和“最年轻的参赛者是几岁?”这两个问题是,机器就能对这篇报道作出不同的理解,从而反复假设多个答案,最终得到最好、最准确的结果。

联合多任务学习

科学界善于构建能很好地执行单个任务的人工智能模型。但是,更直观、会话式的并联系上下文的界面则需要一个不断学习的AI模型,它能够将新任务与旧任务集成起来,并在这个过程中学习执行更加复杂的任务。总体上来说,这对所有AI都是适用的,但在语言方面尤其如此,因为语言需要灵活性。

“谁是我的客户?”这是一个十分简单的任务:创建客户列表。但是,“谁是太平洋西北地区对某一特定产品的最佳潜在客户呢”?这样的问题增加了一层复杂性,需要大量的集成任务来提供答案,例如:如何定义“最佳”?客户定位在哪里?是什么因素导致客户对产品感兴趣的?每增加一个因素,问题的复杂性都会急剧增加。

Salesforce研究公司最近进行了一项名为“自然语言十项全能”的研究,该研究将多个任务转化为问答的形式,从而在一个单模型中解决了NLP最困[1]难的10项任务:问题回答,机器翻译,摘要,自然语言推理,情感分析,语义角色标注,关系提取,目标导向对话,数据库查询生成,代词消解。

使用多任务问答模型,将每个任务作为一种问答形式,单个模型在没有任何特定参数或模块的情况下共同学习和处理不同的任务。这不仅意味着数据科学家不再需要为每项任务建立、训练和优化单个模型,而且还意味着该模型具有零射击(zero-shot)学习能力---换句话说就是该模型可以处理以前从未见过或专门训练过的任务。

随着研究人员继续改进这样的模型,我们会看到AI界面在承担更复杂任务时变得更聪明。

虽然我们已经研究NLP很长时间了,但我们要走的路还长着呢。希望随着NLP技术的提升,人类与机器的交互形式最终能够迎来质的飞跃。

相关报道:

https://hbr.org/2018/07/ais-next-great-challenge-understanding-the-nuances-of-language

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能,互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

语言处理想突破,三座大山必须过相关推荐

  1. 斩获23项冠军,日均调用破万亿!百度交出年度AI成绩单:语音语言领衔技术突破,国产自研成大趋势...

    乾明 雷刚 发自 凹非寺  量子位 报道 | 公众号 QbitAI 刚刚,百度一年AI成绩单官宣. 作为中国AI头雁,百度的成绩单不止代表巨头公司业绩,也代表了技术前沿现状和产业基本情况. 而且诸多进 ...

  2. python nltk book_NLTK学习笔记(一):语言处理和Python

    目录 nltk资料下载 import nltk nltk.download() 其中,download() 参数默认是all,可以在脚本里面加上nltk.download(需要的资料库) 来进行下载 ...

  3. c语言未结束的引用标识符,2015年9月计算机二级《C语言》高分突破模拟卷(4)

    11下列合法的声明语句是( ). A.int _abc=50;B.double int=3+5e2.5;C.long do=1L;D.float 3_asd=3e-3; 参考答案:A 参考解析:标识符 ...

  4. nltk和python的关系_NLTK学习笔记(一):语言处理和Python

    目录 nltk资料下载 import nltk nltk.download() 其中,download() 参数默认是all,可以在脚本里面加上nltk.download(需要的资料库) 来进行下载 ...

  5. 9月5日云栖精选夜读 | 对比来了!Julia 能打败 Python 和 R 成最终赢家吗?

    在这篇文章中,作者通过一个简单的似然函数优化(Maximum Likelihood Optimization)问题来对比 Julia,R 和 Python.这是一个比较小的优化问题,性能上的差异表现可 ...

  6. c语言自动突破,为你解决c语言源代码【突破方案】

    近日有使用电脑的用户跟小编反映说c语言源代码[突破方案]的问题,并不是所有的朋友都知道c语言源代码[突破方案]的问题应该如何解决,因此我就给大家整理总结了c语言源代码[突破方案]的完整解决方案,就是按 ...

  7. pythonios脚本语言-iOS开发Swift篇—(一)简单介绍

    一.简介 Swift是苹果于2014年WWDC(苹果开发者大会)发布的全新编程语言 Swift在天朝译为"雨燕",是它的LOGO 是一只燕子,跟Objective-C一样,可以用于 ...

  8. 数据分析-R语言资料整理

    独家分享--48页PPT解密数据可视化! Excel图表快捷操作小技巧 基于随机森林的分类与回归 R语言制作网页 ggplot2:可视化设计师的神器,了解一下 [译]R包介绍:Online Rando ...

  9. 中医学:—种基于隐喻认知的语言

    http://bbs.etiandi.com/viewthread.php?tid=1656 如果谁想研究.评判中医学,那么他必须清楚中医学的语言:在明白中医学使用的是一种什么语言的基础上,才能明白中 ...

最新文章

  1. 如何去设计硬件与程序之间的通信协议
  2. Chrome OS 设备或将允许用户自行选择 Linux 发行版
  3. Dockerfile语法简介(精)
  4. GCC/G++编译过程
  5. 中国人去日本买电饭煲令人痛心!董明珠:难道我泱泱大国造不出吗?
  6. 使用Log4j进行日志操作
  7. Bailian2739 计算对数【对数】
  8. 京东下单接口sdk java,Flutter 插件开发-接入京东SDK唤醒(ios篇)
  9. 数据结构之斐波那契数列java实现
  10. c语言令牌桶原理,基于多 goroutine 实现令牌桶
  11. ioi 赛制_徐明宽IOI2017参赛总结及他的信息学竞赛之路
  12. 知识图谱关键技术及行业应用解读
  13. 利率里面的BP是什么意思,bp是什么意思贷款利率
  14. SCSI与USB的关系
  15. GA/百度统计/Piwik/JYC:网站分析工具的Cookie设置和访次切分规则
  16. 怎么把PDF转换成Excel表格?两分钟教会你如何转换
  17. 元宇宙是什么,如何看待未来元宇宙的发展?
  18. 中英文说明书丨 AbFluor 488 细胞凋亡检测试剂盒
  19. [ORACLE] 免安装的Oracle客户端 - Oracle Instant Client介绍与配置
  20. ios手机怎么连接adb命令_手机连接电脑,使用adb命令

热门文章

  1. 斯坦福Google | 面向机器人的机器学习(附63页PPT下载)
  2. 干货 | 新手请速戳!30个精选SQL面试问题QA集锦
  3. “计算社会科学数据平台”在清华大学发布(附账号申请链接)
  4. 报名 | 瓜子二手车周洲:如何玩转AI赋能下的新零售?
  5. 快讯 | 清华成立AI研究院,与谷歌深度合作,张钹、姚期智、Jeff Dean坐镇
  6. 独家 | 我这样预测了医疗AI的发展,或许你也可以(附论文链接)
  7. 《大数据系统基础》课程实践项目中期答辩顺利举行,清华持续探索大数据人才教育创新之路
  8. Python数据可视化教程之基础篇
  9. 国防科技大学发布最新「3D点云深度学习」综述论文
  10. 经历小升初择校,我明白了几个道理