2019年11月7日,北京智源人工智能研究院在清华大学FIT楼举办了“智源论坛(第八期):自然语言处理报告会”。四位智源学者——北京大学教授穗志方、清华大学长聘教授李涓子、北京大学助理教授严睿,以及京东AI研究院常务副院长何晓冬作为报告嘉宾,围绕知识赋能人工智能——以知识驱动自然语言处理,分享了研究进展和最新思考。智源自然语言处理研究方向项目经理、北京语言大学教授杨尔弘主持了本次论坛。

11月7日“自然语言处理”论坛在清华FIT楼举办

自然语言处理重大研究方向是智源研究院继人工智能的数理基础、机器学习、智能信息检索与挖掘、智能体系架构与芯片之后,发布的第五个研究方向。杨尔弘表示,自然语言处理是全球人工智能的关键战略之一,智源研究院自然语言处理方向将探索从数据驱动到知识驱动的范式跃迁,研究大数据与富知识双轮驱动的自然语言处理理论、方法与系统,具体内容包括:多类型知识资源构建,自然语言深度理解,可控自然语言生成,融合知识的机器翻译,智能语言学习,对话系统等关键问题,并集成上述研究研发北京旅游智能问答典型应用,助力智慧城市建设。

本期论坛的主持人杨尔弘

穗志方:构建智能NLP的中文深层语义描述和知识资源基础

在《中文深层语义描述及资源建设》报告中,穗志方介绍了为实现更智能、高效的NLP 机器学习,构建中文深层语义描述及基础资源的基本思想和工作思路。她演讲的要点如下。

汉语言文化博大精深,机器翻译通常无法表达中文语义的深层含义。鉴于自然语言拥有复杂的结构,NLP的任务通常表现为对这种复杂结构进行挖掘,结合深度学习便有三种构造结构化学习模型的方式:从分词的角度,可将它看作一个序列标注的问题,则可构建面向序列结构解析的神经网络模型;从句法分析的角度,把一个句法树看作一个树状结构,则可构建面向树型结构解析的神经网络模型;从语义的角度,因为语义是呈网状关系,则可以构建面向图结构解析的神经网络模型。

除了深度学习,NLP还和大数据紧密相关。NLP领域里的基础数据存在两个现状:一是大而粗、未经加工处理的表层数据;二是小而精、经过人工标注的数据,它适合计算机训练但人工代价昂贵。目前,NLP主流方向是机器学习,对标注文本数据严重依赖,在缺乏中文深层语义描述资源的情况下,往往导致我们面临深度学习不能深度理解中文的问题。

在NLP中,深度学习之所以应用得好,首先在于存在端到端(end to end)数据,比如英汉或汉英翻译中,既有英文的大量文本,也有对应的大量中文文本,但如果没有这样的数据,则对是否“深度理解”很难有一个客观的依据。

就语义分析研究的现状来说,相比于浅层语义分析,深层语义分析问题更加复杂,因此即使在英文上深层语义分析仍存在不足之处。深层语义分析对自然语言的理解应该是更加理解和完备的最终能够将含义形式化的表示,支持机器的自动推理和意图推断。然而针对中文深层语义分析,目前仍缺少业界普遍公认的标准,标注资源上也是接近空白。因此中文深层语义分析研究更加需要学术界的合力攻关。

建立中文语义分析语料库以及定制相应的语义标注规则,不管是对语义分析方法本身,还是对其评价来说,都具有重要意义。我们解决这些问题的基本思路是:首先需要制定规范、描述体系,随后通过工具集和开放平台的研发,使得整个资源的构建实现自动化、规模化和规范化。最终我们希望能够形成包括中文语义知识描述体系、知识获取与融合技术、语言知识加工平台、大规模高质量的中文语言知识资源,以及世界知识库为一体的中文语言知识资源体系。我们希望这个体系能够为互联网规模的中文深度计算,奠定各种人工智能的智能推理、智能应用等的语言知识资源基础。

我们目前希望设计的深层语义描述体系,如下图所示有三层:分别是概念语义、命题语义和超命题语义。该图描述了这三个层面之间的关系,其中,概念语义描述是中文深层语义描述体系的基础,分别对实体概念、组合概念及事件状态概念进行描述。命题语义主要描述句子基本的客观意义。超命题语义主要描述基本命题意义之上的主观意义和附加意义。

深层语义描述体系设计

展望未来,穗志方表示正在关注语言知识和世界知识的区别和联系。穗志方认为:语言和知识之间一定是个从表层到深层的关系。我们可以看到语言知识库里都是一些词汇化的概念,而中国人会将生活习惯中很多重要的事物词汇化,因此我们有望利用词汇化的概念进一步预测、衍生和关联更加广泛的世界知识,也就是将语言知识作为关联世界知识的核心基础。

穗志方论述关于中文深层语义描述及资源建设

李涓子:知识图谱赋能第三代人工智能系统

在《知识图谱与知识表示》报告中,李涓子介绍了他们在知识图谱表示、跨语言词和实体联合表示学习等方面的工作进展,并指出知识图谱有望成为推动第三代人工智能发展的核心驱动力。她的演讲要点如下。

人工智能会经历三个时代:第一代以符号表示为代表的人工智能,就是通过定义一个符号系统,对人的知识进行编码,它以专家系统为代表,兴起于70年代末;第二代是兴起于80年代末期、基于大规模语料的统计机器学习,以及现在的深度学习,实现了对世界知识的智能感知;第三代人工智能应该是如张钹院士所说的可解释、具有鲁棒性的人工智能。我们认为,从第二代上升到第三代人工智能的一个可行办法,就是将深度学习的底层知识特征空间,通过知识图谱搭建起一个能抵达真正语义空间的桥梁,有望通过知识图谱的研究,即将“知识驱动”和“数据驱动”相结合的知识计算,来实现给第三代人工智能系统赋能。

要实现上述目标,我们目前还面临许多挑战,包括:对融合知识、数据驱动的知识表示和推理方法,尚缺乏基础理论的研究;目前的算法还不能满足高质量、大规模知识的获取,特别是多模态知识的获取,或隐含在大数据背后常识知识的获取;缺乏可以利用群体智能建立大规模知识的知识平台,将大数据转化为知识的知识引擎,以及知识赋能的创新应用。

知识驱动与数据驱动结合知识计算

接下来,李涓子介绍了实验室在知识表示学习方面的工作。

在线百科知识资源是利用群体智能建立的人类对客观世界认知的百科类知识资源,同时百科知识资源具有动态性和大规模的特点,但是目前在线百科知识资源是面向人来阅读理解的知识资源。为此,我们以构建基于语义链接的百科知识图谱构建关键技术,建立了大规模跨语言知识图谱XLORE。

我们把词和实体进行了统一的语义空间建模,一方面利用文本和知识库互相增强向量表示,另一方面可以方便词和实体之间的语义计算。我们首先提出了文本增强知识表示学习方法TEKE,用以解决当前知识表示方法在知识稀疏,一对多、多对一以及多对多关系表示能力的不足。

我们的解决思路是针对不同关系,在学习实体和关系表示时考虑不同关系在文本上下文中相关的词信息。我们的另一项研究工作是提出了区分概念和实例的知识表示学习方法TransC,解决当前方法由于未区分概念和实例所导致的不能区分知识上下位关系和普通关系,以及不能处理上下位关系传递性的问题。我们提出的解决方案是Trans C 模型(如下图所示),将概念表示为空间中的球体,实例和关系表示为空间中的向量;同时还通过创建普通关系三元组、instanceOf关系三元组、subClassOf关系三元组来区别上下位关系和普通关系。

TransC模型

接下来的工作,我们希望把词和实体进行联合表示学习,也就是说我们不仅用词去增强实体表示学习的结果,同时也用实体增强词表示学习的结果。我们的方法是:给定单种或多种语言的文本与知识库,将词和实体映射到同一低维向量空间,使得具有相似语义或知识结构的词和实体具有相近的向量表示,实现跨语言、跨文本与知识库的联合推演。这里包含三个层次:首先,是词义向量的表示学习,使得相近意义的词语能够在词义空间中具有相近的距离;其次,是基于义项的词和实体联合表示学习,根据实体提及的义项,构建词语和实体的联合向量表示;第三,进行远程监督的跨语言词和实体的联合表示学习。在上述基础上,我们还建立了一个基于神经网络的跨语言协同实体链接系统,以建立文本和知识库的关联,实现文本理解和知识获取。

词和实体联合表示学习的研究框架

李涓子最后表示,知识图谱为计算机提供了理解和组织互联网资源提供的基础设施,它是弥合知识底层特征与语义空间的桥梁,有望使人工智能从目前的信息处理阶段,上升到知识服务的新业态。

李涓子论述关于知识图谱与知识表示

严睿:基于神经网络对话技术的新研究与新挑战

严睿《基于神经网络对话技术的新研究与新挑战》的报告,回顾了人机对话技术的发展历程,并从人机对话系统的现有应用出发,探讨近年来的技术进展和挑战。现在摘录部分观点如下。

人机对话系统是近年来学术界和工业界备受重视的研究方向,主要有两类,一方面开放领域对话,主要提供社交陪护或情感支持;另一方面是在垂直领域提供特定的服务,如利用对话系统接收法律案件描述提供法务咨询,或根据金融信息内容及个人投资偏好、给予财务建议,等等。

从对话系统使用技术来看,也分若干类,最简单是Templated-based,通过模板定制完成对话;Retrieval-Based Models 是目前工业界最主流应用,它以大量的对话语料为基础,根据系统接收到的输入形成应答过程;随着深度学习的兴起,Generation-based Models随之出现,它不依赖于预先设置的回答集,便能产生新的答案,但它受限于深度学习技术本身,导致有时候过生成或者欠生成,输出的语言不太自然;目前一个好的解决方式,是把Retrieval-Based Models与Generation-based Models 结合,取最优答案输出。

2018年,百度在ACL上发表了一篇论文,建立了一个Deep Attention Matching Network 模型,基于Transformer的结构,将复合注意力(Attention)机制应用于多轮对话,达到了当年检索式对话系统的最优效果。

对于检索式对话系统的探索,一个探索方向是要做得更“宽”,另一方面是要做得更“深”,通过多次交互,提升模型结果。除了模型设计的提升外,也可以从模型学习的方式出发提升系统的效果,比方说可以通过多个模型相互学习互相过滤掉质量不高的训练样本,也可以通过互相学习筛选出高质量的训练样本优先学习,甚至更改模型的损失函数,动态调整政府训练样本的边际值(Margin),等等。

Deep Attention Matching Network

除此之外,在传统对话技术中,模型一旦学习完成,产出什么结果不受人为控制,这并非总是符合预期,我们可以尝试把需要的信息加入到模型中去,人为去控制一个显式的、可解释的生成过程。一个技术难点是当加入太多关键词,可能会导致语义信息互相影响,其先后顺序也难以决定;同时传达的方式也要合适,有时候需要显式体现关键词,另外有时候只需要将关键词的语义信息加以体现即可。整个模型体现了隐式传达关键词信息的过程。

严睿最后表示,今年他们正在持续探索一项工作,是基于小数据的对话模型,以克服传统对话技术对大数据依赖过多的局限性。

严睿论述基于神经网络对话技术的新研究与新挑战

何晓冬:语言理解、机器对话、人机对话——语言智能的演化

何晓冬在报告《从语言理解、机器问答、人机对话——语言智能的演化》中,按照语言理解、机器问答、人机对话三个层次,介绍了NLP领域的最新研究进展,并结合京东智能情感客服的应用实践案例,讨论了NLP以及对话技术在智能化之路上面临的机遇和挑战。他的演讲要点如下。

NLP是AI核心任务,就是让计算机能理解语言、生成语言。

拜深度学习所赐,人类语言技术(Human Language Technology,HLT)领域近年来取得了重大突破。这张图(参见下图)是过去20多年关于语音识别错误率变化的简单历程,我们可以看到语音识别的错误率在90年代快速下降后,自2000年后进展缓慢。直到2010年基于深度学习的模型提出后,语音识别取得了重大突破,这也是深度学习首次在一个大规模的核心的AI任务上展示了它的威力和潜力。而到了2017年,最新的深度学习语音识别模型已经在深具挑战的Switchboard数据集上将识别错误率降低到了5.1%,达到职业速记员的水平。

深度学习率先在大词表语音识别任务上产生突破

伴随着深度学习的效果被证明,大家投入了更多的资源,在HLT领域孕育出很多效果强大的深度学习模型,比如2013年我们又跟Yoshua Bengio 等合作在口语理解问题上第一次成功提出基于 RNN的语义槽值提取模型等。在语义分类方面,我们设计了层次化注意力模型 (HAN):在词、句子、段落等多个层面建模上下文信息,来理解语义,判断意图,并通过自注意力机制(self-attention) 给出一定程度的可解释性。

在语义的表示方面,为了从自然语言中抽取出语义并将其投影到一个语义向量空间以帮助搜索、推荐、分类、问答等应用,我们在2013年提出了深度语义模型DSSM,通过训练语义相似度的概念来训练模型提取句子层面的语义表示向量。而在接下来知识表示和推理方面,我们提出DistMult模型,用向量来表示实体,用矩阵来表示实体和实体之间的关系(比如一个人物、一个城市等实体,及出生地、国籍等关系),从而在连续语义空间里表示知识,通过在这个空间计算和挖掘新的关系链条,推理出新的知识。我们可根据这些结构化知识实现机器问答(例如我们2015年提出的STAGG模型)。而现在已经有一些新的活跃领域,研究对非结构化的文本知识理解并回答问题(例如SQuAD)。

现在,我们来看人机对话的发展情况,它从应用的角度有两种发展方向:一是智能助理,用于大规模复杂任务场景下帮助用户通过自然语言交互获取信息、解决问题、高效自动完成复杂任务;二是情感陪护,即打造具备常识、同理心、正面情感个性及符合伦理的对话系统为用户提供情感交流与陪护。这两方面在过去60年有很多进展,最早的对话机器人是1966年MIT的Eliza,是一个基于模板、模拟人类对话的机器人;到了90年代,出现任务型对话机器人;步入智能手机时代后,出现以苹果Siri、微软小冰等为标志新一代智能助理和情感陪护机器人。

就对话机器人的应用现状而言,尽管出现了很多特定领域对话系统的应用如智能客服,但开放领域及针对高复杂度、要求高可靠性的任务的对话系统仍然是个挑战。这里有大量问题亟待解决,比如需要做到多轮对话管理、需要情感上产生同理心的对话技巧、需要深切理解用户意图,甚至还需要进行推理、决策和博弈等。

我们的目标,是希望打造一个通用智能对话技术平台,集成重要的智能对话组件,能够结合各种应用场景,迅速组合、部署出来一系列新的对话机器人。因此我们一方面需要在真实环境下,通过大规模部署对话机器人,并基于真实用户使用和交流,得到真实的反馈数据;另一方面,我们针对对话技术的各种难点,包括如何制定对话质量评估准则,如何实现精确的语义理解,如何联系知识与常识,如何生成可控、可解释的对话回复,甚至在语言之外,如何将视觉、语音等信息进行跨模态融合等展开深入研究。

目前,京东已与智源研究院合作,推出智源-京东大规模任务导向对话数据集(BAAI-JDDC),通过开源京东一些脱敏后的对话数据及相应的商品数据,帮助推动大规模复杂任务导向的对话技术的基础研究,包括多轮对话、决策技术、深度语义理解、内容生成、多模态交互技术、获取知识与推理等方面的深入研究。

何晓冬论述从语言理解机器问答到人机对话语言智能的讲话

联合实验室希望打造一个通用平台,能结合各种应用场景,迅速组合、部署出来一系列新的对话机器人,从对话技术层面寻求突破。

这需要在真实环境下,通过大规模部署对话机器人,并和真实用户使用和交流,以得到真实的反馈数据;另一方面,我们将通过分析,评估对话技术的各种难点,例如如何确定对话评估准则,如何实现精确的语义理解,如何联系知识常识,如何形成可控、可解释的对话回复,甚至在语言之外,如何将视觉、语音等信息进行综合研究等。

京东已与智源合作,推出智源-京东大规模任务导向对话数据集(BAAI-JDDC),这个数据集通过开源京东一些脱敏后的对话数据及相应的商品数据,旨在帮助推动大规模任务导向的对话技术支撑。何晓东最后表示,他希望这个数据集能够推动多模态对话的智能基础研究,包括多轮对话、决策技术、深度语义理解、内容生成、多模态交互技术、获取知识与推理等。

- 往期文章 -

点击"阅读原文"加入「智源社区」

活动要点回顾 | 智源论坛:自然语言处理报告会相关推荐

  1. 探索机器学习理论的最新进展,走近云、端、芯上的视觉计算——“智源论坛:机器学习报告会”重点梳理...

    1909 年,莱特兄弟通过纯粹的工程方法首次把飞机送上了天,但彼时的他们并不了解其中的原理.如今,经过几十年的发展,飞机的性能较之当年已然不可同日而语.究其原因,主要在于上世纪四五十年代,人们在空气动 ...

  2. 智源论坛报名 | 自然语言处理

    报名请点击「阅读原文」 时间:11月7日14:00-16:50 地点:清华大学FIT大楼1-312 (地址:北京市海淀区双清路30号清华大学) BAAI 活动详情 当前,自然语言处理领域面临数据匮乏常 ...

  3. 活动直播丨“2021智源论坛”邀您见证智源三年成绩与展望

    社区伙伴们,今天智源三岁啦! 三年而励,11月14日(今天)下午,我们将在新家「智源大厦」举办首场活动--2021智源论坛.张宏江理事长与黄铁军.唐杰.曹岗三位院长将一起分享智源这三年的酸甜苦辣.收获 ...

  4. 智源论坛 | 知识与认知图谱(5月30日,活动报名)

    活动亮点 智源论坛,AI技术前沿精粹尽览 独家经验分享,顶尖学者零距离 探讨前沿技术,亦分享职业经验 助你成为更好的研究者.工程师 活动报名及报告摘要请扫描文末二维码,或点击"阅读原文&qu ...

  5. 智源大会自然语言处理论坛精华观点 | 刘群、陶建华、刘挺、黄萱菁、刘洋等解读NLP最新趋势...

    预训练之后,哪些NLP问题仍待解决?情感计算是如何应用于抑郁线索分析?如何处理NLP中的可解释性问题?在本次智源大会自然语言处理专题论坛上,清华大学教授刘洋,华为语音语义首席科学家刘群,中国科学院自动 ...

  6. 探索可解释及稳定性,AI与博弈,自适应推理——“智源论坛:机器学习青年学者报告会”要点总结

    6月10日,北京智源人工智能研究院(BAAI)继"人工智能的数理基础"后,发布"机器学习"重大研究方向,由颜水成教授担任首席科学家,拟针对当前以深度学习.强化学 ...

  7. 智源论坛Live丨青年科学家线上报告会日程发布

    直播时间:2020年2月11-12日为期两天 报名方式见文末 活动详情 2019年11月智源研究院启动了"2019年度智源青年科学家征集评选工作",面向人工智能领域优势高校院所定向 ...

  8. “智源论坛Live”报名 | 清华大学岂凡超:义原知识库的应用和扩充

    报名请点击「阅读原文」 在线直播时间:12月31日19:30-20:30 "智源论坛Live"第3期 "智源论坛Live"是智源论坛系列活动之一,通过在线直播形 ...

  9. “智源论坛Live”报名 | 清华大学游凯超:领域适配前沿研究--场景、方法与模型选择...

    报名请点击「阅读原文」 在线直播时间:12月24日19:30-20:30 "智源论坛Live"第2期 "智源论坛Live"是智源论坛系列活动之一,通过在线直播形 ...

最新文章

  1. 技能UP:SAP CO掌上配置手册
  2. 洛谷P4301 [CQOI2013]新Nim游戏
  3. 【Canal源码分析】TableMetaTSDB
  4. MySQL的char与varchar:类型长度 记录字节 截取报错 保存trim 数据校验 存储占用
  5. 计算机玩游戏不能全屏,玩游戏屏幕两边有黑条?教你简单几步轻松解决-win7玩游戏不能全屏...
  6. 2017-2018 Northwestern European Regional Contest (NWERC 2017)
  7. windows更改pip源_让你的 pip下载速度 飞起来
  8. DOM(二)使用DOM
  9. 关于在win8下开发c或者c++时,某些特殊情况
  10. 深入理解Nginx:模块开发与架构解析阅读--Nginx架构设计简介
  11. 一个小小的flash
  12. zktime 协议_ZKTiMe5.0考勤管理系统使用介绍(1.3版).pdf
  13. html如何实现统计访客功能,百度统计实时访客功能详解
  14. Ubuntu上安装博通无线网卡驱动
  15. CSAPP-Lab03 Attack Lab 详细解析
  16. 密码学总结(一) 数学常识
  17. C++保存中间结果到文件
  18. adb bugreport :查看设备所有信息(获取错误报告)
  19. TCP——SYN、ACK、FIN、RST、PSH、URG详解
  20. java实习第二周总结

热门文章

  1. minhash算法检索相似文本_文本去重算法:Minhash/Simhash/Klongsent
  2. visual basic从入门到精通第三版cd_C++从零到精通,这才是你需要的书单!
  3. python 函数调用列表_在项目列表上调用一个函数的最简洁方法 - python
  4. Error: EACCES: permission denied, symlink
  5. eclipse中使用maven创建项目JDK版本默认是1.5解决方法
  6. JS阻止事件冒泡的3种方法,以及他们之间的不同
  7. 除了海思麒麟 华为在ARM芯片上还有哪些成就?
  8. 【一通百通】Bash的单双括号建议:多用[[]], 少用[]
  9. JS --正则表达式
  10. I.MX6 ar1020 SPI device driver hacking