文 | Luke@知乎

知识图谱是NLP的未来吗?

2021年了,不少当年如日中天技术到今天早已无人问津,而知识图谱这个AI界的大IP最火的时候应该是18,19年,彼时上到头部大厂下到明星创业公司都在PR自己图谱+NLP布局能够赋予AI认知能力。到了当下这个AI总体降温的时间节点,我们是时候冷静思考知识图谱的未来到底该何去何从了。

回到这个问题本身:知识图谱是否是NLP的未来呢?

我的看法:知识图谱不是NLP的未来,因为知识图谱是另外一种与NLP有很多交集的技术。在目前所有已知的发展方向中,知识图谱是最有可能长期和NLP互利共生的技术。

那么,知识图谱和NLP到底是什么关系呢?直觉上看,机器学习可以类比我们人类学习。回顾一下我们自己的学习过程,大脑和感官主要负责信息获取、处理、分析、决策。对于简单问题或少数天才,接受到信息后,只需要在大脑中思考一遍即可得出结论。但是对于复杂问题,比如工作汇报或期末考试,只靠大脑很难记住所有信息,这个时候,很多人都会选择将一些加工过的结构化或半结构化的知识整理成笔记,方便需要的时候快速回顾。

发现了吗?大脑的角色非常类似NLP以及其他ML技术,而笔记几乎就是KG的灵感来源。具体来说,NLP在图谱构建过程中举足轻重,而图谱又通过引入知识的方式反哺NLP。

不少证据已经表明诸如Bert之类的预训练语言模型本身已经存储了知识,就像我们的大脑中也存在一些关键记忆一样,但它不可能将所有现实世界中的事实全部内化,犹如人脑不可能记住所有见过的东西一样,而知识图谱通过引入知识能缓解NLP的学习压力。另一个严重的问题是,由于NLP技术目前远没有人脑智能,模型在训练中记住的知识实际上是不可控的(此处可以围观隔壁的AI偏见问题[1]),这对NLP技术的落地应用是一个需要考虑的风险,而在可解释性方面,知识图谱是Bug级的存在。

知识图谱如何赋能NLP技术?

NLP技术如何赋能图谱构建的资料很多,知识图谱落地应用近些年也是进展地如火如荼,但,知识图谱如何赋能NLP技术这个话题聊的人却不太多。

我自己总结了最近几年KG赋能NLP技术的一些打法,欢迎补充~

预训练中引入知识

代表工作:

ERNIE[2],使用短语和实体mask策略在中文NLP任务上取得了较好的效果,其中短语和实体来自KG

图2. ERNIE

K-BERT[3],预训练过程中注入相关的KG三元组,为模型配备领域知识,提高模型在特定领域任务上的性能,同时降低大规模预训练成本。

图3. K-BERT

信息抽取中做远程监督

用KG对齐文本做远程监督标注数据是信息抽取领域的大杀器,能够有效降低人工标注成本,可以将实体抽取、关系抽取、事件抽取等子任务一网打尽,用过的小伙伴都说好。

图4. 远程监督

实体链接中引入实体信息

实体链接,就是把文本中的mention链接到KG里的entity的任务。如下图所示[4]:

图5. 实体链接

显然,KG中的实体信息,如实体描述、实体属性、实体embedding以及实体间关系等都是该任务的关键特征,想深入了解的朋友请移步[4]。

文本生成中融合知识

通过知识图谱中的显示事实来指导生成文本是实现可控文本生成的一个重要方向,如下所示[5]:

图6. 文本生成

具体大致分为4种较为典型的方式[6]:

  • 多任务学习(生成+文本蕴含)

  • 基于knowledge graph 的文本生成

  • 基于memory network 的文本生成

  • 结合分布-采样进行文本生成

想详细了解的朋友请移步[6]。

语义匹配中引入关键词信息

在深度语义匹配任务中,有人发现,通过文本中关键词之间的交互即可较为容易的找到匹配对象,与其他词汇关系不大[7][8]。

图7. 语义匹配case

因此,考虑通过从KG中引入特定领域的关键词表,然后在建模时highlight关键词的重要度,从而达到更好的效果[8]。

图8. 关键字注意力机制

后台回复关键词【入群

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

 

[1]AI的偏见:机器就是绝对理性的么?https://baijiahao.baidu.com/s?id=1684480115111405061&wfr=spider&for=pc

[2]ERNIE: Enhanced Representation through Knowledge Integration https://arxiv.org/pdf/1904.09223.pdf

[3]K-BERT: Enabling Language Representation with Knowledge Graph https://arxiv.org/pdf/1909.07606.pdf

[4]ab【知识图谱】实体链接:一份“由浅入深”的综述 - Nicolas的文章 - 知乎 https://zhuanlan.zhihu.com/p/100248426

[5]Text Generation from Knowledge Graphs with Graph Transformers https://arxiv.org/pdf/1904.02342v1.pdf

[6]ab文本生成12:4种融合知识的text generation(推荐收藏) - 林小平的文章 - 知乎 https://zhuanlan.zhihu.com/p/133266258

[7]腾讯专注关键词的深度语义匹配模型 https://blog.csdn.net/qq_27590277/article/details/113777978

[8]abKeyword-Attentive Deep Semantic Matching https://arxiv.org/abs/2003.11516

知识图谱能否拯救NLP的未来?相关推荐

  1. 文档关键信息提取形成知识图谱:基于NLP算法提取文本内容的关键信息生成信息图谱教程及码源(含pyltp安装使用教程)

    文档关键信息提取形成知识图谱:基于NLP算法提取文本内容的关键信息生成信息图谱(含pyltp安装使用教程) 1. 项目介绍 目标:输入一篇文档,将文档进行关键信息提取,进行结构化,并最终组织成图谱组织 ...

  2. 北京内推 | 百度AIG知识图谱部招聘NLP算法实习生

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 百度 百度知识图谱面向海量数据,综合运用语义理解.知识挖掘.知识整合与补全 ...

  3. 让知识构建未来—知识图谱技术与应用 | AI TIME-33

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 以深度学习为代表的人工智能获得巨大进展,但深度学习的不可解释性已成为制约其发展的障碍,"理解"与"解释&q ...

  4. 综述 | 三大路径,一文总览知识图谱融合预训练模型的研究进展

    当前,预训练模型已是AI领域较为成熟的一项技术,但由于基于神经网络架构的模型本身不具有常识能力,在一些涉及逻辑推理和认知的任务上力有不逮. 近年来,知识图谱越来越受到人们的关注,知识图谱旨在提供一种复 ...

  5. ACL 2019 知识图谱的全方位总结

    来源:AI科技评论 翻译 | 栗峰 审校 | Camel 编辑 | Pita ACL 2019已经结束,但其空前的规模仍然震撼人心:2900多篇提交论文,660篇被接收,3000多名会议注册人员,以及 ...

  6. 技术动态 | 知识图谱构建的研究已走入下半场,但大规模落地应用仍需时间

    本文转载自公众号:AI前线. 作者 | 李冬梅 采访嘉宾 | 唐杰 知识图谱是近年来人工智能技术蓬勃发展的核心驱动力之一,已广泛应用在金融.电商.医疗.政务等众多领域,经过短短几年的发展,热度依旧不减 ...

  7. 应用实践 | 网络智能运维下的知识图谱

    本文转载自公众号:网络人工智能园地. 让AI更智能,谷歌要用知识图谱让AI像人一样理解世界. 让AI更智能,我们要用知识图谱让AI像网络专家一样了解网络. 知识图谱引领人工智能从感知阶段演进到认知阶段 ...

  8. 技术动态 | ACL 2019 知识图谱的全方位总结

    本文转载自公众号:AI科技评论.  ACL 2019 已经结束,但其空前的规模仍然震撼人心:2900多篇提交论文,660篇被接收,3000多名会议注册人员,以及4个超过400人的研讨会(比一些国际CS ...

  9. 《知识图谱》2020综述论文,18位作者, 130页pdf,547篇参考文献

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 编辑:Sophia 计算机视觉联盟  报道  | 公众号 CVLianMeng 转载于 :arvix.2003.02 ...

最新文章

  1. C#多态性-抽象类对象引用子类实例
  2. Cpp 对象模型探索 / 程序转化语义
  3. PHP 如何实现多进程 and mysql查询效率
  4. 进程组 会话 作业
  5. webService上传图片
  6. 使用spyder编译器单步调试python
  7. 《运营之光》-- 学习笔记(二)
  8. UI设计案例|文件管理App界面设计灵感
  9. geth+remix+metamask 实现私有链智能合约部署
  10. 【复习笔记】Cache的映像方法
  11. 上海交大发布全球首款专用光量子计算软件
  12. Java中异常处理和设计
  13. 扛住100亿次请求?我们来试一试
  14. 凸优化第五章对偶 作业题
  15. 自立,霸者的生存之道
  16. 某个蝰蛇音效的卡刷包代码分析
  17. 如何在谷歌地图上标注宾馆饭店矢量点并叠加导出为图片
  18. 山东理工ACM 1189 C语言实验——逆置正整数(升级版解法)
  19. 上位机开发(软件测试)
  20. 如何写PRD文档[最全版]

热门文章

  1. 9.带有返回值的函数
  2. 动态规划 POJ 1088 滑雪
  3. GARFIELD@01-19-2005
  4. 排序算法之希尔排序(C/C++)
  5. 这种扯淡的嵌入式项目,尽量不要碰
  6. 聊一聊我自己的从业经历和感悟
  7. 解析一个C语言俄罗斯方块游戏,包你看了就会
  8. I2C和SPI注定要打一架
  9. 要多大内存才满足_佛龛的尺寸要多大?
  10. 智慧交通day02-车流量检测实现12:基于yoloV3的目标检测