知识图谱构建中的抽取方法看法

  • 一、实体抽取
  • 二、属性值抽取
  • 三、关系三元组抽取
    • 基于规则的关系抽取
    • 有监督关系抽取
    • 半监督关系抽取
    • 无监督关系抽取
      • 远程监督关系抽取
      • 开放域关系抽取
  • 四、属性三元组抽取
  • 五、实体、关系联合抽取

随便写的、看看就好。
待续

现有开源的知识图谱一般使用三元组存储,也包含概念层的本体定义。小型的知识图谱可以从属性图这个角度来看待,具体应该包括点、边、点的属性,其中点和边都存在不同的类型。总体来说新建一个知识图谱需要定义。

  1. 实体的类型集合
  2. 关系的类型集合及其限制(起点和终点分别是何种类型的点)
  3. 实体-属性名-属性值 三元组
  4. 实体-关系-实体 三元组
  5. 属性值集合(定义规则)

在构建知识图谱中 1.实体的类型集合2.关系的类型集合及其限制 一般利用固定领域的知识和知识图谱使用需求进行预先定义,其也相当于开源知识图谱中本体概念层。知识图谱的构建过程主要关心 3. 实体-属性名-属性值 三元组4. 实体-关系-实体 三元组。一般来说,将任务3当作任务4来处理。但是其也存在明显不同,具体不做比较。
这里也就可以将知识库构建中的抽取任务分为:

  1. 实体抽取
  2. 属性抽取
  3. 关系抽取
  4. 实体属性抽取
  5. 实体与关系联合抽取

一、实体抽取

实体抽取也叫命名实体识别。从方法上来说存在着:

  1. 利用外部词典和外部知识库进行识别
  2. 基于规则的方法进行识别
  3. 基于统计学习的方法。

现在开放域命名实体识别已经成为了一项基础任务了,大量工具都能够将命名实体识别做到较好的效果。
但是在特定领域下实体抽取的效果并不理想,可以标注足量数据,使用BERT、LSTM+CRF模型利用序列标注模型抽取实体。不过构建数据集的成本一般比较高,一般还可以结合外部词典或者知识库、定义规则快速抽取实体。

二、属性值抽取

属性值相比实体名来说,其定义更加宽泛,其类型相比实体来说肯定更多。感觉上,可以完全把属性当作实体处理,利用序列标注来完成属性抽取、也可以基于规则来识别大量属性(毕竟存在着长度、宽度这样的属性)。

三、关系三元组抽取

关系抽取的方法按照机器学习中的训练模式大体上可以分为基于规则的方法、有监督、半监督、无监督、远程监督、开放域关系抽取。

基于规则的关系抽取

无监督的关系抽取不需要训练数据,主要依靠领域专家自定义一定的规则(正则表达式)来抽取出实体之间的关系。一个简单的例子就是“特朗普的国籍是美国”,我们只要定义。一个人名实体后接“的国籍是”后面接一个国家实体。那么就可以抽取出 特朗普–国籍–美国。当然实际的做法会比这样复杂一些,毕竟中间的字段是不能穷举的。但是基于规则的方法就是这样去自定义一些规则来实现抽取的任务。
当然,在抽取的过程中实质上我们得到的数据不仅仅是“特朗普的国籍是美国”这一个字符串,在刚才的例子中我们就利用了 “特朗普”是人,“美国”是一个国家的信息,我们还可以挖掘该句子中的其他信息,最常见的就是利用语法信息和语义信息,这些都可以利用到关系抽取中来提高我们定义规则的完备程度。

有监督关系抽取

有监督的关系抽取其实也就是关系分类。关系分类主要是利用统计机器学习的方法来实现分类,输入为一个句子“特朗普的国籍是美国”和两个实体“特朗普”“美国”,以及预先定义的关系类型集合,输出为类型集合中的一个关系(此处为“国籍”)。细分下去也包含三种、分别是基于特征向量,基于核函数和基于深度学习的方法,由于该问题的输入输出很明确,现在已经有大量的神经网络模型来处理这个明确的分类问题,其中效果最好的应该是Linlin Wang的多层注意力CNN论文地址。同样解决这个问题CNN相比RNN感觉效果更好一些,不过从本能的设想来看,RNN更能解决这类序列数据问题。当然也可以利用预训练模型来改进模型,我简单测试在CNN原始模型上只能达到82,而加入bert后达到86.9。github链接.而阿里使用bert后拼接两实体和句子向量进行分类,F1值达到89.25。论文地址。
这些论文所处理的数据集都是SEM_EVAL 2010 task 8 任务集,相对来说数据集很小,曾经看到过说在这个数据集上的任务都是在不断的过拟合,在实际任务场景下效果是没有保障的。

基于神经网络的做法主要好处就是端对端,不需要预抽取特征或者说语法分析。

实际应用场景下的关系抽取任务,不论是小型知识图谱还是大型知识图谱,都难以去预定义完全的候选关系。

半监督关系抽取

半监督关系抽取主要利用自举的思路:其首先人工构造少了关系实例作为种子集合,然后利用模式学习或者训练模型的方法,通过不停迭代来扩展关系集合,最终获得足够规模的关系。

无监督关系抽取

无监督关系抽取应该也是包含基于规则的方法的,这里主要指利用聚类算法来实现关系类型的确定,一般应用场景是未知关系类型情况下,需要利用语料来确定关系类型。其一般需要大规模语料支持,通过语料冗余性来得到可能关系模式集合,最后确定该关系名称。

远程监督关系抽取

远程监督的关系抽取主要是利用已有的知识库,和文档集合。其假设一句话里面包含两个实体,并且在知识库中两实体存在关系,那么这句话就包含了两实体存在关系的信息。有一个中文人物关系数据集就是使用百科中的关系人物和新闻语句中同时出现来构建的。
该假设是一个强假设,包含大量错误数据,这样必然会影响到后面机器学习算法的效果。由此又有大量研究关注于降低远程监督导致的误差这一问题。

开放域关系抽取

开放域的关系抽取其实主要是面向任务去区分的,其使用的技术还是之前的技术,只是其解决的问题是面向开放域抽取中出现的新问题。

四、属性三元组抽取

实体-属性名-属性值抽取,可以直接转换为实体-关系-实体这样的三元组去处理,另外一个直接可以使用规则来抽取属性值和实体-属性名-属性值。现在有大量工作来做实体和关系的联合抽取,属性值和实体-属性名-属性值更适合联合去做,毕竟单独抽取属性值在通用型上不合适。

五、实体、关系联合抽取

实体关系联合抽取就是一个模型同时抽取实体和关系,而不是按照先抽取实体再抽取关系的pipeline来进行。好处当然就是这样抽取可以避免错误传播,而且在关系抽取任务上可以利用抽取实体的信息。另外这样也更加端到端:输入句子,输出关系三元组。

1.可以直接把关系和实体统一到一个任务中。比如用序列标注模型,“特朗普是美国总统、他住在华盛顿”,特朗普标签为’E1-职位",美国总统标签为"E2-职位",他标签为"E1-住址",华盛顿标签为"E2-住址",这样我们就可以识别出任务中的两个关系三元组。使用所有的序列标注模型都可以完成这样的任务。当然,这个模型存在这样一个问题: 难以处理同一实体涉及多个关系的情况。

2.可以使用多任务学习,使用一个网络同时学习实体抽取和关系抽取模型。BERT-Based Multi-Head Selection for Joint Entity-Relation Extraction。

其同时学习关系抽取和实体抽取两个模型达到联合抽取的效果。而且为了避免前面出现的同一实体涉及多个关系这样的问题, 这里每个尾实体学习一个指向头实体的index。这样同一个头实体可以涉及多个关系。

属性和关系的区分。 具体来说对关于特朗普的两个三元组。"特朗普–性别–男性"和“特朗普–国家–美国“这两个三元组,我们是既可以划分到关于特朗普的属性三元组,也可以划分到关于特朗普的关系三元组的。那到底应该把”性别“和”国家“看作属性还是关系呢?大的来说属性表示的是实体的内在特性、关系表示的是实体的外部联系。而从操作的角度来说,对于其图谱最终存储到了知识库中。我们会通过 男性找到特朗普么?我们会通过 美国找到特朗普么?
如果我们访问这条三元组表达的信息主要通过实体,那么它应该被划分为一个属性。
如果我们访问这条三元组表达的信息可以通过实体和尾实体,那么它应被划分到关系中去。

数据集
SEM-EVAL2010 task8 英文数据集 (官网有吧、可联系邮件提供)
中文人名数据集 (github有吧、可联系邮件提供)
2019语言与智能技术竞赛数据 (可联系邮件提供)

知识图谱构建中的抽取方法相关推荐

  1. 【知识图谱】知识图谱数据构建的“硬骨头”,阿里工程师如何拿下?深度学习在知识图谱构建中的应用。

    阿里妹导读:搜索"西红柿",你不但能知道它的营养功效.热量,还能顺带学会煲个牛腩.炒个鸡蛋!搜索引擎何时变成"暖男"了?原来背后有"知识图谱" ...

  2. 信息抽取在知识图谱构建中的实践与应用

    编者按 坦率地讲,各行各业对如何落地知识图谱这个问题,或多或少都心存一丝疑惑.人类知识和机器可理解的知识有什么区别?知识图谱如何突破自身局限性,从"万事通"转为"科学家& ...

  3. 首次公开!深度学习在知识图谱构建中的应用

    在智能化时代的今天,搜索引擎不仅能理解用户检索的信息.并总结出与搜索话题相关的内容,更在逐步构建一个与搜索结果相关的完整知识体系,让用户获得意想不到的发现.神马搜索的知识图谱与应用团队就在这条路上不断 ...

  4. 领域应用 | 深度学习在知识图谱构建中的应用

    本文转载自公众号:阿里技术. 深度学习模型介绍 DeepDive系统在数据处理阶段很大程度上依赖于NLP工具,如果NLP的过程中存在错误,这些错误将会在后续的标注和学习步骤中被不断传播放大,影响最终的 ...

  5. CCKS-2017 行业知识图谱构建与应用-下篇

    http://www.sohu.com/a/192557627_99934777 摘要: 这篇是PPT的下半部分,更加偏重于实战中关键技术的难点剖析. 行业知识图谱关键技术 上篇我们讲行业知识图谱生命 ...

  6. 陈华钧 | 知识图谱构建,将成为智能金融的突破口

    本文转载自公众号:恒生技术之眼. " 我们太容易被机器下棋这样的事所吸引,以至于现在谈到人工智能就基本都是在说机器学习和深度学习,而相对忽视了与人工智能相关的另外一个重要的方向:知识图谱. ...

  7. 虚拟专题:知识图谱 | 流程工业控制系统的知识图谱构建

    来源:智能科学与技术学报 流程工业控制系统的知识图谱构建 牟天昊1, 李少远1,2 1 上海交通大学电子信息与电气工程学院 2 上海交通大学系统控制与信息处理教育部重点实验室 摘要:近年来,工业控制系 ...

  8. 前沿技术探秘:知识图谱构建流程及方法

    作者 | 郑毅 封图| CSDN│下载于视觉中国 出品 | CSDN云计算(ID:CSDNcloud) 随着AI技术的发展和普及,当今社会已经进入了智能化时代.与以往不同的是,在这一波浪潮中,企业不仅 ...

  9. 装备保障性验证知识图谱构建方法研究-学习笔记

    装备保障性验证知识图谱构建方法研究 领域知识图谱构建 在逻辑层面,知识图谱通常可以划分为数据层和模式层两个层次.数据层主要是将领域中的多源异构数据转换为三元组的形式,通过一系列三元组表达领域知识或者常 ...

最新文章

  1. 选择适合页面或应用程序的数据查看机制
  2. 5-django——验证码,中间件
  3. 今日推荐:如何设计一个支撑数亿用户的系统
  4. 课时71.后代选择器(掌握)
  5. pythonwx功能_python中wx模块的具体使用方法
  6. python实现knn算法鸢尾花_Python学习之knn实现鸢尾花分类
  7. web系统找回密码流程
  8. ubuntu 启动时显示initramfs 无法进入系统
  9. springBoot过滤器去除请求参数前后空格
  10. web操作日志丢失_分享:有赞百亿级日志系统架构设计
  11. linux远程链接Windows桌面,linux远程桌面链接windows
  12. https 双向认证基本配置学习
  13. 计算机硬盘格式分类,win7 下默认的硬盘分区表类型是MBR还是GUID ?-win7的硬盘格式,win7装win10硬盘格式调整...
  14. 中望cad文字显示问号怎么办_CAD文件打开后有很多问号怎么办
  15. 阿里云来担保商标注册申请,担保有哪些程序(详细教程)
  16. 镁光闪存颗粒对照表_最全的内存颗粒编码规则说明,教你看穿内存条到底用的什么颗粒...
  17. 来了超火爆的Java游戏羊了个羊_java开发游戏项目
  18. 2021-10-09烧录固件芯片操作流程
  19. 那些年我们一起遇到的bug
  20. 字符串左旋和右旋的常见方法

热门文章

  1. 计算机视觉转型大数据开发,分享一下我的学习历程和大厂面经
  2. 安装vs2015后C#注释变为英文
  3. 【Python】PyQt5.QtWidgets模块常用函数和类(使用参考源码)
  4. 计算机音乐创作是什么,计算机音乐创作,creation of computer music,音标,读音,翻译,英文例句,英语词典...
  5. 【Matlab绘图进阶第5弹】Matlab绘制三维散点图
  6. 没有技术说明文档的开源都是耍流氓:微软Roslyn编译即服务在CIIP中具体应用(上)...
  7. IntelliJ IDEA历史版本官网下载地址
  8. VisualSVN的下载与安装
  9. html 自动排序表格,表格排序.html
  10. 【人工智能】实验一:基于MLP的手写体字符识别