知识图谱学习笔记四(知识抽取与挖掘)
知识抽取任务以及相关竞赛
知识抽取基本定义
实现自动化构建大规模知识图谱的重要技术。目的在于从不同来源、不同结构的数据中进行知识提取并存储在知识图谱中。
知识抽取子任务
命名实体识别(如:人物、组织、地点、时间等);
关系抽取(实体与实体之间的关系)
事件抽取(识别出文本中关于事件的相关信息,并以结构化的形式呈现)
知识抽取相关竞赛
1.消息理解会议(MUC):指出召回率、精确率是评价信息抽取系统性能的重要指标。
2.自动内容抽取(ACE): 该评测涉及汉语、英语以及阿拉伯语,主要包括实体检测与跟踪、关系检测与表征、事件检测与表征。
3.知识库填充(KBP):目标是开发和评估从非结构化文本中获取知识填充知识库的技术。
其独立子任务主要包括:实体发现与链接、槽填充、事件跟踪、信念与情感。
4.语义评测:增进人们对词义与多义现象的理解。
面向非结构化数据的知识抽取
实体抽取
1.基于规则的方法
(将规则与文本字符串匹配,小数据集有高的准确率与召回率,数据集大的话,
构建周期长,可移植性差)
2.基于统计模型的方法
常用模型:隐马尔可夫模型、条件马尔可夫模型、最大熵模型、条件随机场模型
涉及三个方面:训练语料标注、特征定义、模型训练(CRF)
3.基于深度学习的方法
目前用于命名实体识别的神经网络有:CNN、RNN、AM(引入注意力机制)。
不同的神经网络结构在命名实体识别过程中扮演编码器的角色,基于初始输入以及词的上下文信息,得到每个词的新向量表示,最后通过CRF模型输出对每个词的标注结果。
模型:LSTM-CRF模型、LSTM-CNNs-CRF模型。
LSTM-CRF模型(使用长短时记忆神经网络LSTM与CRF结合,分为Embedding层、双向LSTM层、CRF层)
LSTM-CNNs-CRF模型(与上一个模型的差异在于Embedding层加入了每个词 的字符级向量)
关系抽取
基于模板的关系抽取方法
通过模板匹配实现,如:模板1 【X】与朋友【Y】 模板2 【X】的朋友【Y】
基于监督学习的关系抽取方法
该方法是将关系抽取转化成分类问题,在大量标注数据的基础上,训练有监督学习模 型进行关系抽取。
传统的基于监督学习的关系抽取是依赖于特征工程的。近年来,主要是基于深度学习 的关系抽取方法有:流水线方法和联合抽取方法两大类。
流水线方法是将实体识别与关系抽取相互分离的,互不影响的;
联合抽取方法是将实体识别与关系抽取相互结合的;
基于弱监督学习的关系抽取方法
该方法需要大量的训练语料,模型优化更是依赖于大量的训练数据。
主要包括:远程监督方法和Bootstrapping方法。
远程监督方法:从知识图谱中抽取存在目标关系的实体对,然后从非结构化文本 中抽取含有实体对的句子作为训练样例,最后训练监督学习模型进行关系抽取。
Bootstrapping方法:该方法是通过少量的实例作为初始种子集合,然后不断学习 获取关系抽取的模板,从而抽取更多的实例加入种子集合中,不断更新迭代。
事件抽取
事件抽取任务包含的子任务:
识别事件触发词及事件类型
抽取事件元素并判断其角色
抽出描述事件的词组或句子
事件属性标注
事件共指消解
举例:基于动态多池化卷积神经网络的事件抽取模型,该模型包含:词向量学习、词汇 级特征抽取、句子级特征抽取喝分类器输出等四部分
面向结构化数据的知识抽取
直接映射(从关系数据库到RDF图数据的简单转换,为定义和比较更复杂的转换提供基础)
R2RML(用于从关系数据库到RDF数据集的自定义映射的语言,提供了在RDF数据模型下 查看现有关系型数据的能力,并可以基于用户自定义的结构和目标词汇表示原有的关系型数据)
相关工具:基于本体的数据库访问系统(OBDA),如: D2RQ、Mastro、Ultrawrap、Morph-RDB、Ontop
面向半结构化数据的知识抽取
半结构化数据是指 不符合关系数据库或其他形式的数据表形式结构,但又包含标签或者其他标记来分离语义元素并保持记录和数据字段的层次结构。
面向百科类数据的知识抽取
面向web网页的知识抽取
知识挖掘
知识挖掘是指从已有的实体及实体关系挖掘出新的知识,具体包括知识内容挖掘和知识结构挖掘。
知识内容挖掘(实体链接)
实体指称识别、候选实体生成、候选实体消歧等三个步骤。
实体指称识别:识别出文本中的实体指称
候选实体生成:确定文本中的实体指称可能指向的实体集合。
候选实体消歧:在确定文本中的实体指称和候选实体后,实体链接系统需要为每一个 实体指称确定其指向的实体。
知识结构挖掘(规则挖掘)
归纳逻辑程序设计、路径排序算法
开源工具
DeepDive
知识图谱学习笔记四(知识抽取与挖掘)相关推荐
- 知识图谱学习笔记-知识图谱介绍
一.什么是知识图谱? 解释1: 知识图谱本质上是语义网络 (本体论是语义网落的重要因素) 解释2: 知识图谱也叫做多关系图,由多种类型的节点和多种类型的边组成 构建知识图谱系统中所涉及到的技术 数据 ...
- 知识图谱学习笔记之知识图谱中的知识分类
知识图谱中的知识分类 事实知识 事实知识是关于某个特定实体的基本事实,如(山东富士苹果,产地,山东).事实知识是知识图谱中非常常见的知识类型.大部分的事实知识都是在描述实体的特定属性或关系,如&quo ...
- 知识图谱学习笔记(1)
知识图谱学习笔记第一部分,包含RDF介绍,以及Jena RDF API使用 知识图谱的基石:RDF RDF(Resource Description Framework),即资源描述框架,其本质是一个 ...
- 知识图谱学习笔记——(四)知识图谱的抽取与构建
一.知识学习 声明:知识学习中本文主体按照浙江大学陈华钧教授的<知识图谱>公开课讲义进行介绍,并个别地方加入了自己的注释和思考,希望大家尊重陈华钧教授的知识产权,在使用时加上出处.感谢陈华 ...
- 知识图谱学习笔记-非结构化数据处理
非结构话数据到知识图谱 非结构数据-> 信息抽取(命名实体识别.关系抽取)-> 图谱构建(实体消歧.链接预测)-> 图分析算法 一.文本分析关键技术 拼写纠错 分词 词干提取 词的过 ...
- 知识图谱学习笔记(一)——知识图谱基础
知识图谱基础 一.知识图谱的基本概念 知识库是一个有向图,包含: 多关系数据(multi-relational data) 节点:实体/概念 边:关系/属性 关系事实=(head, relation, ...
- 知识图谱学习笔记-风控知识图谱设计
一.知识图谱搭建流程 问题定义->数据收集->数据预处理->设计知识图谱->存储知识图谱->应用知识图谱->评估系统 二.知识图谱设计原则 1)需要哪些实体.关系. ...
- 知识图谱学习笔记——(二)知识图谱的表示
一.知识学习 声明:知识学习中本文主体按照浙江大学陈华钧教授的<知识图谱>公开课讲义进行介绍,并个别地方加入了自己的注释和思考,希望大家尊重陈华钧教授的知识产权,在使用时加上出处.感谢陈华 ...
- 知识图谱学习笔记03-知识图谱的作用
语义搜索 知识图谱在语义搜索方面扮演着非常重要的角色.传统的文本搜索引擎基本上是基于关键词匹配的方式进行搜索,这种方式容易受到搜索词语的表述方式和不同语言之间的差异的影响,而无法深入理解用户的意图和查 ...
最新文章
- KERAS中fit方法中verbose参数详细解释
- mysql内表和外表_Hive内表和外表的区别
- Linux下Apache与Tomcat整合调试
- web前端开发论文写作_2019学习Web开发指南
- 方差、标准差(均方差),均方误差、均方根误差
- Ubuntu 15.04 或更新版 更新源/Ubuntu 15.04 Vivid Vervet更新源已可用
- iOS 13问题记录
- immunedeconv估算免疫细胞比例
- JAVA学习(五):Java面向对象编程基础
- 免费下载 | ContextCapture分块OBJ模型合并与裁剪
- 陈玉琴答问: 经络按摩与敲胆经(转载)
- JVM如何读GC日志以及如何使用工具分析
- win7笔记本设置WiFi热点详解
- Android手表商场项目总结
- 201771010112罗松《面向对象程序设计(java)》第六周学习总结
- c++获取umg ue_UE4-UMG与c++交互
- Elasticsearch生命周期ILM若干时间后自动删除索引index
- python手机端给电脑端发送数据_神途传奇 (手机端+电脑端) 数据互通 传奇来袭 www.8wf.com...
- 【每日新闻】摩托罗拉折叠屏手机准备就绪:上下折叠
- 图的最小生成树(Prim算法、Kruskal算法)