文章目录

  • 一、面向非结构化数据的知识抽取
    • 知识抽取任务定义和相关比赛
    • 实体抽取
    • 关系抽取
    • 事件抽取
  • 二、面向结构化数据的知识抽取
  • 三、面向半结构化数据的知识抽取
    • WEB网页数据抽取
      • 手工抽取
      • 包装器简介及描述方式
      • 自动抽取
      • 小结
    • WEB TABLE 抽取简介
  • 四、实践展示:基于百科数据的知识抽取
    • Knowledge Collection
    • Knowledge Fusion

一、面向非结构化数据的知识抽取

知识抽取任务定义和相关比赛


纯文本数据中的知识抽取就是NLP(自然语言处理)

知识抽取的子任务:

  • 命名实体识别:检测、分类
  • 术语抽取:从语料中发现多个单词组成的相关术语
  • 关系抽取
  • 事件抽取
  • 共指消解

相关的竞赛及数据集
1.Message Understanding Conference(MUC)
命名实体识别(Named Entity Recognition,NER)、共指消解(Co-reference Resolution,CR)
2.Automatic Content Extraction(ACE)
对MUC定义的任务进行了融合、分类和细化;主要分为五大任务,包含英语,阿拉伯语和汉语
实体检测与识别(Entity Detection And Recognition,EDR)
数值检测与识别(Value Detection And Recognition,VAL)
时间表达检测与识别(TERN)
关系检测与识别(RDR)
事件检测与识别(VDR)
3.TAC Knowledge Base Population(KBP)
KBP对ACE定义的任务进一步修订,适合现代知识抽取的需求主要分为四个独立任务和一个整合任务
实体发现与链接(EDL)、槽填充(SF)、事件抽取(Event)、信念和情感(BeSt)、端到端冷启动知识构建
4.Semantic Evaluation(SemEval)

实体抽取

任务定义:抽取文本中的元子信息元素。实体识别可以变成一个序列标注的问题。
序列标注方法:人工特征(词本身的特征、前后缀特征、字本身的特征)
序列标注使用的模型:HMM(隐马尔可夫模型)、CRF(条件随机场)、LSTM+CRF

实现实体链接的一些开源工具:wikipediaminer、DBpediaspotlight、opencalais

关系抽取

从文本中抽取出两个或者多个实体之间的语义关系
关系抽取的方法分类:
1.基于模板的方法
基于触发词的Pattern、基于依存句法分析的Pattern


2.监督学习方法
机器学习方法、深度学习方法


机器学习方法的特征设计:

深度学习方法特征设计:

监督学习的深度学习方法:
1).Pipeline
识别实体和关系分类是完全分离的两个过程,不会相互影响,关系的识别依赖于实体识别的效果
Pipeline方法-CR-CNN模型:仅使用词向量和位置向量作为输入,F1值84.1,超过目前最好的非深度学习方法。

Pipeline方法-Att-CNN模型:应用注意力机制,目前最好的方法。(F1值88.0)

Pipeline方法-Att-BLSTM模型:

2).Joint Model
实体识别和关系分类的过程是共同优化的。
Joint Model-LSTM-RNNs模型:

3.弱监督学习方法
远程监督、Bootstrapping
远程监督方法:知识库与非结构化文本对齐来自动构建大量训练数据,减少模型对人工标注数据的依赖,增强模型跨领域适应能力



Bootstrapping:通过在文本中匹配实体对和表达关系短语模式,寻找和发现新的潜在关系三元组

事件抽取


事件抽取任务



二、面向结构化数据的知识抽取


Mapping languages:
直接映射(direct mapping)
R2RML:RDF中关系数据库的标准转换

映射工具ontop:是一个使用SPARQL将数据库查询为虚拟RDF图的平台

三、面向半结构化数据的知识抽取

DBpedia:维基百科的结构化版本
ZHISHI.me:第一份中文大规模开放链接数据
访问ZHISHI.me的方式:Linked data、Lookup service、SPARQL endpoint、APIs、Data Dump

WEB网页数据抽取
手工抽取

手工方法获取网页信息:通过人工分析,手工写出适合这个网站的表达式,表达式形式可以是XPath表达式,也可以是CSS选择器的表达式。

包装器简介及描述方式




自动抽取

小结

WEB TABLE 抽取简介

1.表格实体链接(entity linking),将表格中各单元格的字符串映射到给定知识库的实体上。
1).候选生成
2).实体消岐
实体消岐步骤:构建实体消岐图、计算实体链接影响因子
两类实体链接影响因子:每个字符串的初始重要性,不同节点间的语义相关度
实体消岐算法:PageRank,用来整合不同的实体链接影响因子从而做出最终的实体链接决定。

四、实践展示:基于百科数据的知识抽取

Knowledge Collection

Category方法
命名规则方法

Knowledge Fusion
  • 主语融合
  • 宾语融合
    1.单值属性:
    精确性原则:日期、地点等类型的属性值出现冲突时选择最精确的一个
    大多数原则:不同来源的属性值出现冲突时,选择出现次数最多的值
    2.多值属性:直接合并去重
    3.对infobox属性进行补全
    人工编写规则从非结构化文本中抽取属性值
    依照指示融合方法将属性值对转换为三元组

第三讲 知识抽取与挖掘I相关推荐

  1. 知识图谱系统课程笔记(二)——知识抽取与挖掘

    知识图谱系统课程笔记(二)--知识抽取与挖掘 文章目录 知识图谱系统课程笔记(二)--知识抽取与挖掘 OWL.RDF与RDFS关系 知识抽取任务定义和相关比赛 知识抽取技术 知识获取关键技术与难点 知 ...

  2. 【知识图谱】知识抽取与挖掘(Ⅱ)

    文章目录 一.面向文本的知识抽取 1.DeepDive关系抽取实战 2.开放域关系抽取 (1)信息抽取(IE)概述 (2)信息抽取(IE)系统发展 ① 第一代OpenIE系统 ② 第二代OpenIE系 ...

  3. 【知识图谱】知识抽取与挖掘(I)

    文章目录 一.知识抽取任务定义和相关比赛 1.知识抽取任务定义 2.知识抽取的技术与难点 3.知识抽取的子任务 (1)知识抽取 的 子任务 4.相关竞赛与数据集 二.面向非结构化数据的知识抽取 1.实 ...

  4. 知识图谱学习笔记四(知识抽取与挖掘)

    知识抽取任务以及相关竞赛    知识抽取基本定义 实现自动化构建大规模知识图谱的重要技术.目的在于从不同来源.不同结构的数据中进行知识提取并存储在知识图谱中.    知识抽取子任务 命名实体识别(如: ...

  5. 论文阅读笔记(二)【ACL2021】知识抽取NER

    学习内容 由于刚刚进入知识图谱领域,对该领域的研究热点不是很了解,所以本文直接翻译ACL2021中关于知识抽取NER中各个论文的摘要和共享: 并且适时在最后写出自己的理解: 同时自己也会在了解完全部后 ...

  6. 中科院刘康:低资源环境下的事件知识抽取

    不到现场,照样看最干货的学术报告! 嗨,大家好.这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频--足 ...

  7. 知识图谱之《海贼王-ONEPICE》领域图谱项目实战(含码源):数据采集、知识存储、知识抽取、知识计算、知识应用、图谱可视化、问答系统(KBQA)等

    项目设计集合(人工智能方向):助力新人快速实战掌握技能.自主完成项目设计升级,提升自身的硬实力(不仅限NLP.知识图谱.计算机视觉等领域):汇总有意义的项目设计集合,助力新人快速实战掌握技能,助力用户 ...

  8. 知识图谱入门 (三) 知识抽取

    欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里哦~ 本节介绍了针对结构化数据.非结构化数据.半结构化数据的知识抽取方法. 知识抽取的概念 知识抽取,即从 ...

  9. 知识图谱 (2)半结构化数据的知识抽取

    1. 半结构化数据定义 类似于百科.商品列表等那种本身存在一定结构但需要进一步提取整理的数据. 对于一般的有规律的页面,我们可以使用正则表达式的方式写出XPath和CSS选择器表达式来提取网页中的元素 ...

最新文章

  1. Expression Blend实例中文教程(2) - 界面快速入门
  2. python3入门与进阶笔记_我的Python3萌新入门笔记
  3. 变分自编码器VAE:一步到位的聚类方案
  4. 单机最大tcp连接数
  5. git mysql差异备份_结合Git实现Mysql差异备份,可用于生产环境
  6. Adaptive Execution patch and how to bulid on cdh5
  7. 如何增加Android模拟器的可用空间
  8. Shell账户管理,用户和组管理
  9. 东方通TongWeb启动springboot报错
  10. 全平台视频转GIF软件对比与推荐(iOS/安卓/Windows/Mac)
  11. ixp协议服务器,ipx协议中的“内部网络号”是什么意思?
  12. android bilibili sd卡,将bilibili缓存视频移动到SD卡
  13. python实现简易万年历_Python编程——万年历
  14. html表格外边框粗细,table细边框
  15. 学python要有多少英语词汇量_英文总共20万个词汇量!学好英文,到底要背多少单词才够用?...
  16. 企业招投标采购管理系统源码 一站式全流程采购招标系统
  17. 经典算法之左边界二分查找法(俗称左边界二分搜索法)
  18. c语言private用法,深入理解C++中public、protected及private用法
  19. git在commit时候不commit某些文件
  20. 模拟器计算机内存不足,模拟器内存不足要怎么办_怎样修改模拟器的内存大小 - 驱动管家...

热门文章

  1. 计算机多媒体教室维修登记册,湖北工业大学多媒体教室管理办法(试行).doc...
  2. S变换的Python代码
  3. Linux基础命令-网络配置和相关命令
  4. C# EF Core 简单工厂模式,接口多继承实例(三)
  5. win7运行太慢?win7太卡?换wes7吧,体验飞一般的运行效率
  6. 二、Activity 的启动模式
  7. 1.5万字讲清楚从0到1搭建电商营销中心(建议收藏)
  8. IntelliJ IDEA 2020.3正式发布,真香
  9. labview 串口通信 modbusRtu
  10. Java实现棋牌代码