知识图谱系统课程笔记(二)——知识抽取与挖掘

文章目录

  • 知识图谱系统课程笔记(二)——知识抽取与挖掘
    • OWL、RDF与RDFS关系
    • 知识抽取任务定义和相关比赛
    • 知识抽取技术
      • 知识获取关键技术与难点
      • 知识抽取的子任务
    • 实体抽取
      • 命名实体识别 NER
    • 非结构化数据的实体抽取
      • 序列标注方法
        • HMM(隐马尔可夫模型)
        • CRF(条件随机场)
        • LSTM+CRF
      • 参考文献
    • 实体识别与链接
      • DBpedia Spotlight
      • opencalais
      • 实体识别和链接的开源系统
    • 关系抽取
      • 1.基于模板的方法
    • 面向结构化数据的知识抽取
    • 面向半结构化数据的知识抽取
    • 实践展示:基于百科数据的知识抽取


OWL、RDF与RDFS关系

RDF是数据模型,定义了知识图谱的图结构,以主谓宾来表示的三元组,对应很多序列化格式。
RDFS也可以用RDF来表示,只是这里的调语和宾语是一些预定 义的词汇,如谓语是rdf:type, rdfs:subClass或rdfs subProperty , domain, range,宾语rdfs:Class和rdfs:Property等.在此基础上, OWL也可以用RDF来表示为三元组,他会增加更多的预定义的词汇.这些词汇使得我们有了更严格并支持本体推理的schema层或称为概念层。
对于了解一些常用的缩写是有价值的,这种多看几个我们说的知识库,并用- -下他们的SPARQL查询接口或浏览界面就会慢慢熟悉了,不要强行去背。

知识抽取任务定义和相关比赛

知识抽取技术

定义:知识抽取是自动地从文本中发现和抽取相关信息。
● 实体抽取
● 关系抽取
● 事件抽取.

(行业)知识图谱数据来源

知识抽取的数据类型
从不同来源、不同结构的数据中进行知识提取,形成知识存入到知识图谱。

示例:

知识获取关键技术与难点

●) 从结构化数据库中获取知识: D2R
●难点:复杂表数据的处理
从链接数据 中获取知识:图映射
●难点:数据对齐
从半结构化 (网站)数据中获取知识:使用包装器
●难点:方便的包装器定义方法,包装器自动生成、更新与维护
从文本中获取知识:信息抽取
● 难点:结果的准确率与覆盖率

知识抽取的子任务

1.命名实体识别
检测:西瓜书的作者是周志华。→[西瓜书]:实体
分类:西瓜书的作者是周志华。→[西瓜书]:书籍

2.术语抽取
从语料中发现多个单词组成的相关术语。
3.关系抽取
抽取出实体、属性等之间的关系。
例子:王思聪是万达集团董事长王健林的独子。→[王健林] <父子关系> [王思聪]
4.事件抽取
相当于多元关系抽取
例子:

5.共指消解


其他
- 实体检测与识别
例如:人、组织、地点、工具等。

- 数值检测与识别

- 实体发现与链接
人 person(PER)

- 槽填充
发现并填充 实体的属性。

其他

实体抽取

定义:抽取文本中的原子信息元素。
实体:包括人名、组织/机构名、地理位置、时间/日期、字符值、金额值等(原子根据场景来定义)。
例子:

命名实体识别 NER

发展历史:

**定义:**识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。一般而言,主要是识别出待处理文本中七类(人名、机构名、地名、时间、日期、货币和百分比)命
名实体
两个任务:实体边界识别和实体类别标注(Entity Typing)
**功能:**命名实体识别是信息提取、问答系统、句法分析、机器翻译、面向Semantic Web的元数据标注等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要地位。一般来说,命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。

标签类型:进行命名实体识别时,通常需要对每个字进行标注,中文为单个字,英文为单词,空格分割。标注的标签类型如下表所示

————————————————
原文链接:https://blog.csdn.net/scgaliguodong123_/article/details/121303421

非结构化数据的实体抽取

非结构化数据的实体抽取可以认为是一个序列标注问题,于是我们可以使用序列标注的方法,例如使用HMM、CRF等方法,也可以使用LSTM+CRF的方法,

序列标注方法


序列标注定义:序列标注(Sequence Tagging)是NLP中最基础的任务,应用十分广泛,如分词、词性标注(POS tagging)、命名实体识别(Named Entity Recognition,NER)、关键词抽取、语义角色标注(Semantic Role Labeling)、槽位抽取(Slot Filling)等实质上都属于序列标注的范畴。
原文链接:https://blog.csdn.net/scgaliguodong123_/article/details/121303421

  • 简述序列标注的三种方法
    实体识别三种常见的序列标注方法如下:
    **BIO:**标识实体的开始,中间部分和非实体部分
    **BMES:**增加S单个实体情况的标注
    **BIOSE:**增加E实体的结束标识
    1.BIO-三位序列标注法(B-begin,I-inside,O-outside)
    B-X代表实体X的开头
    I-X代表实体X的中间或结尾
    O代表不属于任何类型的
    样例:
    我是李果冻,我爱中国,我来自四川。
 我 O是 O李 B-PER果 I-PER冻 I-PER, O我 O爱 O中 B-ORG国 I-ORG, O我 O来 O自 O四 B-LOC川 I-LOC。 O

2.BMES-四位序列标注法(B-begin,M-middle,E-end,S-single)
B 表示一个词的词首位值
M 表示一个词的中间位置
E 表示一个词的末尾位置
S 表示一个单独的字词
样例:

我是四川人

 我 S是 S四 B川 M人 E

3.BIOES-四位序列标注法(B-begin,I-inside,O-outside,E-end,S-single)
B表示开始
I表示内部
O表示非实体
E表示实体尾部
S表示改词本身就是一个实体
样例:
我是李果冻,我爱中国,我来自四川。

 我 O是 O李 B-PER果 I-PER冻 E-PER, O我 O爱 O中 B-LOC国 E-LOC, O我 O来 O自 O四 B-LOC川 E-LOC。 O

————————————————
原文链接:https://blog.csdn.net/scgaliguodong123_/article/details/121303421

序列标注的实例:

序列标注的经典方法:HMM,MEMM,CRF
参考序列标注的经典方法:HMM,MEMM,CRF
添加链接描述

HMM(隐马尔可夫模型)

CRF(条件随机场)

LSTM+CRF

每个句子按照词序逐个输入双向LSTM中,结合正反向隐层输出得到每个词属于每个实体类别标签的概率,输入CRF中,优化目标函数,从而得到每个词所属的实体类别.

几种方法通过F1值的比较如下:

参考文献

实体抽取:

  • hiheng Huang, Wei Xu, Kai Yu. Bidirectional LSTM-CRF Models for Sequence Tagging. CoRR. 2015
  • Guillaume Lample, Miguel Ballesteros, Sandeep Subramanian, Kazuya Kawakami, Chris Dyer. Neural Architectures for Named Entity Recognition. The 2016 Conference of the North American Chapter of the Association for Computational Linguistics. 2016: 260-270

实体识别与链接

实体链接:识别非结构化数据(文本)中的实体,并将它们链接到知识库中,是让机器理解自然语言的第一步,也是至关重要的一步。
实体消歧的原因:实体识别出来的实体名可能是有歧义的,可能有多个实体都对应着某个实体名,也可能摸个实体对应着多个实体名,如china可能是中国也可能是瓷器,此时我们需要对实体进行消歧与链接。
过程:

DBpedia Spotlight

DBpedia Spotlight可以把我们输入的文本中的实体抽取出来,将其对应到知识图谱DBpedia。官方提供了一个示例网站:https:/demo.dbpedia-spotlight.org
dbpedia-spotlight网站

【DBpedia Spotlight】知识图谱实体链接/抽取文本实体

Demo:http://dbpedia-spotlight.github.io/demo/网址

opencalais

http://www.opencalais.com/

Demo: http://viewer.opencalais.com/

实体链接举例:

实体识别和链接的开源系统

【1】http://acube.di.unipi.it/tagme/
【2】https://github.com/parthatalukdar/junto
【3】http://orion.tw.rpi.edu/~zhengj3/wod/wikify.php
【4】https://github.com/yahoo/FEL
【5】https://github.com/yago-naga/aida
【6】http://www.nzdl.org/wikification/about.html
【7】http://aksw.org/Projects/AGDISTIS.html
【8】https://github.com/dalab/pboh-entity-linking

关系抽取

简介:信息抽取 (Information Extraction)研究领域的任务之一, ==从文本中抽取出两个或者多个实体之间的语义关系。==关系抽取主要有基于模板的方法、监督学习方法和弱监督学习方法。
举例:


举例:企业知识图谱

关系抽取的方法:

1.基于模板的方法

  • 基于触发词的Pattern
    首先确定一个触发词(trigger word),然后根据触发词做pattern的匹配及抽取,然后做一个映射。
    例子:
  • 基于依存句法分析的Pattern
    文本一般具有一些句法结构,如主谓结构、动宾结构、从句结构、这些结构可以是跨多个词所产生的。最常见的情况是动宾短语,所以我通常以动词为起点,构建规则,对节点上的词性和边上的依存关系进行限定(可以理解为泛化的正则表达式)。

    具体的流程如下:
  1. 对句子进行分词、词性标注、命名实体识别、依存分析等处理
  2. 根据句子依存语法树结构上匹配规则,每匹配一条规则就生成一个三元组
  3. 根据扩展规则对抽取到的三元组进行扩展
  4. 对三元组实体和触发词进一步处理抽取出关系


例子:董卿现身国家博物馆看展优雅端庄大方。
依存分析:

基于模板的方法的优缺点:
优点
➢ 在小规模数据集上容易实现
➢ 构建简单
缺点
➢特定领域的模板需要专家构建
➢难以维护
➢可移植性差
➢规则集合小的时候,召回率很低。(召回率召回率详解也叫查全率,旨在找到实际为正的样本中多少被预测为正。)

面向结构化数据的知识抽取

面向半结构化数据的知识抽取

实践展示:基于百科数据的知识抽取

知识图谱系统课程笔记(二)——知识抽取与挖掘相关推荐

  1. 斯坦福大学CS520知识图谱系列课程学习笔记:第三讲高级的知识图谱是什么样的

    这一讲的主题是:一些高级的知识图谱是什么样的.三位讲者分别从他们各自带领的团队构建出来的高质量的知识图谱实例出发,从中我们可以认识到一些大佬们构建的优秀的知识图谱产品有哪些特点和优势,从中对我们自己构 ...

  2. 斯坦福大学CS520知识图谱系列课程学习笔记:第二讲如何构建知识图谱

    上一讲我们学习了知识图谱的一些基本概念: 斯坦福大学CS520知识图谱系列课程学习笔记:第一讲什么是知识图谱 本节课程关于如何构建知识图谱,因为知识图谱的构建是整个知识图谱领域的一个非常核心且基础的工 ...

  3. oracle 方泽宇_斯坦福大学CS520知识图谱系列课程学习笔记:第二讲如何构建知识图谱...

    上一讲我们学习了知识图谱的一些基本概念:泽宇:斯坦福大学CS520知识图谱系列课程学习笔记:第一讲什么是知识图谱​zhuanlan.zhihu.com 本节课程关于如何构建知识图谱,因为知识图谱的构建 ...

  4. 斯坦福大学CS520知识图谱系列课程学习笔记:第一讲什么是知识图谱

    随着知识图谱在人工智能各个领域的广泛使用,知识图谱受到越来越多AI研究人员的关注和学习,已经成为人工智能迈向认知系统的关键技术之一.之前,斯坦福大学的面向计算机视觉的CS231n和面向自然语言处理的C ...

  5. 菜哥学知识图谱(通过“基于医疗知识图谱的问答系统”)(二)(搭建系统)

    上接菜哥学知识图谱(通过"基于医疗知识图谱的问答系统")(一) 3.搭建项目2 被小学生拖累连跪5把,近期不搞了- 继续搭建项目.先把neo4j启动起来. 编辑build_medi ...

  6. 知识图谱技术学习笔记

    知识图谱技术学习笔记 从一开始的Google搜索,到现在的聊天机器人.大数据风控.证券投资.智能医疗.自适应教育.推荐系统,无一不跟知识图谱相关.它在技术领域的热度也在逐年上升. 本文以通俗易懂的方式 ...

  7. 知识图谱学习(笔记整理)

    本篇来自于文章<从技术实现到产品落地,"知识图谱"的未来还有多远?> 知识图谱学习(一) 一.组成部分 知识图谱大致可分为:知识建模.知识获取.知识融合. 知识存储.知 ...

  8. 腾讯:专注于通用领域的知识图谱—Topbase 学习笔记

    https://zhuanlan.zhihu.com/p/145112755 来源为 万字详解:腾讯如何自研大规模知识图谱 Topbase 一.简介 知识图谱( Knowledge Graph)以结构 ...

  9. 知识图谱初阶笔记整理1

    知识图谱与计算机子学科(知识表示.自然语言处理.数据库.机器学习)关系如下图所示. 实体关系抽取抽取方法 1Pipeline 管道式方法,主要就是将关系抽取拆分为两个步骤,实体抽取+关系识别 2个主要 ...

最新文章

  1. 下一次工业革命:计算生物学与生物平台
  2. 微信公众号自定义菜单跳转小程序
  3. linux期末脚本作业,linux – 使用R Markdown将bash脚本作为Cron作业运行
  4. php配置文件php.ini的详细解析(续)
  5. 导出oracle sequences,利用数据泵只导出序列
  6. 04-06 session,cookie,token 区别
  7. 新DELL服务器在F2设置界面下raid的配置
  8. 网易研选大数据架构演进
  9. GitHub标星2600,从零开始的深度学习实用教程 | PyTorch官方推荐
  10. weblogic集群集群说明
  11. mysql客户端新建一个表_MySQL 建库、建用户及建表事项
  12. [20180604]在内存修改数据(bbed).txt
  13. android实现Materia Design风格APP(三):部分Materia Design风格的控件介绍二
  14. LaTeX Beamer 制作PPT时给某一页添加背景图片(并设置透明度)
  15. 非常全面的IReport的使用
  16. oracle转换成字符型,Oracle中将Clob字段转换成字符串
  17. 2021年中国示波器行业及细分产品数字示波器市场现状分析[图]
  18. 什么显卡是个人计算机的基本配置和市场主流,现在()显卡已经成为了个人计算机的基本配置和市场主流。 - 问答库...
  19. 9.数据采集与监控知识点
  20. windows如何切割大文件

热门文章

  1. 树莓派控制DS18B20温度传感器
  2. Vue取得URL参数
  3. AcWing2022寒假每日一题(1 月 2 日 ~ 1 月 6 日)
  4. asp创建mysql表_asp创建数据库
  5. HTML期末作业-我的大学生活网页
  6. VS2019编译python解释器源码及学习方法
  7. OSPF 之 LSA限制
  8. Nginx实现多虚拟主机配置
  9. java发送会议邀请邮件模板_使用java发送每封电子邮件的日历邀请
  10. mysql英文版数据库备份方法_mysql数据库太大了如何备份与还原