目录

知识图谱

1、实体抽取(命名实体识别)

1.1、实体抽取方法

1.2、 相关论文

2、关系抽取

2.1、 关系抽取分类

2.2、 关系抽取方法

2.3、相关论文

3、属性抽取

4、知识融合


知识图谱

  • 知识图谱的概念

知识图谱是对事实的一种结构化表示方法,由实体、关系和语义描述组成。知识图谱的数据结构以图形式存在,由实体(节点)和实体之间的关系(边)组成。本质上,它是一种表示实体间关系的语义网络,以“实体-关系-实体”的三元组来表达。

  • 知识图谱中数据语义的表达方式RDF

RDF( Resource Description Framework,资源描述框架)是一种资源描述语言。大部分知识图谱使用RDF描述世界上的各种资源,并以三元组的形式保存到知识库中。

RDF通过使用简单的二元关系模型来表示事物之间的关系,即使用三元组集合的方式来描述事物和关系。三元组是知识图谱中知识表示的基本单位,简称SPO ,三元组被用来表示实体与实体之间的关系,或者实体的某个属性的属性值是什么。

  • 知识图谱构建流程

序号

论文名称

发表日期

发表刊物

作者

作者单位

1

基于 Neo4j 的《伤寒论》知识图谱构建研究

2021

计算机与数字工程

王菁薇

肖 莉

晏峻峰

湖南中医药大学信息科学与工程学院

湖南中医药大学中医学院

2

影评情感分析知识图谱构建研究

2020

计算机仿真

许智宏

于子琪

董永峰

闫文杰

河北工业大学人工智能与数据科学学院

河北省大数据计算重点实验室

3

基于企业知识图谱构建的实体关联查询系统

2020

计算机应用

敦 辉

万 鹏

王 社

湖北大学 计算机与信息工程学院

湖北省教育信息化工程技术中心

武汉城市职业学院

4

支持临床决策的医学知识图谱的构建与应用

2020

重庆医学

郑少宇

滕 飞

马 征

陈泽君

马 虹

吴 洁

西南交通大学信息科学与技术学院

四川省成都市第六人民医院

5

基于知识图谱的广西文化旅游问答系统研究与实现

2020

广西科学

何国对

黄容鑫

黄伟刚

李 航

覃 晓

元昌安

施 宇

廖兆琪

南宁师范大学计算机与信息工程学院

八桂学者创新团队实验室

广西科学院

6

中文医学知识图谱CMeKG 构建初探

2019

中文信息学报

奥德玛

杨云飞

穗志方

代达劢

常宝宝

李素建

昝红英

北京大学 计算语言学教育部重点实验室

鹏城实验室

郑州大学 信息工程学院

7

基于多特征实体消歧的中文知识图谱问答研究

2021

计算机工程

张鹏举

贾永辉

陈文亮

苏州大学 计算机科学与技术学院

8

基于大数据的软件项目知识图谱构造及问答方法

2021

大数据

邹艳珍

王 敏

谢 冰

林泽琦

北京大学信息科学技术学院

高可信软件技术教育部重点实验室(北京大学)

1、实体抽取(命名实体识别)

实体抽取是指在文本数据集中抽取自动识别出命名实体,是知识图谱中三元组构建的关键和最为基础的步骤。

1.1、实体抽取方法

  1. 专家对实体进行人工标注
  2. 基于规则的NER传统方法包括:La SIE-II、Net Owl、Facile、SAR、FASTUS和LTG。

规则来源:1、特定领域词典 2、句法词汇模版 3、正则表达式

当词汇表足够大时,基于规则的方法能够取得不错效果。但总结规则模板花费大量时间,且词汇表规模小,且实体识别结果普遍高精度。

  1. 基于深度学习的NER方法:

    1. 输入的分布式表示:Bi-LSTM-CNN、BERT
    2. 文本编码:CNN、RNN、Transformer
    3. 标签解码:Softmax、CRF、RNN

在NER众多方法中,Bi-LSTM+CRF是使用深度学习的NER中最常见的架构。

1.2、 相关论文

论文中医命名实体抽取是将疾病、证候、症状等中医词汇从数据源中抽取出来。实体抽取方法:以《伤寒论》原文为研究对象,确定其中与疾病、证候、症状、处方、药物相关的主题词,如“太阳病”“中风”“脉浮”“桂枝汤”“桂枝”等。对采集的数据人工录入数据库中,要求对每一条数据标注所出自的《伤寒论》条文。

论文使用了基于BERT的命名实体识别模块。在分析基础上将文本中各个字或词的一维词向量作为输入,经过转换后,最终输出每个词的一维词向量表示,即使用BERT对每个词处理并得到最终的语义表示。对于询问句S,假设经过 BERT模型处理后,得到S的字符集合为(S1,S2,…,Sm),字符集合中的任意一个Si代表输入的字符i的词向量。

Trm会计算句子中所有词对当前输入词的贡献,再根据得到的信息对当前输入词 进 行 编 码,获得询问句词向量(S1,S2,…,Sm )。

采用MLP对词向量的类别进行预测,对获得的词向量(S1,S2,…,Sm)作全连接操作并进行多层感知机权重的调整。

论文7 该文章提出了要对不同类型的问题进行分类处理,即将问句划分为单跳和多跳问句。之后再进行实体链接操作,实体链接又分为主题实体识别和实体消歧。

实体识别模块可以采用序列标注模型和规则匹配结合的方法来进行。

序列标注模型分为BIO和BIOES两种,其中B 开始位置、I 中间位置、E表示结束为止、O 其他类别、S 单字表示一个实体。

例如:

其中在实体抽取的过程中,根据数据集的不同还应当考虑是否进行去除停用词操作。

论文数据为python爬虫对网络抓取的结果,针对的是对电影影评的构造分析。由于产生评论的主体为广大网民,评论数据口语化、地区话、随意化,并常带有 emoji 等表情符号,为后续的情感分析带来一定困难。对影评非结构化信息进行过滤,删除空字符串以及无意义的评论信息,过滤评论中的表情和其它特殊字符,对评论信息进行繁化简操作,去停用词等数据清洗工作。

2、关系抽取

关系抽取是指从无结构的文本中抽取实体以及实体之间的关系。一般关系抽取产生的结果为三元组<主体,谓语,客体>,表示主体和客体之间存在谓词表达的关系。

除了从文本中或半结构化数据中抽取关系,获取关系实例的方法还可以有:人工输入、众包构建:通过众包平台将关系抽取的任务分发给众包工人、从结构化数据库转换而来、自动构建:自动从文本中抽取

2.1、 关系抽取分类

  1. 关系实例抽取:给定目标关系,从语料中抽取相应的实例。比如,给定夫妻关系,从语料中挖掘、发现互为夫妻关系的实体对。
  2. 关系分类:根据实体对的文本描述,将实体对的关系进行分类(通常需要预定义关系类型,即枚举语料中提及的所有可能的实体对)。
  3. 开放关系抽取有时被称为开放信息抽取(Open Information Extraction,OpenIE)。从文本中抽取出关系的文本描述,例如:从“柏拉图出生于雅典”可以抽取出<柏拉图,“出生于”,雅典>,“出生于”可以映射到知识库中的出生地关系。

2.2、 关系抽取方法

  1. 基于字符模式的抽取(手写规则模版)

将自然语言视为字符序列,构造字符模式,实现抽取。表达特定关系的字符模式通常被表示为一组正则表达式,随后与输入文本进行匹配,即可完成关系抽取。

关系

模式

例句

作品-作者

“《$arg1》”,是现代文学家$arg2的散文集”

“《朝花夕拾》,是现代文学家鲁迅的散文集”

作品-原名

“《$arg1》原名《$arg2》”

“《朝花夕拾》原名《旧事重提 》”

用于抽取有着固定的描述模式的内容

  1. 监督学习的抽取方法(需要大量标注好的训练预料

机器学习和深度学习的方法

构造特征:

1)词特征:实体1与实体2之间的词、前后的词,词向量可以用Bag-of-Words结合Bigrams等。

2)实体标签特征:实体的标签。

3)依存句法特征:分析句子的依存句法结构,构造特征。(依赖于NLP工具库,比如HanLP但会带来一定的误差)

端到端的深度学习方法:可使用CNN或BI-LSTM作为句子编码器,把一个句子的词嵌入(Word Embedding)作为输入,用CNN或LSTM做特征的抽取器,最后经过softmax层得到N种关系的概率。相比上述方法省略了特征构造这一步,可避免在特征构造时产生的误差。

  1. 半监督学习的抽取方法

半监督学习的算法主要有两种:Bootstrapping和Distant Supervision。

  1. Bootstrapping不需要标注好实体和关系的句子作为训练集,不用训练分类器;
  2. Distant Supervision可以看做是Bootstrapping和Supervise Learning的结合,需要训练分类器。

Bootstrapping的算法理念是根据拥有一定关系的少量实体对进行学习,输出更多具有该关系的更多实体对。但是可能会造成语义漂移。

2.3、相关论文

论文1 在构建知识图谱的过程中,依据《伤寒论》的解读,定义了三类实体关系:上下位关系、治愈关系以及整体与部分关系。

论文3 根据企业的外贸出口、所在地区以及企业类型三种关联关系作为关系发掘的条件。首先设定过滤阈值,若待查询企业计算出的关系关联度大于该阈值,则将该企业作为备选结果集中的一个。

关系发掘的计算方法:

将目标企业节点记为q,待查询企业节点记为 g,计算权重表示为 wi,两个节点所对应的关系集合记为 Rq和 Rg,其中集合中所对应的外贸出口、所在地区以及企业类型三个关联关系分别为 Rq1、Rq2、Rq3和Rg1、Rq2、Rq3。则两节点的关联相似度得分可表示为

论文5 首先构建广西民族文化知识图谱关系词组集WRS;然后调用分词函数split(),获取询问句分词向量W;最后,在关系词组集中对问句分词向量进行匹配检索,如果检索成功,则问句关系即可判定为匹配关系。

论文9:

论文12 以海量婚姻法相关知识为数据基础,以浅层语义模型为计算工具,得出具有层级关系的词集。其层级关系主要依据以高维空间语言模型计算出的词向量。根据词向量的高维空间分布,可以得出某一词向量的相近词集,并根据空间距离对联想进行分级,从而建立起与该词相关的语义实时扩展联想。

3、属性抽取

4、知识融合

知识图谱构建流程及算法相关推荐

  1. 前沿技术探秘:知识图谱构建流程及方法

    作者 | 郑毅 封图| CSDN│下载于视觉中国 出品 | CSDN云计算(ID:CSDNcloud) 随着AI技术的发展和普及,当今社会已经进入了智能化时代.与以往不同的是,在这一波浪潮中,企业不仅 ...

  2. 知识图谱构建流程与技术简记

    文章目录 零.图谱类型 一.模式定义 1.1 实体类别和概念分级 1.2 关系和属性 二.信息抽取 1.1 命名实体识别 1.2 关系抽取 1.3 属性抽取 1.4 实体对齐 1.5 实体链接 三.图 ...

  3. 一站式了解多模态、金融、事理知识图谱构建指南 | AI ProCon 2020

    整理 | 许爱艳 出品 | AI科技大本营(ID:rgznai100) [导读]7 月 3-4 日,由 CSDN 主办的第三届 AI 开发者大会(AI ProCon 2020)在线上举行.本次大会有超 ...

  4. 图谱实战 | 知识图谱构建的一站式平台gBuilder

    OpenKG地址:http://openkg.cn/tool/gbuilder 网站地址:http://gbuilder.gstore.cn 知识图谱能够让机器去理解和认知世界中的事物和现象,并解释现 ...

  5. 信息抽取在知识图谱构建中的实践与应用

    编者按 坦率地讲,各行各业对如何落地知识图谱这个问题,或多或少都心存一丝疑惑.人类知识和机器可理解的知识有什么区别?知识图谱如何突破自身局限性,从"万事通"转为"科学家& ...

  6. 公开课 | 知识图谱构建与应用概述

    本文转载自公众号:博文视点Broadview. AI是新的生产力,知识图谱是AI进步的阶梯.随着近年来人工智能的进一步发展,知识图谱也取得了一系列新的进展,并在各个行业中落地应用. 知识图谱的相关技术 ...

  7. 知识图谱构建实验笔记(二):知识图谱搭建过程与总结

    文章目录 引言 命名实体识别 1. 数据预处理 2. 构建模型并预测 3. 总结 关系抽取 1. 数据预处理 2. 模型构建并预测 3. 总结 数据入库 load csv方式 neo4j-admin ...

  8. 虚拟专题:知识图谱 | 流程工业控制系统的知识图谱构建

    来源:智能科学与技术学报 流程工业控制系统的知识图谱构建 牟天昊1, 李少远1,2 1 上海交通大学电子信息与电气工程学院 2 上海交通大学系统控制与信息处理教育部重点实验室 摘要:近年来,工业控制系 ...

  9. 知识图谱构建的一般流程

    1.知识图谱的逻辑结构 从逻辑上将知识图谱划分为2个层次:数据层和模式层 1.1数据层 知识以事实(fact)为单位存储在图数据库,通常以"实体-关系-实体"或者"实体- ...

  10. 报名啦!阿里云智能客服对话式AI算法大赛之知识图谱构建与问答

    看为推动知识图谱与语义计算技术发展及应用落地,阿里云智能客服 CATC(Conversational AI Technology Challenge)大赛系列一"CCKS 2021 知识图谱 ...

最新文章

  1. LeetCode: Longest Consecutive Sequence
  2. Android_微信_设置
  3. 【微信小程序】组件只读
  4. 安装MAMP后的控制台访问mysql问题
  5. 어느 도시 보유 하 면 사랑 이다(事態が発生すれば、ある都市の恋はしません)【Si les villes un amour】{If have love in a city}...
  6. clone的fork与pthread_create创建线程有何不同pthread多线程编程的学习小结
  7. 单片机串口实现字符串命令解析
  8. 求解数独难题, Sudoku问题(回溯)
  9. 联想电脑ideapad_330c拆机清灰、换硅脂步骤大全
  10. DDD的哲学意味(上)
  11. Hulu校招补录已开始,1年内工作经验也可投!
  12. Python实现excel表格合并
  13. RationalDMIS 2020高级编程:快速3-2-1构建坐标系
  14. 非你莫属 周倩如 女程序员 神一样的选手!
  15. Computer Organization and Design The Hardware/Software Interface: RISC-V Edition
  16. java试题库管理系统源代码_Java试题库管理源代码
  17. 如何给U盘或移动硬盘添加个性的图标? | 不着调软件
  18. 利用kali进行DOS/DDOS攻击(局域网内)(DHCP原理 ARP原理)
  19. RHCA考试基础(二)
  20. 利用 Dynamo 制作简易的变截面钢箱梁

热门文章

  1. vue下载文件常用的几种方式
  2. WTG--让我们随时随地封装系统!
  3. Python数据挖掘之时序模型预测
  4. java修改头像代码_用户修改头像功能
  5. h5 a标签下载链接下载文件
  6. 计算机操作系统(第四版)课后习题答案(完整版)---汤小丹 梁红兵 哲凤屏 汤子瀛 版本
  7. mescroll源码
  8. pix2pixHD总结
  9. RUBY发送验证码通知短信(互亿无线)
  10. 运维 之 常用运维工具