题目:面向维基百科的领域演化知识关系抽取

期刊:计算机学报

时间:2016

摘要

重点在于领域知识的演化关系

网络数据的多样和无序是用户难以准确有序的获取领域之间的关系,提出一种面向中文维基百科领域知识的演化关系抽取方法。

关键词

领域知识、维基百科、演化关系、关系抽取、条件随机场、社会媒体

引言

对网络知识数据进行规则整理,挖掘知识概念实体关系,对于面向互联网的领域知识研究具有重要的研究意义。

然而目前的研究大多数关注领域知识的挖掘与抽取,而忽视了领域知识相互关联的研究,同一领域中不同知识概念存在多种关系,其中概念间的演化反应了领域知识的演变发展过程。

本文贡献:

  1. 建立了领域知识演化关系推理模型
  2. 提出了基于条件随机场模型的领域知识演化关系抽取方法

相关工作

就概念演化而言,关注的则是概念间的前继和后继关系,即概念的发展基础和概念的后续发展

总的来说,已有方法对于领域知识关系抽取的研究主要基于文本结构以及简单的语法分析,这种机制对于具有复杂结构和语义表达的中文领域知识演化关系抽取存在明显不足。

演化关系推理模型

领域知识间的演化关系包含两个对象:前置概念实体(pre-concept)和后置概念实体(post-concept),分别表示具有演化关系的前序知识和后续知识。

因此,针对这个概念,对演化关系作出了如下定义:

**定义1:**如果对于给定的两个实体A、B,以及满足演化关系约束条件的句子S(A<约束条件>B),则演化关系表示为evolution(A,B),其中A称为B的前置概念,B称为A的后置概念。

定义1中个人觉得比较重要的就是这个约束条件的定义与确认,什么样的谓词,或者说是什么样的表现形式才是文中所说的约束条件????

演化关系模型

演化关系模式定义为:

{

​ 演化关系模式:<#concept1> <#停用词>

​ <#特征谓词><#concept2>

}

停用词表示与内容无关的词,比如“的”、“地”等

因此将演化概念之间的抽取问题转变为前置概念和后置概念的抽取,当然句子S中的特征谓词不能忽略,其中前置概念和后置概念分别在句子S中充当主语(或者是宾语)和主语(或者是宾语),S中包含前置概念的部分内容标记为preS,相应的后置概念的部分标记为postS。

但是其中仍然又一些语句是不符合上述的演化关系模式的,比如句子“有些图像压缩算法就是以奇异值分解为基础”,显然这句话也符合知识间的演化,但却不符合上述的演化关系模式,因此将中文语句分类两类,一类是满足上述演化关系模式的称为简单句(简单模式),而不符合上述演化关系模式,但满足演化关系约束条件的句子称为复杂语句。采用不同的推理方法进行概念实体间的演化关系分析。

演化关系推理

简单句的句子结构相对简单,而且一般情况下只包含一个主谓结构,其中特征词作为谓词,因此首先得到preS和postS,然后再从中获取出概念实体,这种推理模式相对简单,见如下例子就能说明一些问题:

其中我们就能获得结果evolution(统计学习,支持向量机)

简单模式由于其句法结构的简单,因此我们可以采用基于模式匹配的方法进行推理

但是对于复杂的结构,模式匹配往往不能取得较好的结果,根据对句法进行分析发现,将复杂语句中的句法结构分为五类:主谓关系(SBV),动宾关系(VOB)、定中关系(ATT)、状中关系(ADV)、以及左(右)附加关系(L|RAD)。

复杂语句如下所示:“概念论是今天数理统计的基础”,其中特征谓词“基础”作为宾语 ,而postS和prevS作为主谓关系,分析如下所示:

得到结果evolution(概率论,数理统计)

演化关系抽取方法

在本文中作者使用条件随机场模型抽取领域知识演化关系,是在最大熵模型和隐马尔科夫随机场基础上产生,是一种具有区分性的无向图模型

CRF句子层面关系抽取算法

目的是抽取出三元组对象,其中实体是前置概念和后置概念

分为4个步骤:

  1. 参数构建,解析句法结构
  2. 特征选取,对句子进行特征提取
  3. 利用CRF进行句子成分的序列标注,训练抽取模型
  4. 获取演化关系三元组

特征选择


标记策略

主要采用了LE、RE、OT标签


实验

实验设置及评估标准

数据集:中文维基百科

领域:机器学习

评估标准:采用的是信息检索领域中的标准的评价标准:

  1. 准确率,指的是标注正确的比例
  2. 召回率,指的是类别为X的实例中标注正确的比例
  3. F值,指的是对准确率和召回率的整体衡量

演化关系模式分类评价

根据上述的描述,演化关系有简单模式和复杂模式两类,文章中首先通过机器学习的方法将其进行分类,针对不同的模式在进行演化关系推理。

分类模型包括:

  1. 基于概率的朴素贝叶斯
  2. 基于特征的支持向量机

分类主要分为4个步骤:

  1. 文档拆分,将文档拆分为句子进行演化关系模式分类
  2. 词项提取,中文分词处理
  3. 词频统计/特征构建,针对不同的分类模型,主要有两种操作,朴素贝叶斯主要统计词项的频次信息,而支持向量机主要完成特征函数的构建,计算TF-IDF来区分权重大小
  4. 分类模型训练,得到分类结果

实验结果如下所示:(数据集中6份作为训练集,4份作为测试集)

根据结果显示,其得到的结果并不是很乐观,支持向量机的F值也不足70%,而朴素贝叶斯得到的结果更低,这对于演化关系抽取噪声较大。上述所说的模版匹配(针对于简单模式)的匹配方案效果也不明显,即使我们设置了滑动窗口,但是并不能确认特征谓词出现的位置就在那个地方,而且得到的结果也并不能确定前置概念和后置概念的位置关系(谁前谁后),得到的结果如下所示:

因此,不论机器学习的分类还是模版分类都没有得到一个很好的结果,因此作者换了一种方法,即根据不同演化关系模式下具有不同的演化关系推理方法来进行统一的处理。

演化关系抽取结果

首先在训练条件随机场模型时,针对不同的特征集合组合进行了训练,以挑选最合适的特征函数集合。

可能会影响实验结果的两点因素可能有:

  1. 中文分词的影响,比如“支持向量机的理论基础来自于统计学习理论”,分词后可能会把“支持向量机”和“统计学习理论分开”,这样肯定是会影响结果的
  2. 另外一个影响因素是句子中可能包含英文词语,在对关系抽取之前进行过数据预处理,删除了非中文的部分,这样得到的数据可能会使句子结果发生改变,影响结果

本文中,作者分别对简单模式、复杂模式,正序关系、逆序关系进行了分析与评估,指标还是上述所提及的三项指标。

另外作者从实验结果中抽取出部分演化关系三元组,根据结果可以构建概念实体领域知识演化关系图,同时根据维基百科中对各个概念提出的时间进行标注,得到根据时间进行领域知识的排序,效果如下所示:


可以看出前置概念是后置概念不论从演化关系(演化序列)或者是时间序列上都是基础

另外根据三元组我们可以构建知识图谱,

根据KG,我们可以对其进行查询、检索,也能得出演化关系,某一个概念的出现是由哪几个概念共同影响的,这些是很重要的信息,对于某一个概念的学习具有指导意义。

结束语

文章中使用条件随机场进行关系抽取,相比于其他对比实验,得到了比较好的结果。

在以后的研究工作中,作者提出了几个可以优化的点

  1. 演化关系的推理现目前是根据人工标注的,能否做成自动化或者是半自动化的做法
  2. 能不能进行多领域的发现,现文章中只针对了维基百科中的机器学习部分,能不能进行多领域的前置概念和后置概念的发现,这将又具有意义。

面向维基百科的领域知识演化关系抽取相关推荐

  1. 关系抽取公开数据集下载

    https://zhuanlan.zhihu.com/p/581554247 该网址给出了很多关系抽取的公开数据集, 1.ACE实体关系数据集 ACE2005数据集包括英语,阿拉伯语和中文三部分数据, ...

  2. 《面向对话的融入交互信息的实体关系抽取》--中文信息学报

    实体关系抽取旨在从文本中抽取出实体之间的语义关系,是自然语言处理的一项基本任务.在新闻报道,维基百科等规范文本上,该任务的研究相对丰富且已取得了一定的效果,但面对对话文本的相关研究的还处于起始阶段.相 ...

  3. 关系抽取调研-工业界

    关系抽取调研--工业界 目录 1. 任务 1.1. 任务定义 1.2. 数据集 1.3. 评测标准 2. 方法总结 2.1. 基于模板的方法 2.1.1. 基于触发词/字符串 2.1.2. 基于依存句 ...

  4. 知识图谱(六)——关系抽取

    如何从结构化或非结构化文本中识别出实体之间的关系是知识图谱构建的核心任务之一. 文章目录 一.任务概述 1.任务定义 2.任务分类 3.任务难点 4.相关测评 二.限定域关系抽取 1.基于模板的关系抽 ...

  5. 关系抽取概述及研究进展Relation Extraction Progress

    关系抽取的概述及研究进展 关系抽取任务概述 关系抽取的定义 关系抽取的公开的主流评测数据集 ACE 2005 SemiEval 2010 Task8 Dataset: NYT(New York Tim ...

  6. 面向中国企业关系抽取的双向门控递归单元神经网络

    面向中国企业关系抽取的双向门控递归单元神经网络 论文原文:论文原文 摘要:为了帮助金融从业人员有效识别高风险企业.法人或股东,国内外学者构建了风险预警的企业知识图谱.从财经新闻等非结构化数据中提取企业 ...

  7. 介绍几个专门面向中文的命名实体识别和关系抽取工具

    知识图谱已经在人工智能的各个领域发挥越来越重要的作用,例如视觉问答.对话系统.推荐系统等.知识图谱构建是应用这些知识图谱的基础,而面对生活和企业中数据的爆发式增长,自动化知识图谱构建显得越来越重要.从 ...

  8. 【论文阅读笔记】面向医学文本的实体关系抽取研究综述

    面向医学文本的实体关系抽取研究综述 写在前面 深度学习方法 监督学习 基于简单的CNN模型 基于CNN模型的改进 基于RNN模型 基于注意力机制的模型 远程监督的多实例学习 分段卷积神经网络模型及改进 ...

  9. ACL 2019 | 面向远程监督关系抽取的模式诊断技术

    作者丨郑顺 学校丨清华大学交叉信息研究院五年级博士生 研究方向丨机器学习和信息抽取 研究动机 远程监督(Distant Supervision)可以为关系抽取任务自动地快速生成大量训练集.具体来说,远 ...

最新文章

  1. 【错误记录】Android Studio 配置 AspectJ 报错 ( all buildscript {} blocks must appear before any plugins {} )
  2. Android零基础入门第83节:Activity间数据传递方法汇总
  3. 部署 Job (第二部分)
  4. 钩子编程(HOOK) 安装进程内键盘钩子 (1)
  5. arcgis已试图对空几何执行该操作_ArcGIS中坐标转换和投影变换
  6. JVM第二节:JVM 中的对象
  7. 实用!Excel在线网页版表格Luckysheet源码
  8. [项目管理]-第十章:配置管理
  9. SPR EAD NET 6
  10. 广东英语高考怎么计算机,2019广东高考英语听说考试大纲出炉!附三大题型得分套路!...
  11. 加拿大鹅“跌倒”,波司登“吃饱”?
  12. dfs python
  13. 一步步制作Arduino智能小车
  14. 触摸屏I2C驱动移植
  15. golang 自定义Set 及 使用
  16. Unity3D图表控件使用XCharts使用
  17. 麻省理工出版 | 2023年最新深度学习综述手册
  18. hibernate 的缓存机制
  19. 软件测试报告重点审核点有哪些,一份完善的软件测试报告该怎么写?
  20. 优秀硕士毕业生发言稿

热门文章

  1. 我想离开浪浪山,是不是该出去闯闯。
  2. Firefox(火狐浏览器)加速技巧 - 如何设置火狐
  3. python - sklearn 计算F1
  4. javax.jms.JMSException: Could not connect to broker URL: tcp://localhost:61616
  5. zookeeper启动不了报错:java.io.IOException: No snapshot found, but there are log entries. Something is brok
  6. 远光九天新年献词 | 自主创新,你走过的每一步都算数
  7. Power BI----DAX讲解
  8. 利用nid更改数据库的名称(OCM---OCP)
  9. Tryhackme blue
  10. 笔记本锁定计算机功能键,笔记本电脑键盘锁的设置方法以及解锁步骤【图文教程】...