面向维基百科的领域知识演化关系抽取

题目：面向维基百科的领域演化知识关系抽取

期刊：计算机学报

时间：2016

摘要

重点在于领域知识的演化关系

网络数据的多样和无序是用户难以准确有序的获取领域之间的关系，提出一种面向中文维基百科领域知识的演化关系抽取方法。

关键词

领域知识、维基百科、演化关系、关系抽取、条件随机场、社会媒体

引言

对网络知识数据进行规则整理，挖掘知识概念实体关系，对于面向互联网的领域知识研究具有重要的研究意义。

然而目前的研究大多数关注领域知识的挖掘与抽取，而忽视了领域知识相互关联的研究，同一领域中不同知识概念存在多种关系，其中概念间的演化反应了领域知识的演变发展过程。

本文贡献：

建立了领域知识演化关系推理模型
提出了基于条件随机场模型的领域知识演化关系抽取方法

演化关系推理模型

领域知识间的演化关系包含两个对象：前置概念实体（pre-concept）和后置概念实体（post-concept），分别表示具有演化关系的前序知识和后续知识。

因此，针对这个概念，对演化关系作出了如下定义：

**定义1：**如果对于给定的两个实体A、B，以及满足演化关系约束条件的句子S（A<约束条件>B），则演化关系表示为evolution（A，B），其中A称为B的前置概念，B称为A的后置概念。

定义1中个人觉得比较重要的就是这个约束条件的定义与确认，什么样的谓词，或者说是什么样的表现形式才是文中所说的约束条件？？？？

演化关系模型

演化关系模式定义为：

{

演化关系模式：<#concept1> <#停用词>

<#特征谓词><#concept2>

}

停用词表示与内容无关的词，比如“的”、“地”等

因此将演化概念之间的抽取问题转变为前置概念和后置概念的抽取，当然句子S中的特征谓词不能忽略，其中前置概念和后置概念分别在句子S中充当主语（或者是宾语）和主语（或者是宾语），S中包含前置概念的部分内容标记为preS，相应的后置概念的部分标记为postS。

但是其中仍然又一些语句是不符合上述的演化关系模式的，比如句子“有些图像压缩算法就是以奇异值分解为基础”，显然这句话也符合知识间的演化，但却不符合上述的演化关系模式，因此将中文语句分类两类，一类是满足上述演化关系模式的称为简单句（简单模式），而不符合上述演化关系模式，但满足演化关系约束条件的句子称为复杂语句。采用不同的推理方法进行概念实体间的演化关系分析。

演化关系推理

简单句的句子结构相对简单，而且一般情况下只包含一个主谓结构，其中特征词作为谓词，因此首先得到preS和postS，然后再从中获取出概念实体，这种推理模式相对简单，见如下例子就能说明一些问题：

其中我们就能获得结果evolution(统计学习，支持向量机)

简单模式由于其句法结构的简单，因此我们可以采用基于模式匹配的方法进行推理

但是对于复杂的结构，模式匹配往往不能取得较好的结果，根据对句法进行分析发现，将复杂语句中的句法结构分为五类：主谓关系(SBV)，动宾关系(VOB)、定中关系(ATT)、状中关系(ADV)、以及左（右）附加关系(L|RAD)。

复杂语句如下所示：“概念论是今天数理统计的基础”，其中特征谓词“基础”作为宾语，而postS和prevS作为主谓关系，分析如下所示：

得到结果evolution(概率论，数理统计)

演化关系抽取方法

在本文中作者使用条件随机场模型抽取领域知识演化关系，是在最大熵模型和隐马尔科夫随机场基础上产生，是一种具有区分性的无向图模型

CRF句子层面关系抽取算法

目的是抽取出三元组对象，其中实体是前置概念和后置概念

分为4个步骤：

参数构建，解析句法结构
特征选取，对句子进行特征提取
利用CRF进行句子成分的序列标注，训练抽取模型
获取演化关系三元组

特征选择

标记策略

主要采用了LE、RE、OT标签

实验

实验设置及评估标准

数据集：中文维基百科

领域：机器学习

评估标准：采用的是信息检索领域中的标准的评价标准：

准确率，指的是标注正确的比例
召回率，指的是类别为X的实例中标注正确的比例
F值，指的是对准确率和召回率的整体衡量

演化关系模式分类评价

根据上述的描述，演化关系有简单模式和复杂模式两类，文章中首先通过机器学习的方法将其进行分类，针对不同的模式在进行演化关系推理。

分类模型包括：

基于概率的朴素贝叶斯
基于特征的支持向量机

分类主要分为4个步骤：

文档拆分，将文档拆分为句子进行演化关系模式分类
词项提取，中文分词处理
词频统计/特征构建，针对不同的分类模型，主要有两种操作，朴素贝叶斯主要统计词项的频次信息，而支持向量机主要完成特征函数的构建，计算TF-IDF来区分权重大小
分类模型训练，得到分类结果

实验结果如下所示：（数据集中6份作为训练集，4份作为测试集）

根据结果显示，其得到的结果并不是很乐观，支持向量机的F值也不足70%，而朴素贝叶斯得到的结果更低，这对于演化关系抽取噪声较大。上述所说的模版匹配（针对于简单模式）的匹配方案效果也不明显，即使我们设置了滑动窗口，但是并不能确认特征谓词出现的位置就在那个地方，而且得到的结果也并不能确定前置概念和后置概念的位置关系（谁前谁后），得到的结果如下所示：

因此，不论机器学习的分类还是模版分类都没有得到一个很好的结果，因此作者换了一种方法，即根据不同演化关系模式下具有不同的演化关系推理方法来进行统一的处理。

演化关系抽取结果

首先在训练条件随机场模型时，针对不同的特征集合组合进行了训练，以挑选最合适的特征函数集合。

可能会影响实验结果的两点因素可能有：

中文分词的影响，比如“支持向量机的理论基础来自于统计学习理论”，分词后可能会把“支持向量机”和“统计学习理论分开”，这样肯定是会影响结果的
另外一个影响因素是句子中可能包含英文词语，在对关系抽取之前进行过数据预处理，删除了非中文的部分，这样得到的数据可能会使句子结果发生改变，影响结果

本文中，作者分别对简单模式、复杂模式，正序关系、逆序关系进行了分析与评估，指标还是上述所提及的三项指标。

另外作者从实验结果中抽取出部分演化关系三元组，根据结果可以构建概念实体领域知识演化关系图，同时根据维基百科中对各个概念提出的时间进行标注，得到根据时间进行领域知识的排序，效果如下所示：

可以看出前置概念是后置概念不论从演化关系（演化序列）或者是时间序列上都是基础

另外根据三元组我们可以构建知识图谱，

根据KG，我们可以对其进行查询、检索，也能得出演化关系，某一个概念的出现是由哪几个概念共同影响的，这些是很重要的信息，对于某一个概念的学习具有指导意义。

结束语

文章中使用条件随机场进行关系抽取，相比于其他对比实验，得到了比较好的结果。

在以后的研究工作中，作者提出了几个可以优化的点

演化关系的推理现目前是根据人工标注的，能否做成自动化或者是半自动化的做法
能不能进行多领域的发现，现文章中只针对了维基百科中的机器学习部分，能不能进行多领域的前置概念和后置概念的发现，这将又具有意义。