论文笔记整理:谭亦鸣,东南大学博士。


来源:Knowledge and Information Systems volume 62, pages611–637(2020)

链接:https://link.springer.com/article/10.1007/s10115-019-01363-0

概要

本文的核心工作是利用知识结构来衡量知识库的不确定性。文章的内容涵盖了以下几个部分:

1.首先队知识库的知识结构进行介绍;

2.以包含度特征为基础,提出知识结构与知识库之间的依赖以及独立性;

3.研究给定知识库的不确定性度量(并证明该度量方法是以知识库的知识结构为基础);

4.最后,通过实验验证了本文方法的有效性,并从统计学的离散型和相关性两个方面做有效性分析。

动机与思路

作者用自问自答的形式对知识库不确定进行论述:

为何研究知识库不确定性的度量?因为知识库本身具有不确定性。

为何研究知识库的知识结构?因为知识结构有助于从知识库中发现知识。

为何使用知识结构衡量知识库的不确定性?因为很难对比给定知识库的不确定性值(原文是“This is because it is hard to compare the size of measure values of uncertainty for a given knowledge base.”,这句话没看明白,我的理解是:由于不同知识库的实体/关系规模差异较大,直接对知识库做不确定性衡量得到的量化结果不适合(不能够)反映出不同知识库之间的不确定性差异,因此要使用一个高层特征(知识结构),来代表并对不确定性的量化衡量做一个类似归一化的效果。),而且如果获取到两个知识结构之间的依赖关系,可以利用这个关系参与比较知识库之间的不确定性差异。

概念与定义

首先,作者使用矩阵M对于二元关系R进行了如下描述:

我们可以将矩阵中的x理解为知识库中的实体,R表明实体之间的关系,当R(xi, xj) =1时,表明x1,x2之间存在关系R.

可以看到,R在矩阵中可能构成三种关系场景(令实体集合为U,x, y∈U):

1.xRx (Reflexive)

2.xRy且yRx(Symmetric)

3.xRy,yRz,且xRz(Transitive)

当R满足上述三种情况时,被称为“equivalence relation on U”,R∗(U)则代表所有equivalence relation on U”的集合的族(我理解为子集的集合)

对于一个equivalence relation R,通过以下公式,可以抽取实体集U在R上对应的类别子集:

因此,利用equivalence relation R可以对U进行类别划分,即:

故作者在这里提出定义:

2.1当R是U的一个equivalence relation,那么(U, R)被视作一个Pawlak近似空间(这里需要对粗糙集的概念做一个初步了解),在此基础上,X∈2U(U的所有子集的族)的近似上下界可以通过以下公式定义:

2.2 当R∈2R*(U)时(R*(U)指U上所有的equivalence relation的集合),(U, R)可以表示一个知识库,举个栗子来看:

可以看到这个知识库里有6个实体,4种关系,对应得到了四组矩阵。

因此对应可以得到知识库对应的近似空间的上下界:

知识结构定义:

对于一个知识库(U, R),对于r∈R,可以通过以下公式描述r的知识结构:

因此整个知识库的知识结构为:

对于两个知识库(U, P)与(U, Q),当:

知识结构之间的依赖性与独立性:

(参数在前文均已介绍过,这里不再赘述)

Inclusion degree(是一种衡量inclusion relationship质量的标准),以下定义给出了两个集合向量之间的Inclusion degree(3.9取值范围及定义,3.10计算方式):

作者描述了一个计算inclusiondegree的例子:

1.首先给出两个知识库的知识结构:

2.计算inclusiondegree的过程为:

模型与算法

知识库粒度检测:

(首先给出粒度定义)

粒度的量化值如以下公式得到(作者在原文中对获取过程做了证明):

并提出定理:

作者认为,知识粒化符合粒运算特征,并且从不同的层次重新定义了知识和信息。粒度测量值随类别增加而递减。缺陷在于无法区分粒度相似但结构不同的知识库。

知识库的熵检测:

(也是先给出了定义及知识熵的计算方式,可以看到这里的熵是完全基于知识结构的(定理4.8))

并且知识结构的关系与熵的关联性如下(原文附带了证明过程):

这里还给出知识结构对应的粗糙熵定义及计算过程:

知识库的知识量(注意知识量是E,上面的粗糙熵是Er):

一些属性:

实验与结果

实验数据

为了验证上述测量方式对于知识库不确定性的量化衡量能力,作者在三个UCI数据集上进行了实验,数据集的统计信息如下表:

实验结果

首先对于三个数据集,均获取到上一节介绍过的四种测量方式如下(以Nursery为例),|U|=12960,|A|=8,Pi=ind({ai})(i = 1,2,…,8), Pi={P1,P2,…,Pi}(i = 1,2,…,8):

图3,4描述了这三种不同知识库(不同不确定性)的测量结果:

从各个指标的散度来看,知识量在衡量知识库不确定上表现出了更好的性能。


OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

论文浅尝 | 知识图谱的不确定性衡量相关推荐

  1. 论文浅尝 | 知识图谱三元组置信度的度量

    论文笔记整理:叶橄强,浙江大学计算机学院,知识图谱和知识推理方向. https://arxiv.org/pdf/1809.09414.pdf 动机 在构建知识图谱的过程中,不可避免地会产生噪声和冲突. ...

  2. 论文浅尝 | 知识图谱中的链接预测:一种基于层次约束的方法

    论文笔记整理:张良,东南大学博士生,研究方向为知识图谱,自然语言处理. 链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber= ...

  3. 论文浅尝 | 知识图谱相关实体搜索

    本文转载自公众号:南大Websoft. 相关搜索(Relevance Search)是信息检索中的一个经典问题,相关搜索是指给定一个查询实体,返回与其相关度最高的实体(一个类似的问题Similarit ...

  4. 论文浅尝 | 知识图谱的单样本关系学习

    链接:http://cn.arxiv.org/pdf/1808.09040 动机 如今的知识图谱规模很大但是完成度不高,long-tail关系在知识图谱中很常见,之前致力于完善知识图谱的方法对每个关系 ...

  5. 论文浅尝 | 知识图谱问答中的层次类型约束主题实体识别

    Citation:Qiu, Y., Li, M., Wang, Y., Jia, Y., & Jin, X.(2018). Hierarchical Type Constrained Topi ...

  6. 论文浅尝 | 知识图谱推理中表示学习和规则挖掘的迭代学习方法

    作者:张文,浙江大学在读博士,研究方向为知识图谱的表示学习,推理和可解释. 本文是我们与苏黎世大学以及阿里巴巴合作的工作,发表于WWW2019,这篇工作将知识图谱推理的两种典型方法,即表示学习和规则进 ...

  7. 论文浅尝 | 基于知识图谱难度可控的多跳问题生成

    论文笔记整理:谭亦鸣,东南大学博士生,研究兴趣:知识图谱问答. 来源:ISWC 2019 链接:https://link.springer.com/content/pdf/10.1007%2F978- ...

  8. 论文浅尝 | 基于知识图谱 Embedding 的问答

    论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识图谱问答. 来源:WSDM 2019 链接:https://dl.acm.org/citation.cfm?doid=3289600.3290956 ...

  9. 论文浅尝 | 基于知识图谱的智能调研方法(DI佳作)

    转载公众号 | 数据智能英文刊 题目:A Knowledge Graph Based Approach to Social Science Surveys 引用:Z. Pan, Z.J., et al ...

最新文章

  1. 四象限法推导lm曲线_【老王讲放射】四象限理论
  2. 自定义元素探秘及构建可复用组件最佳实践
  3. 个人知识管理专著《你的知识需要管理》出版
  4. 《solidity学习笔记》chapter 3-solidity其他知识
  5. mysql修改表和列
  6. Cobar分布式关系型数据库中间件的简单应用
  7. Linux部署安装JDK
  8. [转]Allegro shape敷铜 显示设置
  9. 计算机网络技术基础试卷2,《计算机网络基础考试2》试题与答案
  10. 无线通信设备安装工程概预算编制_电气设备安装工程计价与应用
  11. 物联网通信技术期末复习6:第六章-应用传输技术
  12. 面试技巧顶个P --leo谈应届生求职 2
  13. Python快速上手攻略
  14. 《万字长文》-吃透Docker-进阶篇
  15. Java之OutOfMemoryError简单分析
  16. Eclipse护眼背景色
  17. Ubuntu20.04部署微软counterfit AI系统安全测评工具实战
  18. GPU cudaMallocManaged 统一内存的优劣点
  19. JAVA——简单计算器设计
  20. Linux分割字符串空格,linux strsep字符串分割

热门文章

  1. 看了新闻,思科研发中心 没有成都的。。。
  2. Linux下编译安装openssl
  3. 标记一下 两个Google Chrome 源码研究的网站
  4. 排序算法之简单插入法排序(Java)
  5. linux module_init
  6. oci mysql_Oracle常用的OCI函数
  7. Python3——JSON
  8. 每日一题(46)—— volatile
  9. 每日一题(36)—— 什么是预编译 , 何时需要预编译?
  10. 二叉排序树和平衡二叉排序树