作者:Jiaoyan Chen, Senior Researcher, Department of Computer Science, University of Oxford, Research interests: Knowledge Base, Knowledge-based Learning, Machine Learning Explanation.


知识图谱在众多的领域中发挥了重要作用,比如聊天机器人,自然语言理解,常识推理,数据分析,机器学习等。然而,目前主流的常识知识图谱,如WikidataDBpedia,都存在质量管理,维护更新,一致性等方面的挑战。作为从多知识图谱的知识来源,维基百科的知识本身就存在2.8%的错误率 [1];而知识的提取、转化和创建过程也存在出现错误的可能。随着时间的推移和不同知识的融合,知识需要不断更新和维护,以确保知识的覆盖率,准确性和一致性。类似于数据策展 [8],知识图谱的策展(Knowledge GraphCuration)旨在知识图谱(知识库)的管理和维护,解决包括知识的填充(Population),知识的标准化(Canonicalization),错误知识的检测(Detection)和修复(Repair),知识的一致性(Consistency)维护等问题。

牛津大学知识表达和推理实验室 [2],联合伦敦图灵实验室AIDA项目组 [3]和挪威Sirius可扩展数据获取研究中心[4],提出了一些知识图谱策展方面的特定问题,并且结合各自在知识表达,推理,机器学习和语义网等方面的优势,进行了深入地研究。

问题一:知识图谱的文本标准化Literal Canonicalization[7]。该工作面向基于本体的知识图谱,旨在将那些通过属性任意标注的文本和对应的语义类型与实体进行关联。研究的对象类似如下三元组事实<River_Thames,passesArea, “Port  Meadow, Oxford”>。在这个例子中,宾语是一个文本”Port Meadow, Oxford”,它应该和对应的实体关联,或者成为一个新的实体(如果不存在),并且标注语义类型如ParkPlace,以使得它具有更多的语义信息,获得更大的使用价值。这样的文本在那些从维基中提取的知识图谱,如DBpediaLinkedGeoData中大量存在(事实上,我们发现Yago直接删除了这样的事实而不是对它们进行修复)。与此同时,在多个知识图谱的整合对齐时,在知识图谱演化过程中,甚至在知识贡献者编辑知识的时候,也会出现这样的问题或者有类似的需求。不同于现有的Open IE中的实体链接和聚类问题,上述文本的上下文语境存在重要差异,现有的机器学习方法很难直接应用,并且往往依赖于大量人工标注而忽略知识图谱(知识库)的本体限制。

在文本标注化过程中,我们采用下图所示的自动化框架,首先对文本所表示的实体进行类别标注。我们首先通过文本检索提取与文本接近的实体,和关系属性的所有对象实体。这些实体被称为上下文实体,而它们的类别(包括祖先类)则组成了用于标注的备选类。在这些上下文实体和备选类的基础上,我们进一步利用知识图谱的实体,事实和知识图谱的本体限制(如 class disjointness)进行高质量的正采样和负采样。然后我们利用一种基于自相关神经网络的语言模型训练分类器,预测出各个备选类的分数,并结合类与类之间的不相交性等本体限制进行类别标注。基于这些标注的类,我们判断是否存在关联实体,并且找出最有可能关联的实体(如果存在)。

问题二:表格语义标注(Semantic Annotation for Tabular DataColNet [5]是另一项我们正在研究的方法,它能对表格的列进行自动化知识图谱类型标注。类似于谷歌利用网页表格(Web Table)对其知识图谱进行扩展 [6],我们可以利用ColNet的类型标注,及其后续其它语义信息标注,进行知识图谱填充。ColNet不依赖于表格数据的元数据,并且自动从现有的知识图谱中学习一种基于卷积的深度学习模型,对给出的列预测出层次化的类。基于列的类型标注,我们可以进一步标注表格元素对应的实体和表格列之间的语义关系,从而利用这些表格数据对知识图谱实体进行填充。

[1] Gabriel Weaver, Barbara Strickland, and Gregory Crane.2006. Quantifying the accuracy of relational statements in wikipedia: amethodology. In JCDL, Vol. 6. Citeseer, 358–358

[2] https://www.cs.ox.ac.uk/isg/krr/

[3] https://www.turing.ac.uk/research/research-projects/artificial-intelligence-data-analytics-aida

[4] https://sirius-labs.no/

[5] Jiaoyan Chen, Ernesto Jiménez-Ruiz, IanHorrocks, and Charles Sutton. "ColNet: Embedding the Semantics of WebTables for Column Type Prediction." AAAI 2019

[6] Cafarella, Michael, et al. "Ten years ofwebtables." Proceedings of the VLDB Endowment 11.12 (2018):2140-2149.

[7] Jiaoyan Chen, Ernesto Jiménez-Ruiz, IanHorrocks. “Canonicalizing Knowledge Base Literals”. International Semantic WebConference (ISWC), 2019.

[8] https://en.wikipedia.org/wiki/Data_curation


OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

技术动态 | 知识图谱的策展相关推荐

  1. 技术动态 | 知识图谱构建的研究已走入下半场,但大规模落地应用仍需时间

    本文转载自公众号:AI前线. 作者 | 李冬梅 采访嘉宾 | 唐杰 知识图谱是近年来人工智能技术蓬勃发展的核心驱动力之一,已广泛应用在金融.电商.医疗.政务等众多领域,经过短短几年的发展,热度依旧不减 ...

  2. 技术动态 | 知识图谱赋能的知识工程:理论、技术与系统

    转载公众号 | 计算机科学编辑部 「2023年第3期」 知识图谱是人工智能在知识工程理论和技术发展中的前沿.知识图谱方法.技术与应用在新一代人工智能由"感知智能"迈向"认 ...

  3. 技术动态 | 知识图谱从哪里来:实体关系抽取的现状与未来

    本文作者为:韩旭.高天宇.刘知远.转载自刘知远老师的知乎专栏,文章链接:https://zhuanlan.zhihu.com/p/91762831 最近几年深度学习引发的人工智能浪潮席卷全球,在互联网 ...

  4. 技术动态 | 知识图谱上的实体链接

    本文转载自公众号:知识工场 1.什么是实体链接 实体链接(entity linking)就是将一段文本中的某些字符串映射到知识库中对应的实体上.比如对于文本"郑雯出任复旦大学新闻学院副院长& ...

  5. 【知识图谱系列】动态知识图谱表示学习综述 | 十篇优秀论文导读

    作者:CHEONG 公众号:AI机器学习与知识图谱 研究方向:自然语言处理与知识图谱 本文分享一篇动态知识图谱表示学习综述汇报ppt,分享10篇优秀论文,简单介绍其核心思想,完整汇报ppt获取请关注公 ...

  6. CNCC 2018技术论坛——知识图谱赋能数字经济

    本周五报名参加了在杭州举办的CNCC 2018大会,听取了关于知识图谱的技术论坛--知识图谱赋能数字经济.共有6位专家讲者带来了精彩的主题报告,以及一个小时的Panel环节.本博客将整理总结分享专家的 ...

  7. CNCC 技术论坛 | 知识图谱赋能数字经济

    2018中国计算机大会(CNCC2018)将于10月25-27日在杭州国际博览中心(G20会场)举行,大会主题为「大数据推动数字经济」(Big Data Drives the Digital Econ ...

  8. 知识图谱补全算法综述(动态知识图谱补全)

    论文阅读笔记:知识图谱补全算法综述 论文:丁建辉, 贾维嘉. 知识图谱补全算法综述[J]. 信息通信技术. 概念 表示学习相关理论 知识图谱表示学习 静态知识图谱补全(static KGC) 动态知识 ...

  9. 技术动态 | 事理图谱,下一代知识图谱

    本文转载自公众号:DataHorizon. 人工智能与认知智能 当前人工智能时代下,机器与人类之间的博弈一直在进行着.如图1所示,从1926年达特茅斯会议的召开标志人工智能诞生到深度学习模型在若干人工 ...

最新文章

  1. C/C++面试题分享
  2. mysql类型设计_mysql设计表结构数据类型的选择
  3. mysql百万数据删除_【MySQL】删除大量数据的具体实现
  4. Tomcat下项目调整Log4J的console输出级别,减少输出信息
  5. [安全攻防进阶篇] 一.什么是逆向分析、逆向分析应用及经典扫雷游戏逆向
  6. 【文章】人的好运从哪里来?
  7. jQuery插件:Tiny Scrollbar滚动条插件(滚动条美化、默认滚动条)
  8. IntelliJ Idea学习笔记004---IDEA中maven没有了
  9. aws rds监控慢sql_探索AWS RDS SQL Server上SQL Server集成服务(SSIS)
  10. python社区版如何下载库_pycharm社区版在哪里下载
  11. 微信小程序使用代码切换底部导航
  12. Thymeleaf 随记
  13. ep100的flash程序寄存器理解
  14. 计算机网络里的DHCP是什么,路由器设置中的dhcp是什么意思?
  15. 学习andriod开发之 自己开发短信发送软件
  16. VRchat改模型相关
  17. 做好公司各部门数据报表支撑的几个简单思维
  18. 马尔科夫随机场(MRF)与吉布斯分布(Gibbs)
  19. APISpace 中文简繁转换API
  20. 业界 | 涂子沛:从幼稚到成熟,我们这个时代的数据革命

热门文章

  1. C#正则表达式判断输入日期格式是否正确
  2. Visual Studio会让嵌入式开发变得更香
  3. 1024对话内核大神谢宝友
  4. Android 亮屏速度分析
  5. c++ doxygen 注释规范_利用Doxygen给C程序生成注释文档
  6. OCR系列——总体概述
  7. java输出日志_java代码中如何正确使用loggger日志输出
  8. 性能测试oracle瓶颈定位,性能测试中如何定位性能瓶颈
  9. python easygui_Python里的easygui库
  10. 七、Vue cli详解学习笔记——什么是Vue cli ,Vue cli的使用(安装,拉取2.x模板,初始化项目),Vue cli2详解,Runtime-Compiler和Runtime-only区别