OpenKG地址:http://openkg.cn/dataset/ckgg

GitHub地址:https://github.com/nju-websoft/CKGG

数据地址:https://doi.org/10.5281/zenodo.4668711

论文地址:https://doi.org/10.1007/978-3-030-88361-4_25

开放许可协议:CC BY-SA 4.0

贡献者:南京大学(沈俞霖,陈子恒,程龚,瞿裕忠)


1、背景

使用人工智能技术解答学业测验的题目是人工智能和知识工程领域的一个长期挑战。我们长期研究使用人工智能技术构建问答系统解答中国高中教育中的地理学科的题目。从此项研究中,我们发现,现有的开放数据中,仍缺乏可以覆盖高中阶段核心地理知识的高质量知识图谱。

在高中地理科目的应用上,现有的地理主题的知识图谱不够完整、准确。例如,GeoNames 仅涵盖地点位置和行政区划等基本地理数据。Clinga 从百度百科中提取了气候等丰富的地理数据,但受制于在线数据缺乏统一的验证,提取的数据准确性不高,并多存在分类标准不一致等情况。

虽然相关的知识图谱较为缺乏,高质量的地理数据仍在网络上广泛存在。例如,Berkeley Earth 提供了全球温度的数据, GES DISC 提供了全球降水量的数据。然而这些数据均以数据网格的格式提供,为了便于查询,我们需要将这些数据关联到具体的地点实体。此外,还存在一些以图片、表格格式存储的数据,均需将其关联到地点实体并转换为便于的格式。整合这些异构数据需要使用复杂的方法。

2、CKGG 概述

为解决高质量高中地理知识图谱缺乏的问题,我们首先从教辅资料中构建了覆盖高中地理核心概念的本体。以此为基础,我们构建了中文高中地理知识图谱 CKGG (Chinese Knowledge Graph for Geography),覆盖高中阶段的核心知识。我们基于 GeoNames 和 Wikidata 的实体合并得到了 CKGG 中的地点实体,并使用了多种工具整合了不同来源不同格式的数据。CKGG 共包含 15 亿个 RDF 三元组,120 余万实体。下图概述了 CKGG 的数据来源。

3、CKGG 本体构建

CKGG 的本体包含 755 个类,304 个简单属性,89 个复杂属性。CKGG本体的一个示例如下。

我们使用7步法构建本体,详细过程为:

  • 明确范围:CKGG 需覆盖高中地理教材/教辅中的大部分核心概念,我们使用教辅资料作为本体的数据源。

  • 考虑重用:我们重用了标准的 RDF 和 RDFS 术语表达实体的名称和类型,重用了 WGS84 Geo Positioning 术语 (wgs84_pos:lat, wgs84_pos:long) 表达实体的经纬度信息,并重用了 Clinga 本体的行政区划层级关系。

  • 列举术语:我们人工从教辅资料中收集了术语,并加入了少量的常识术语(如“公共设施”)

  • 定义类:我们使用自顶向下的方法,定义了地理实体大类,在大类下定义了地点、气候类型等子类,并根据教辅资料和常识对类进行了进一步细分。

  • 定义属性:我们将收集到的术语中的属性关联到其对应的 rdfs:domain 类型上。大多数属性的 rdfs:domain 类型为“地点”,例如海拔高度、气候类型、受洋流影响等。此外我们定义了“上级地点”属性,表述地点之间的从属关系。

  • 定义约束:对每个属性,我们通过定义 rdfs:range 属性设置了它们的取值范围。对于一些枚举类型的属性,我们使用了 owl:oneOf 进行定义。例如“科技水平”被定义为可取值“极高”、“高”、“中”、“低”、“极低”,以便表达此类定性的属性值。

  • 创建实例:对于 CKGG 的本体,我们没有定义对应实例,实例将在 CKGG 的图谱中构建时进行定义。

4、CKGG 图谱构建

CKGG的图谱构建主要分为实体构建、基本属性构建和其他属性构建,此外我们还构建了地点的重要性分数属性以便下游应用进行消歧。下面对各个步骤进行详细介绍。

实体构建:我们收集了 GeoNames 的所有实体和 Wikidata 的含中文标签和经纬度的地理实体。我们使用了两个数据源中原有的实体之间的对应关系。此外,我们使用启发式的方法得到了 GeoNames 中可能重复的实体之间的关系。最后我们使用这些对应关系将相同实体合并为 CKGG 中的一个实体。

基本属性构建:我们考虑地点的类型、名称和经纬度作为基本属性,要求 CKGG 中每个地点必须包含这三个属性。我们使用 AgreeMakerLight 跨语言本体对齐工具得到了 CKGG 本体和 GeoNames 特征码的对齐,进行人工验证后,使用该信息设置地点的类型。地点的名称我们使用了 Wikidata 和 GeoNames 的所有中文名,以及 GeoNames 中的标准英文名。对于地点的经纬度,由于之前实体合并的影响,可能存在多值,我们选择中心点作为地点的标准经纬度。

其他属性构建:我们收集了地点的气温、降水量、太阳辐射量、多边形范围、洋流、气候、统计信息等数据。

  • 对气温、降水量、太阳辐射量,我们使用了网格数据源,数据源中地表按经纬度划分为了多个网格,每格对应了一个值。我们使用上一步得到的标准经纬度对每个地点的属性进行赋值。

  • 对地点多边形范围,我们使用了 GIS 多边形数据源。将地点的多边形范围赋值后,我们根据此范围推算出了地点的包含关系。

  • 对地点的洋流、气候等数据,我们使用了 GIS 工具将书本中的气候图和 Wikipedia 中的洋流图分别标注为多边形和折线段,后根据地点与其关系得到地点的气候类型和影响地点的洋流。

  • 对地点的统计信息数据,我们目前对国内的地点进行了处理。我们收集了国家统计局网站上的分省统计数据,并使用自动化与人工结合的方法与本体进行了对齐。此外,我们还收集了国家统计局的行政区划数据,与 CKGG 中的地点进行对齐,以得到行政区的区划代码,使用该代码将统计数据与地点进行关联。

实体重要性属性构建:我们使用实体对应的 Wikipedia 文章的入链接量表示实体的重要性,该数据可以有效在无上下文的情况下对实体消歧。例如包含“北京”的重要性最高的实体是中国的首都,而非其他同名的地点。

5、CKGG 量化分析

CKGG 共包含 121.9 万个实体与 15 亿条三元组。对 CKGG 的质量,我们通过人工抽样的方式评估了地点实体的覆盖率、地点合并的准确率、实体包含关系的准确率。其中,地点合并的准确率超过 93%,实体包含关系的准确率达到 100%。CKGG 实体对高中地理教材的覆盖约为 79%,我们发现主要原因为复杂抽象实体(某河流流域、某河流河谷)较少被来源数据源描述。

6、结论

我们通过对高质量的地理数据源进行格式转换,得到了 CKGG 知识图谱,这项工作被语义网领域国际顶会ISWC 2021授予最佳资源论文提名奖。虽然其构建目的主要为针对高中地理教育的应用,我们的图谱也能用于其他地理应用。下一步工作我们将向 CKGG 中填充更多数据,并研究 CKGG 在问答系统中的应用。


OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

OpenKG开源系列 | 中文高中地理知识图谱CKGG(南京大学)相关推荐

  1. 中文通用百科知识图谱(CN-DBpedia)

    http://www.openkg.cn/dataset/cndbpedia 原始数据采用了中文通用百科知识图谱(CN-DBpedia)公开的部分数据, 包含900万+的百科实体以及6600万+的三元 ...

  2. 技术动态 | 人工智能开源软件发展现状连载——知识图谱开源软件

    本文转载自公众号:中国人工智能开源软件发展联盟,欢迎大家点击文末二维码关注. 知识图谱 (Knowledge Graph)是一种基于图的数据结构,由节点(Point)和边(Edge)组成.在知识图谱里 ...

  3. 探索“老药新用”最短路径:亚马逊AI Lab开源大规模药物重定位知识图谱DRKG

    本文经授权转载自机器之心(almosthuman2014),未经授权禁止二次转载与摘编. 本文长度为3200字,建议阅读9分钟 本文带你了解亚马逊AI实验室的开源机器学习工具. [ 摘要 ]最近,来自 ...

  4. 说实话:中文自然语言处理(知识图谱)的N个真实情况

    中文自然语言处理,目前在AI泡沫之下,真假难辨,实战技术与PPT技术往往存在着很大的差异.目前关于AI或者自然语言处理,做的人与讲的人往往是两回事. 1.深度学习在自然语言处理当中,除了在分类问题上能 ...

  5. dbpedia知识图谱java_中文通用百科知识图谱(CN-DBpedia)

    介绍 CN-DBpedia是由复旦大学知识工场实验室研发并维护的大规模通用领域结构化百科,其前身是复旦GDM中文知识图谱. CN-DBpedia主要从中文百科类网站(如百度百科.互动百科.中文维基百科 ...

  6. ACL 2019开源论文 | 基于Attention的知识图谱关系预测

    作者丨王文博 学校丨哈尔滨工程大学硕士生 研究方向丨知识图谱.表示学习 动机 由于传统方法都将三元组进行独立的处理,忽略了其相邻的三元组之间隐藏的固有信息的缺点,使得无论是转化模型还是较新的基于卷积神 ...

  7. 近期全球知识图谱相关行业动态、会议讲座、综述推荐

    行业动态 速报 1.耶鲁大学和 IBM 研究人员推出核图神经网络 (KerGNNs) 耶鲁大学和 IBM 研究人员提出了核图神经网络 (KerGNNs).KerGNN 是将图形内核和 GNN 消息传递 ...

  8. 开源开放 | 开源网络通信行业知识图谱(新华三)

    转载公众号 | 数字化领航 OpenKG地址:http://openkg.cn/dataset/network-communication 文章作者:新华三集团 出品平台:数字化领航 OpenKG是中 ...

  9. 【浙江大学】一个开源的知识图谱表示学习框架

    一.NeuralKG:一个开源的知识图谱表示学习框架 OpenKG地址:openkg.cn/tool/neuralkg GitHub地址:github.com/zjukg/neuralkg Gitee ...

  10. 生物医学知识库/知识图谱(英文+中文)盘点

    因为硕士研究方向是基于知识图谱的中文医学问答系统,所以调研了下现有的生物医学(BioMedical)和医学(Medical)知识库. 首先需要对上述两个概念做个区分,从我的理解来看,生物医学更加微观, ...

最新文章

  1. Vue指令v-for之遍历输出JavaScript数组,json对象的几种方式
  2. Android应用程序键盘(Keyboard)消息处理机制分析(26)
  3. mysqldump导出数据库 (dos环境下)
  4. Django(part3)--制作我的第一个网页
  5. 二叉树先序,中序,后序,层次遍历(数据结构)
  6. html判断输入是否为空格,javascript怎么判断是否为空格?
  7. 处理模型——通过扩展模型处理器直接处理每个ModelMesh的顶点位置数据
  8. 漫画:什么是单例模式?(转载)
  9. POJ 3250:Bad Hair Day 好玩的单调栈
  10. 读书笔记:Sheldon.M.Ross:概率论基础教程:2014.01.22
  11. 系泊系统的设计界_如何回馈设计界
  12. 【小游戏】2D游戏你比划我来猜(unity和陀螺仪交互)
  13. 苹果系统更新不了怎么办_iphone/ipad更新系统失败后怎么办?
  14. win7系统调整屏幕刷新率方法
  15. win32com处理excel数据透视表格式
  16. u3d 自学杂项(自用,持续更新)
  17. 2018.10.19学习总结
  18. 树莓派2model B 通过蓝牙实现A2DP协议连接手机播放音乐
  19. 第23天:如何使用带有哈利·波特PortKey的ARKit和Unity构建应用程序
  20. Sawyer机器人助力ASM印刷电路板处理

热门文章

  1. 批量导出导入docker镜像
  2. 数学——每日一题6 1.13 利用定积分的定义求极限
  3. 我的2020年终回顾:人生,海海,破浪前行
  4. MXF视频文件损坏的修复方法
  5. gtx1060 能用catia软件吗_性能炸天!资深IT大叔详测Precision 7730工作站
  6. 认识COFF文件格式
  7. MAC-快捷键打开终端
  8. 我读《非暴力沟通》- 马歇尔 *卢森堡 - 是什么蒙蔽了爱
  9. chronodex怎么用_滴答清单使用全攻略:如何把手帐搬到滴答清单上,提升效率?...
  10. 美妆类短视频如何定位?可以考虑三个方向,吸粉引流指日可待