GAKG: A Multimodal Geoscience Academic Knowledge Graph 多通道地理学学术知识图谱

2021.09

现有的主要关注概念的外部联系,然而内部的多模态数据的潜在的丰富信息大多被忽略了。

本文基于各类地学期刊发表的112万论文,提取插图、表格、文本,获取知识实体、文章时代空间属性,耦合多模态数据和特征。创新之处在于将机器阅读、信息检索和人在回路的人工标注技术结合。

本文贡献:

1、本文挖掘论文内部插图、表格、文本、文献计量学数据等,耦合多通道学术数据和特征。

2、通过世界地图将所有信息融合在一起,论文之间行成强相关性和高耦合性。

3、提出一种人在回路的实体提取管道,提取知识实体,并映射到众包知识分类,人机交互减少工作量。

4、6800多万个三元组,定期更新。


一、GAKG本体论

包含11个概念19个关系连接39个数据属性。

**论文:**属性包括标题(标签)、摘要、DOI、原始URL、论文发表的年份和日期、问题、卷、期刊的起始页和结尾页。其中,属性标题重用了AXIOM rdfs:Label,属性原始URL重用了Axiom foaf:Page。

**期刊:**3个属性

**作者:**2个属性

**从属:**作者的领域从属关系,5个属性

**主题:**3个属性,包含图像url

**图解:**3个属性

**表格:**3个属性

**知识:**解释关键信息的item,3个属性

**地理位置:**3个属性

**时间尺度:**3个属性

GeoHash

GAKG数据集以RDF (N-Triple)格式保存。

二、构建

1、知识主体的抽取

提出人在回路的知识抽取方法。

首先确定要提取的核心知识,定为5个问题,关系都是paper的属性。

从摘要中回答问题:在GAKG引文网络部署网络嵌入来计算论文实体的嵌入,使用BERT对论文实体的嵌入与标注文章摘要的嵌入向量融合。用ERNIE框架训练机器阅读理解模型,训练集是2000篇由专家注释的摘要中的问题答案。最后为其余文章生成答案,这样获得问题答案对。

ERNIE:百度的持续学习的语义理解预训练框架,基于BERT做的。

连接知识实体与答案,提取了230万多的概念,每个词表示为文本语料库的TF-IDF矩阵中的一个列向量,为答案中实体排名,选出最好的三个。

TF-IDF:如果某个单词在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF是词频表示词条在文本中出现的频率,IDF表示总文档数/出现该词的文档,TF*IDF越大越好。可用于提取关键词

2、地理学知识分类学

构建知识分类,并把Human-in-Loop系统提取的知识实体映射到该分类。

geologic time scale information mining
geographic information extraction
3、地理信息的提取

地理插图:提取图片并筛选,从插图中提取地名、坐标。

地理社会政治实体:基于BERT提取,位置归一化。

4、地理时间尺度提取

GAKG: A Multimodal Geoscience Academic Knowledge Graph 多通道地理学学术知识图谱相关推荐

  1. ACL2020 | 基于Knowledge Embedding的多跳知识图谱问答

    一只小狐狸带你解锁 炼丹术&NLP 秘籍 作者:舒意恒(南京大学硕士生,知识图谱方向) 背景 什么是知识图谱问答? 知识图谱(KG)是一个多关系图,其中包含数以百万计的实体,以及连接实体的关系 ...

  2. A Survey on Knowledge Graphs___Representation, Acquisition and Applications.知识图谱综述:表示,获取,应用

    知识图谱综述:表示.获取及应用 这是研究生第一篇综述文章,第一次读也是花了好几天的时间. 摘要:人类的知识提供了对世界的一种形式的理解.表征实体之间结构关系的知识图已成为认知和人的智能研究的热门方向. ...

  3. 【Query Embedding on Hyper-relational Knowledge Graphs】 超关系知识图谱上的查询嵌入 论文结果复现

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 一.背景知识 二.写作动机 三.技术概述 1.查询嵌入: 2.超关系知识图谱: 3. 超关系查询: 四.模型概述: 五 ...

  4. 【企业数智化转型】知识图谱(Knowledge Graph)

    关键词:基于行为的学习,基于知识的学习,商业智能,工业4.0,知识图谱,企业图谱, 图数据库, 图计算引擎, 数据可视化 应用场景:征信.风控.问答.医疗.能源.舆情.反欺诈.市场营销.社交网络.企业 ...

  5. Learning Hierarchy-Aware Knowledge Graph Embeddings for Link Prediction论文阅读笔记

    我的博客链接 0. 前言 1. 作者试图解决什么问题? 作者想在KGE中对语义层级(semantic hierarchies)进行建模. 2. 这篇论文的关键元素是什么? semantic hiera ...

  6. 斯坦福图机器学习CS224W笔记自用:Heterogeeneous Graphs and Knowledge Graph Embeddings

    Todays'Goals: 到目前为止,我们只处理一种边类型的图 如何处理具有多种边类型的(有向)图(又称异构图)? Heterogeneous Graphs(异构图): Relational GCN ...

  7. Multi-Modal Knowledge Graph Construction and Application: A Survey

    Multi-Modal Knowledge Graph Construction and Application: A Survey 一.背景: 二.知识图谱定义与构建所需的储备知识 2.1 A-MM ...

  8. AutoSF- Searching Scoring Functions for Knowledge Graph Embedding

    AutoSF: Searching Scoring Functions for Knowledge Graph Embedding Abstract 衡量知识图(KG)中三元组合理性的得分函数(SFs ...

  9. [转发]知识图谱 (Knowledge Graph) 专知 荟萃

    知识图谱 (Knowledge Graph) 专知 荟萃 入门学习 大规模知识图谱技术 王昊奋 华东理工大学 [http://history.ccf.org.cn/sites/ccf/xhdtnry. ...

最新文章

  1. Python Qt GUI设计:如何调整组件布局比例?(拓展篇—1)
  2. 树莓派如何卸载mysql_树莓派安装MySQL数据库与卸载
  3. poj 2449 A*求k短路
  4. 宽屏图片轮播html,jQuery实现宽屏图片轮播实例教程
  5. 给你一碗孟婆汤你会选择遗忘什么?
  6. mysql 配置多个数据库连接_总结MySQL修改最大连接数的两个方式
  7. leetcode114. 二叉树展开为链表(深度优先搜索)
  8. Mac下的浏览器速度比较,Chrome 得分最高
  9. python center函数_数据类型和数据结构(三):字符串(4) 字符串内置函数(1)
  10. 一个简单的javascript时钟程序
  11. 关于 “Makefile:3:***遗漏分隔符。停止 。”解决方法二
  12. java多条件不定条件查询
  13. 【原创】大叔算法分享(6)机器学习概览
  14. emacs之配置代码风格
  15. 窃取百度搜索结果曝光,今日头条一直穿着“皇帝的新装”?
  16. c# winform 浏览器调用chrome内核
  17. ug齿条插件_NX9.0齿轮齿条运动仿真—齿轮工具箱巧用及渐开线制作
  18. python手绘图_用Python轻松实现手绘图效果
  19. POJ 2387 Til the Cows Come Home BFS最短路求解
  20. 原型开发工具_开发工具的未来原型

热门文章

  1. Java实现 LeetCode 24 两两交换链表中的节点
  2. 《浪潮之巅》第一、二、三、六次印刷勘误表
  3. 逆向OD分享-过检测插件-可过VMP等壳保护检测
  4. 【NOIP模拟】Competing Souls
  5. 微信退款 支付宝退款
  6. iPhone X适配 webpage
  7. Linux中的密码信息保存文件
  8. 基于大疆RM3508电机的串级PID(角度环+速度环)
  9. python爬取网易藏宝阁手机版_Python3 TensorFlow打造人脸识别智能小程序
  10. python读取ini_python读取ini文件