论文浅尝 - ESWA | 知识图谱的自动扩充方法
论文笔记整理:谭亦鸣,东南大学博士。
来源:ESWA141(2020)
链接:https://www.sciencedirect.com/science/article/abs/pii/S0957417419306839
为了使计算机理解人类语言,并且实现推理,人类知识需要被表示并储存为能够被计算机处理的形式。知识图谱(KG)被设计为一种反应词及词间关系的结构形式。但是目前的知识图谱存在两个限制因素:其一是对于大部分人类语言来说,图谱的规模和范围存在局限性;其二则是新词跟进。为了解决这些问题,本文提出PolarisX,一种通过实时抓取分析网络新闻和社交媒体实现自动扩展的知识图谱,利用微调的BERT模型构建无语言依赖性的知识图谱。基于BERT的关系抽取模型被用来抽取新的关系,并将它们添加到知识图谱中。作者验证了PolarisX的novelty与准确性,确认其新词处理能力以及“无语言依赖性”。
动机与贡献
如上文所属,现有KG存在(大多数语言上的)规模不足,无法跟进新词等两个局限性。
如表1所示,这里的新词分为两种:1.新词新意;2.旧词新意。
对于这两个问题,作者认为解决的关键在于KG的构建需要跟上新词出现的节奏(考虑到新词出现的频率以及开放域等特点,显然依赖人工跟进解决不了这个问题),一种合理的方式是爬取社交媒体获取新词,而后抽取新的知识(尤其是关系),并添加到知识图谱中。
因此,本文提出了一种自动成长的知识图谱PolarisX(大数据处理平台Polaris的一个部分),通过爬取新闻网站以及社交媒体,抽取新的关系,生成对应的知识子图,然后添加到知识图谱中,并采用ConceptNet验证了它的有效性。
作者认为本文的主要贡献为:
1.处理新词:PolarisX能够利用已有数据生成KG并通过新闻和社交媒体实时跟进新词的涵盖
2.无语言依赖性:使用multilingual BERT模型通用的处理各种语言
模型与算法
下图是PolarisX的自动构建框架,主要包含三个部分:
1.Social Crawler用于扩充知识资源(社交媒体/新闻),并做关键词抽取
2.Semantic Analyzer的主要作用是确定新的关系
3.Knowledge Miner负责构建和扩充知识图谱
Social Crawler:
这里主要实时爬取Twitter和新闻数据,这些数据被作为扩充KG的原始资源,推特数据利用Apache AsterixDB系统的 Feed Adapter function实现实时收集,新闻数据则来自NewsAPI(https://newsapi.org/.),对于获取的资源使用LDA(Latent Dirichlet Allocation)抽取其中的关键词。
Semantic analyzer:
新关系(主要指关键词之间的关系)的抽取是通过BERT模型实现的(作者在这里使用的是BERT-base,Multilingual Cased预训练模型,支持104种语言),微调使用TACRED数据集实现。
Knowledge Miner
如下图,knowledge miner利用字符串匹配将新发现的关系链接到现有知识图谱上
实验与结果
为了验证自动扩充KG方法的效果,作者提出了四个实验方式:
1.验证处理新词的能力
使用ConceptNet 5.5(英语/韩语)以及使用PolarisX扩充的ConceptNet 5.5对比其中一词“Sonata”(一般视作一个音乐术语,在韩国则还有相同名字的汽车品牌)
从效果上看,使用PolarisX扩充的ConceptNet涵盖了许多Sonata汽车的信息,下表展示了ConceptNet及ConceptNet+PolarisX两者的一个对比:
2.知识图谱扩充
与DBpedia,YAGO等现有KG的对比来看,ConceptNet+PolarisX具有更多的边,作者认为这粗略的表明具有更加丰富的知识(A higher total number of edges roughly means a richer knowledge base)
3.语义解析准确率
作者验证BERT-based关系抽取模型的效果如下表所示:
OpenKG
开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。
点击阅读原文,进入 OpenKG 博客。
论文浅尝 - ESWA | 知识图谱的自动扩充方法相关推荐
- 论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述
随着监督学习在机器学习领域取得的巨大发展,如何减少人工在样本方面的处理工作,以及如何使模型快速适应层出不穷的新样本,成为亟待解决的问题.零样本学习(Zero-Shot Learning, ZSL)的提 ...
- 论文浅尝 \ 联合知识图谱实例和本体概念的通用表示学习
论文笔记整理:周虹廷,浙江大学研究生.研究方向:知识图谱,图表示学习等. 论文链接: http://web.cs.ucla.edu/~yzsun/papers/2019_KDD_JOIE.pdf 本文 ...
- 论文浅尝 | 变分知识图谱推理:在KG中引入变分推理框架
本文转载自公众号:机器之心. 推理知识图谱中缺失的连接已经吸引了研究界的广泛关注.在本论文中,加州大学圣塔芭芭拉分校的王威廉等研究者在知识图谱推理中引入了变分推理框架,并将路径搜索和路径推理紧密结合从 ...
- 论文浅尝 | 「知识图谱」领域近期值得读的 6 篇顶会论文
本文转载自公众号:PaperWeekly. CIKM 2017 ■ 论文 | Hike: A Hybrid Human-Machine Method for Entity Alignmentin La ...
- 论文浅尝 | 动态知识图谱对齐
论文笔记整理:谭亦鸣,东南大学博士生 来源:AAAI'21 链接:https://ojs.aaai.org/index.php/AAAI/article/view/16585 概述 本文提出了一种动态 ...
- 论文浅尝 - ICLR2020 | 知识图谱中数值规则的可微学习
论文笔记整理:许泽众,浙江大学博士研究生.研究方向:知识图谱,规则挖掘等. 论文链接:https://openreview.net/pdf?id=rJleKgrKwS 本文解决的是规则的学习问题,学习 ...
- 论文浅尝 | WWW2020 - 知识图谱中的实体摘要:算法、评价和应用 (PPT)
本文转载自公众号:专知. 知识图谱封装了实体和关系.知识图谱的简洁表示格式和图的特性使得许多新的Web应用程序得以创建,并增强了现有的应用性能.然而,在一个知识图谱中,描述一个实体的几十个或几百个事实 ...
- 论文浅尝 | 解决知识图谱补全中的长尾关系和不常见实体问题
论文笔记整理:汪寒,浙江大学硕士. 链接:https://www.aclweb.org/anthology/P19-1024.pdf 动机 KG的分布遵循长尾分布,大部分关系只有很少的三元组,且大体趋 ...
- 论文浅尝 | 利用知识图谱嵌入和图卷积网络进行长尾关系抽取
论文笔记整理:王狄烽,南京大学硕士,研究方向为关系抽取.知识库补全. 链接:https://arxiv.org/pdf/1903.01306.pdf 发表会议:NAACL2019 动机 现有的利用远程 ...
最新文章
- 完成端口模式下的高性能网络服务器【转】
- map vs hash_map
- Supervisor 进程管理工具
- java输入正数和负数并计算个数
- docker安装elasticsearch_Elasticsearch amp; Kibana 部署安装 (Docker)
- Oracle中修改存储过程名语句,修改存储过程中使用的语句是,select 语句使用存储过程...
- Arrays工具、二维数组以及LeetCode练习题
- android关于okhttp中对于onFailure回调的异常捕获
- Enumerator yielder.yield 与 Proc.yield 区别
- 算法分析与设计课程总结
- html 长度太长截断,HTML CSS 表格换行禁止 超出指定长度自动截断
- 这 10 条河,「贡献」了全球 95% 的海洋塑料污染
- 为什么浙江初中数学用计算机,计算器对初中数学学习几点看法
- Access to XMLHttpRequest at ‘xxx‘ from origin ‘http://localhost:8082‘has been blocked by CORS policy
- SDN in Action: Practice SDN/OpenFlow with LINC-Switch and OpenDaylight
- 淘宝评价计分规则,店铺信用评价如何累计
- 09年中国网络广告:淘宝市场份额直逼新浪
- 应用之星教你制作电子书(包括图文电子书),与技术无关
- android记事本的设计报告,基于android记事本的设计与开发开题报告.doc
- ipguard定制加密超级密码和登录提示
热门文章
- 解剖几个有点难度的C笔试题
- 可以在中断服务程序执行malloc吗?
- Android系统root破解原理分析
- cx_Oracle安装出现的问题
- 将DataFrame格式的数据存入到mysql数据库中
- dbcc dbreindex server sql_DBCC DBREINDEX重建索引提高SQL Server性能
- python 16bit转8bit的工具_利用python读取YUV文件 转RGB 8bit/10bit通用
- 流畅的Python 1. Python数据模型(特殊方法 __func__())
- Pytorch 神经网络训练过程
- LeetCode 1123. 最深叶节点的最近公共祖先(递归比较子树高度)