本文转载自公众号:DI数据智能


编者按:Data Intelligence最新发表一组语义资源论文,包括世界著名语义网技术专家荷兰阿姆斯特丹自由大学计算机科学系Frank van Harmelen教授团队的Constructing and Cleaning Identity Graphs in the LOD Cloud,人工智能和语义网研究领域国际知名学者、美国伦斯勒理工学院Deborah McGuinness教授团队的The Semantic Data Dictionary – An Approach for Describing and Annotating Data,英国开放大学研究者团队的The Computer Science Ontology: A Comprehensive Automatically-Generated Taxonomy of Research Areas,美国堪萨斯州立大学著名语义网技术专家Pascal Hitzler教授团队的GeoLink Data Set: A Complex Alignment Benchmark from Real-world Ontology以及意大利Cefriel公司知识技术团队专家的文章:Refining Linked Data with Games with a Purpose 。

论文1

Constructing and Cleaning Identity Graphs in the LOD Cloud(在关联开放数据云上构建并清理等价关系图谱)

引用本文:J. Raad, W. Beek, F. van Harmelen, J. Wielemaker, N. Pernelle & F.Saïs. Constructing and cleaning identity graphs in the LOD cloud. Data Intelligence 2(2020), 323–352. https://doi.org/10.1162/dint_a_00057

摘要:因为缺少个体命名的权威机构,所以在语义网上普遍存在着不同数据集用不同名称指代同一个体的现象。当使用多个名称表示同一个体时,我们需要使用 owl:sameAs 语句来关联数据,并促进重用。2009年开始就有研究指出使用 owl:sameAs 属性时有时会产生错误。我们之前的工作展示过一张包含超过5亿条明确含有 owl:sameAs语句和350亿条暗含owl:sameAs语句的等价关系图谱(identity graph)。我们提出了一个可扩展的方法,可自动计算每一条等价语句的错误程度。在本文中,我们生成了整张等价关系图谱的子图,这些子图都包含一定程度的错误数据。本文结论是尽管语义网中包含了许多错误的owl:sameAs语句,但语义网上的数据仍是可用的,同时我们可把因错误使用owl:sameAs语句带来的负面影响降到最低。

阅读全文,请扫描二维码

论文 2

The Semantic Data Dictionary – An Approach for Describing and Annotating Data(语义数据字典——一种描述和注释数据的方法)

引用本文:S.M. Rashid, J.P. McCusker, P. Pinheiro, M.P. Bax, H. Santos, J.A.Stingone, A.K. Das & D.L. McGuinness. The semantic data dictionary – an approach for describing and annotating data. Data Intelligence 2(2020), 443–486. https://doi.org/10.1162/dint_a_00058

摘要:数据集提供者在以数据字典的形式发布数据时,通常会为字典表里每列数据提供文本描述。虽然这些本文描述有助于用户正确理解数据集中每列数据的含义,但并不适合机读,也没有遵循统一的标准规范。已有研究指出语义数据字典可弥补现有数据字典的缺陷。语义数据字典,规定了数据的语义表示规范,可使各种不同数据集的数据表达规范化。本研究的语义数据字典基于生物医学数据构建,但实际上这种方法可以、并已被用于不同的学科领域。利用语义数据字典可促进数据的被发现、互操作、可重用,可溯源和可再现。本文展示了可公开获取的美国国家健康与营养检验调查数据集的语义标注的实例,讨论了数据建模的挑战,描述了研究者利用语义数据字典方法进行的工作,包括美国国立卫生研究院资助的大型健康数据网站和伦斯勒理工学院和IBM合作的“分析、学习和语义”健康赋能项目。在评测部分,研究者们设计了四个指标:数据、语义、FAIR原则和普适性,分别对比了语义数据字典、传统数据字典、映射语言和数据集成工具在这四个指标上的得分。研究者们也对该方法的局限性进行了讨论并对未来研究方向进行了展望。

阅读全文,请扫描二维码

论文 3

The Computer Science Ontology: A Comprehensive Automatically-Generated Taxonomy of Research Areas(计算机科学本体:自动生成对研究领域的全面分类)

引用本文:A. Salatino, T. Thanapalasingam, A. Mannocci, A. Birukou, F. Osborne & E. Motta. The computer science ontology: A comprehensive automatically-generated taxonomy of research areas. Data Intelligence 2(2020). https://doi.org/10.1162/dint_a_00055

摘要:研究领域本体是用来描绘某个研究领域特征,探索和分析该领域的重要工具。有一些研究领域已经编制出能够全面描绘本领域的大型主题词表,例如生物医学领域的MeSH医学主题词表,物理学领域的PhySHC主题词表。相比之下,计算机科学领域的主题词表粒度粗,而且发展缓慢。例如,ACM分类系统只包括2,000个研究主题,而且最近的版本还是2012年发布的。在本文中,我们介绍了能自动对研究领域进行分类的大型计算机科学本体( Computer Science Ontology,CSO),它包括1,400个主题和162,000条语义关系。该本体是通过在一个包含1,600万篇科技文章的大型数据集上运用 Klink-2算法而建立的。

CSO的优势体现在:1)本体中的大量主题没有在其他分类体系中出现过;2)通过在最近出版的文章数据集上运行Klink-2算法可自动升级CSO。在CSO基础上开发的几款工具已被Springer Nature编辑团队采用,而且CSO已经被用来作为解决方案,例如对科研出版物进行分类,发现新的研究社区,预测研究趋势等。为推广CSO的应用,我们也发布了可用来自动分类研究论文的CSO分类器,可帮助用户下载和研究CSO、提供对CSO的细粒度反馈的CSO门户网站。用户可以使用此网站进行导航,对本体的各个部分进行可视化,对主题和语义关系给出评分,提出需要补充哪些主题和语义关系的建议。

此外,CSO主体数据已在Data Intelligence期刊数据平台上与论文关联发布,欢迎大家下载使用。

论文全文地址为:https://www.mitpressjournals.org/doi/pdf/10.1162/dint_a_00055

数据下载地址为:http://www.en.scidb.cn/journalDetail?dataSetId=662664481360314368&code=5e05cb5d64a42fa9add9b7ae&tID=journalOne&dataSetType=journal#(需先注册后下载)

阅读全文,请扫描二维码

论文 4

GeoLink Data Set: A Complex Alignment Benchmark from Real-world Ontology (GeoLink数据集:基于真实数据的复杂本体匹配研究基准数据集)

引用本文:L. Zhou, M. Cheatham, A. Krisnadhi& P.Hitzler. GeoLink data set: A complex alignment benchmark from real-worldontology. Data Intelligence 2(2020). https://doi.org/10.1162/dint_a_00054

摘要:本体对齐的研究已经有十多年的历史,研究人员已经提出了很多方法,并开发了系统来发现两个本体之间一对一的匹配关系。但是,很少有本体对齐系统的研究关注本体间复杂的匹配关系。这其中的原因可能是目前并没有广泛接受的包含复杂关系的本体对齐基准数据集。本文基于GeoLink项目构建了一个真实世界数据集,可作为复杂本体匹配的基准数据集。本数据集包括两个本体,GeoLink基本本体(GeoLink Base Ontology, GBO) 和GeoLink模块本体(GeoLink Modular Ontology, GMO), 以及一个在咨询各学院领域专家后手工构建的校验参考数据集。

本数据集实体对齐包括一对一、一对多、多对多三种类型,使用EDOAL语言(即Expressive and Declarative Ontology Alignment Language,本体匹配表达及声明语言)和规则语法来描述实体对应属性关系。基准数据集的最初版本已经进行了扩充,现在的版本包括由七位地球科学家提供的真实世界实例数据,而且两个本体的数据集都已经发布。此基准数据集可用在对齐系统中,或已经有训练数据的系统。此外,此数据集已经被用于本体对齐竞赛(Ontology Alignment Evaluation Initiative, OAEI)中的复杂本体匹配的比赛中,帮助研究者们测试他们的自动对齐系统和算法。本文也分析了复杂本体对齐工作面临的挑战,并提供了未来研究工作的路线图。

该论文描述的数据集已在Data Intelligence期刊数据平台在线发布,敬请大家下载。

论文全文地址为:https://www.mitpressjournals.org/doi/pdf/10.1162/dint_a_00054

数据下载地址为:http://www.en.scidb.cn/journalDetail?dataSetId=662677835797757952&code=5e05cb5d64a42fa9add9b7ae&tID=journalOne&dataSetType=journal(需先注册后下载)

阅读全文,请扫描二维码

论文 5

Refining Linked Data with Games with a Purpose(用有目的的游戏优化关联数据)

引用本文:I. Celino, G. Re Calegari & A. Fiano. Refining linked data with games with a purpose. Data Intelligence 2(2020). https://doi.org/10.1162/dint_a_00056。

摘要:随着关联数据和知识图谱的兴起,我们迫切需要更多的数据集以及更准确的数据来补充缺失的知识,发现和改正已有数据的错误。研究人员已经提出了一些解决方案,这些方案大多依赖机器学习和自然语言处理技术,通常也需要一种“黄金标准”,即“参考标准数据”来训练自动分类模型。“黄金标准”是人工构建的,或通过邀请领域专家参与构建,或采用众包和人力计算的解决方案构建。本文提出了一种开源软件框架,通过激励措施启发用户参加网上游戏,我们称之为“有目的的游戏”(Games with a Purpose, GWAP),来优化关联数据,也就是说通过众包的方式得到部分“参考标准数据”。本框架支持的关联数据的功能包括创建数据链接,给链接评分和校验链接。通过介绍本框架的支持功能和定义每个众包任务是如何帮助实现这些功能,我们展示了本文提出的框架方法所具有的现实意义。

文中介绍了利用“有目的的游戏”(GWAP)玩家贡献的数据推断“参考标准数据”的方法。通过对比GWAP和传统众包方法来说明本文方法的必要性,本文解释并描述了方法过程,通过与目前最先进的方法对比显示本文方法的先进性。本文提出的方法有多种用途:文中描述了基于本方法的不同应用来展示它的可重用性和可扩展的潜力。文中也提供了本文方法的参考资料,包括整个教程,让新手在几个小时内可以学会使用本框架方法拓展新的应用案列。

论文全文地址为:https://www.mitpressjournals.org/doi/pdf/10.1162/dint_a_00056

阅读全文,请扫描二维码


OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

论文浅尝 | Data Intelligence - 多篇语义资源论文相关推荐

  1. 论文浅尝 | Data Intelligence第4期正式上线啦

    本文转载自公众号:数据智能英文刊 各位关注DI期刊的专家学者和业界同仁:Data Intelligence第4期正式上线啦!本期共出版2篇研究性论文,5篇数据论文,1篇实践类论文.点击每篇文章标题下方 ...

  2. 论文浅尝 | Data Intelligence 已出版的知识图谱主题论文

    本文转载自公众号:DI数据智能.   知识图谱被称为人工智能的基石,它的前身是语义网,由谷歌在2012年率先提出,用于改善自身的搜索业务.Data Intelligence执行主编.东南大学计算机科学 ...

  3. 论文浅尝 - ACL2022 | 基于多语言语义解耦表示的跨语言迁移方法实现多语言阅读理解...

    论文作者:吴林娟,天津大学,研究方向为自然语言理解 论文链接:http://arxiv.org/abs/2204.00996 代码地址:https://github.com/wulinjuan/SSD ...

  4. 论文浅尝 - AAAI2020 | 通过句子级语义匹配和答案位置推断改善问题生成

    论文笔记整理:王春培,天津大学硕士. 链接:https://arxiv.org/pdf/1912.00879.pdf 动机 本文主要聚焦问答系统(Q&A)的反问题---问题生成(Questio ...

  5. 论文浅尝 | 图神经网络综述:方法及应用

    论文链接:https://arxiv.org/pdf/1812.08434.pdf GNN相关论文列表链接:https://github.com/thunlp/GNNPapers 近日,清华刘知远老师 ...

  6. 论文浅尝 | 从 6 篇顶会论文看「知识图谱」领域最新研究进展 | 解读 代码

    本文内容源自往期「论文浅尝」,由 PaperWeekly 精选并重新排版整理,感谢 PaperWeekly. ISWC 2018 ■ 链接 | http://www.paperweekly.site/ ...

  7. 论文浅尝 | 利用多语言 wordnet 上随机游走实现双语 embeddings

    论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识图谱问答. 来源:Knowledge Based System 链接:https://www.sciencedirect.com/science/a ...

  8. 论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

    随着监督学习在机器学习领域取得的巨大发展,如何减少人工在样本方面的处理工作,以及如何使模型快速适应层出不穷的新样本,成为亟待解决的问题.零样本学习(Zero-Shot Learning, ZSL)的提 ...

  9. 论文浅尝 | 近期论文精选

    本文转载自公众号 PaperWeekly, 对我们近期的论文浅尝进行了精选整理并附上了相应的源码链接,感谢 PaperWeekly! TheWebConf 2018 ■ 链接 | https://ww ...

最新文章

  1. 南加大提出NeROIC:还有什么不能渲染的?重建效果太强悍了
  2. 源码里查看Android版本
  3. iOS万能跳转界面的方法
  4. 第16课:动手实战中文句法依存分析
  5. drawboard pdf拆分文件_PDF处理神器,几秒钟搞定格式转换+压缩+加水印+解密!
  6. easyui问题小结
  7. WEB页面的生命周期,DOMContentLoaded,load,beforeunload,unload
  8. strip and linux lib compile
  9. Android官方开发文档Training系列课程中文版:调用相机之控制相机
  10. Spring事务管理接口
  11. 《高性能MySQL》读书笔记-第6章-性能查询优化
  12. 【Elasticsearch】bulk default_local reports failures when export documents
  13. java activity_Activity详解
  14. 51CTO独家:2008下半年软考所有科目试题已到
  15. 04 grep正则表达式与shellscipt脚本编程
  16. 深耕MySQL - 50道SQL练习题
  17. Guava base -- Joiner
  18. 对待工作的态度和意识
  19. 解决scrapy下载小说乱序
  20. 域远程管理计算机,远程控制局域网电脑 图解局域网怎么远程控制

热门文章

  1. 进程是如何使用内存的?
  2. Linux块设备IO子系统
  3. 奥鹏C语言专科在线作业答案,电子科大12春《C语言(专科)》在线作业三
  4. android人脸识别demo_零门槛解决Windows人脸识别应用开发难题
  5. C小项目 —— 学生信息管理系统
  6. 基于 DirectShow 的播放器
  7. python子进程修改父进程内变量_如何将父变量传递给python中的子进程?
  8. C++与Java中的static成员总结
  9. 一、PHP框架Laravel——入门和安装
  10. LeetCode 320. 列举单词的全部缩写(回溯/位运算)