之前大部分知识库问答工作的知识库使用的是Freebase,但是Freebase已经停止更新,大部分dump迁移到Wikidata知识库上。

#Items
为了支持维基百科上所有可用的知识,我们首先需要一种存储这些知识表示形式的方法。这些知识的表示形式称为items

#Item Pages
每个条目都有自己的页面(收集关于它的所有数据)和惟一标识符。这个标识符看起来总是类似于Qxx。虽然这个标识符对于机器和用许多不同的语言表示知识很有用,但是它对人类不是很友好。

#LABELS

1.标签类似于描述项目内容的页面标题。它应该尽可能的短(例如,Earth,而不是Planet Earth)
2.标签不必是惟一的,因为它们可以通过描述消除歧义

##Descriptions
如前所述,描述用于通过提供关于项目的更多细节来消除标签的歧义。
例如,“2007自然纪录片”和“四大经典元素之一”都是对地球的描述——它们都不是我们生活的星球!

##Aliases
在Wikidata上,项目的另一种名称(如人的昵称或动物的科学名称)称为别名。

在《Wikidata: A Free Collaborative Knowledge Base》论文中,指出了Simple Data和Not-So-Simple Data,
Simple Data:为了存储文本标签和语言链接之外的结构化数据,Wikidata使用了一个简单的数据模型。数据基本上是通过使用属性值对来描述的。例如,罗马这个item可能有一个“population”的property,值为2,777,979。property本身就是对象,它具有带有标签、别名和描述的Wikidata页面。然而,与item相反,这些页面没有链接到Wikipedia文章
另一方面,property页总是指定一个数据类型,该数据类型定义property可以具有哪种类型的值。“population”是一个数字,邮政编码是一个字符串。
Not-So-Simple Data:属性值对在许多情况下过于简单。例如,维基百科上说罗马的人口根据Istat公布的估计,截至2010年,这一数字为2,761,477。即使不考虑源信息,这些信息也很难用属性值对表示,因此,我们得到一个模型,其中分配给项的属性值对可以有附加的从属属性值对,我们称之为qualifiers。qualifiers可用于声明上下文信息,也可以用来编码三元关系。比如,梅丽尔·斯特里普(Meryl Streep)演过《铁娘子》中的Margaret Thatcher这个角色,你可以在电影这个ITEM中添加一个值为梅丽尔·斯特里普的cast member的property,和一个额外的qualifiersr, ‘role=Margaret Thatcher’.

Wikidata知识库相关推荐

  1. 论文浅尝 - ICLR2020 | Pretrained Encyclopedia: 弱监督知识预训练语言模型

    论文笔记整理:陈想,浙江大学博士,研究方向为自然语言处理,知识图谱. Wenhan Xiong, Jingfei Du, William Yang Wang, Veselin Stoyanov.Pre ...

  2. 论文浅尝 | XQA:一个跨语言开放域问答数据集

    论文笔记整理:刘晓臻,东南大学计算机科学与工程学院本科生. Citation: Liu, J., Lin, Y., Liu, Z., & Sun, M. (2019,July). XQA: A ...

  3. 图基准数据集(OGB)

    作者论文:https://arxiv.org/abs/2005.00687 作者代码:https://github.com/snap-stanford/ogb OGB官网:https://ogb.st ...

  4. PGL图学习之图神经网络ERNIESage、UniMP进阶模型[系列八]

    PGL图学习之图神经网络ERNIESage.UniMP进阶模型[系列八] 原项目链接:fork一下即可:https://aistudio.baidu.com/aistudio/projectdetai ...

  5. 论文浅尝 - ESWC2020 | YAGO 4: A Reason-able Knowledge Base

    论文笔记整理:叶群,浙江大学计算机学院,知识图谱.NLP方向. 会议:ESWC 2020 链接:https://suchanek.name/work/publications/eswc-2020-ya ...

  6. CHOLAN:一种模块化实体链接方法

    CHOLAN: A Modular Approach for Neural Entity Linking on Wikipedia and Wikidata 论文链接:https://arxiv.or ...

  7. Document-Level Relation Extraction with Adaptive Focal Loss and Knowledge Distillation

    作者: Qingyu Tan∗1,2 Ruidan He†1 Lidong Bing1 Hwee Tou Ng2 单位:1DAMO Academy, Alibaba Group:2Department ...

  8. Cognitive Inference:认知推理下的常识知识库资源、常识推理测试评估与中文实践项目索引...

    作者 | 刘焕勇 责编 | 李雪敬 出品 | CSDN博客 CognitiveInference Cognitive Inference,认知推理.常识知识库.常识推理与常识推理评估的系统项目,以现有 ...

  9. 认知推理下的常识知识库资源、常识测试评估与中文实践项目索引

    作者 | 刘焕勇 责编 | 李雪敬 出品 | CSDN博客 Cognitive Inference Cognitive Inference,认知推理.常识知识库.常识推理与常识推理评估的系统项目,以现 ...

最新文章

  1. Windows-Server下加强系统安全性系列之方案【九】
  2. Keil进入仿真,窗口不显示程序运行箭头
  3. C语言 · c++_ch02_01(打印元音字母的ASCII码)
  4. win7构建成功helloworld驱动、WDF驱动中KMDF与UMDF区别
  5. cursor 过滤 android,Android cursor query方法详解
  6. NLP复习资料(3)-六~七章:马尔科夫模型与条件随机场、词法分析与词性标注
  7. 下面的 3 条指令执行后, cpu 几次修改 IP? 都是在什么时候? 最后 IP 中的值是多少?
  8. 多层LSTM的坑:如何定义多层LSTM?
  9. informix linux 下载,linux安装informix
  10. 小黑计算机一级题库,小黑课堂计算机一级题库
  11. GitLab使用教程(详细)
  12. Mac SnailSVN不显示状态图标
  13. 条码打印软件标签纸页面设置的方法
  14. 通配符的匹配很全面, 但无法找到元素 ‘aop:aspectj-autoproxy‘ 的声明
  15. python余弦相似度_Python 简易聊天机器人(附带基础余弦相似度实现)
  16. c语言比matlab慢很多,为什么我的Python脚本与Matlab相比速度太慢?
  17. java中系统托盘的实现
  18. MindMapper 与MindManager之间的区别
  19. 数据分析师认证考试形式发布,如何掌握考试重难点?
  20. 网络安全版的“让梦想照进现实”—— CCF-绿盟科技 鲲鹏科研基金

热门文章

  1. Google创始人佩奇和布林简介
  2. 由浪潮大型机M13说开去
  3. 织梦dedecms会员中心投稿,管理员审核后,文档稿件动态浏览,禁止生成静态页
  4. Unity3D之游戏架构脚本该如何来写
  5. oracle人语句大全,oracle查询语句大全
  6. 游戏数值知识点———养成感(二)
  7. PS如何使用制作图片投影效果
  8. Tomcat启动异常 Failed to read candidate component class 解决办法
  9. 又下一城!爱贝获得哈萨克斯坦电子支付牌照
  10. QT开发学习-第一章-QT简介