本文简单介绍使用 Freebase 需要了解的基本术语和概念。 注意,Freebase 是已经被废弃的知识库,但是目前的科研工作大部分基于此知识库。

一、图 Graph

Freebase 的数据被存储在一个叫做图的数据结构中。一个图由边连接的结点组成。在 Freebase 中,结点使用 /type/object 定义,边使用 /type/link 定义。通过以图的形式存储数据,Freebase 可以快速遍历主题(topic)之间的任意连接,并轻松添加新的模式(schema),而无需改变数据的结构。

二、主题 Topic

Freebase 有超过 3900 万个关于真实世界的实体,例如人、地点和事物。由于 Freebase 的数据由图表示,这些主题对应图中的结点。然而,不是每个结点都是主题。CVT 就是这样一个例子,它不是主题但是结点。

关于 Freebase 主题类型的例子:

  • 物理实体,例如 Bob Dylan, the Louvre Museum, the Saturn planet
  • 艺术/媒体产品,例如 The Dark Knight (film), Hotel California (song)
  • 分类,例如 noble gas, Chordate
  • 抽象概念,例如 love
  • 思想流派或艺术运动,例如 Impressionism

有些主题之所以显著,是因为它们包含了很多数据(如,沃尔玛);有些主题之所以显著,是因为它们与很多其他主题有联系,可能是不同领域的信息。例如,爱情、贫穷、侠义等抽象话题并没有太多属性与之相关,但它们经常作为图书题材、诗歌题材、电影题材等出现,使得它们更值得注意。

三、类型和属性 Type and Attribute

任何一个主题都可以从很多不同的角度来看待,例如:

  • 鲍勃·迪伦是一个作家、歌手、表演者、书籍作者和电影演员。
  • 达芬奇是画家、雕塑家、解剖学家、建筑师、工程师。
  • 爱情是书籍题材、电影题材、游戏题材、诗歌题材。
  • 任何一个城市都是一个地点,有可能是一个旅游胜地,也是公务员的雇主。

为了把握许多主题的这种多面性,Freebase 中引入了类型的概念。Freebase 的主题可以分配有任意数量的类型,例如,鲍勃·迪伦被分配为歌曲作者类型、音乐作曲家类型、音乐艺术家类型、书籍作者类型。每种类型都带有一组与该类型相关的不同属性,例如:

  • 音乐艺术家类型包含一个属性,列出了鲍勃-迪伦制作的所有专辑,以及他所掌握的所有乐器。
  • 书籍作者类型包含一个属性,列出鲍勃-迪伦编写过的所有书籍,以及他的写作流派的思想或运动。
  • 公司类型包含许多属性,用于列出公司的创始人、董事会成员、母公司、部门、员工、产品、每年的收入和利润记录等。

因此,一个类型可以被认为是一个概念性的容器,它包含了描述某方面信息时最常用的属性。 你可以把一个类型看成类似于一个关系表,每个 "类型" 表都有一个外键进入一个 "身份" 表,该表唯一地定义了每个主题。

四、域和 ID domain and ID

就像属性被归为类型一样,类型本身也被归为域。把域想象成你最喜欢的报纸上的栏目。 商业,生活方式,艺术和娱乐,政治,经济等。每一个域都有一个 ID(标识符),例如:

  • /business 是商业领域的 ID
  • /music 音乐领域
  • /film 电影领域
  • /medicine 医药领域

域的标识符如同文件路径,或 Web 地址的路径。

每个类型也被分配一个标识符,该标识符基于它所属的域。例如,

  • /business/company,Company 类型属于 Business 域。
  • /music/album
  • /film/actor
  • /medicine/disease

正如一个类型从它的域继承它的 ID 开头一样,一个属性也从它所属的类型继承它的 ID 开头。例如,公司类型的行业属性(用于指定公司所在的行业)被赋予了 ID /business/company/industry。下面是其他一些例子:

  • /automotive/engine/horsepower
  • /astronomy/star/planet_s
  • /language/human_language/writing_system

因此,即使类型在 Freebase 中没有被安排成层次结构;域、类型和属性在概念上被赋予 ID,以类似文件目录的层次结构来安排。

五、复合值类型 Compound Value Type,CVT

复合值类型是 Freebase 中的一种类型,用于表示每个条目由多个字段组成的数据。

考虑这样一个例子,一个城市的人口会随着时间变化,即每次查询 Freebase 中的人口数据时,隐含地是在询问某个日期的人口。这涉及到两个 value,一个是人口数量,一个是日期。在这种情况下,CVT 就非常有效。如果没有 CVT,对人口数据进行建模,需要添加一个主题,将其命名为类似于“1997 年的温哥华人口”的名称,然后在此提交数据。

CVT 可以被认为是一个不需要展示名称的主题,和普通主题一样有一个 GUID,可以被独立引用。然而,Freebase 客户端对 CVT 的处理方式与主题有很大不同。多数情况下,CVT 的每个属性都是非歧义属性。

六、主题的机器标识符 Machine Identity,MID

虽然一个主题可能或可能不会用命名空间/密钥 ID 来识别,但它总是可以用 MID,即机器标识符来识别,它由 /m 和一个基数为 32 的唯一标识符组成。MID 在创建时被分配给主题,并在主题的整个生命周期中被管理。

当主题被合并或拆分时,MID 可以发挥关键作用,允许外部应用跟踪逻辑主题,即使物理的 Freebase 标识(主题的 GUID)可能改变。

机器生成的 MID 与其他人类可读的 Freebase ID 的不同之处在于,它们是:

  • 保证是存在的
  • 由机器产生
  • 旨在支持离线比较
  • 不是为了向人类传达含义设计的
  • 长度较短,可能是固定长度
  • 外部系统和组件之间快速交换密钥的理想选择
  • MID 是被推荐用于处理 Freebase 主题的标识符

七、命名空间、键和主题 ID Namespace、Key and Topic ID

文件目录式的域、类型和属性 ID 的层次结构,是一个更通用概念的应用:命名空间和键。

命名空间如同文件目录,键如同文件名。

就像一个特定文件目录中的所有文件名必须是唯一的,一个特定命名空间中的所有键也必须是唯一的。

除了与域和类型对应的命名空间之外,还有其他几种命名空间,最常见的是 /en 命名空间。在该空间里,多数著名的主题都被赋予唯一的键,形成人类可读的英文 ID,例如 /en/bob_dylan,该 ID 允许在 Web 客户端中使用简单的 URL 来访问它的主题。

八、关于属性的更多

这个基本概念涉及 Freebase 的属性与其在关系型数据库技术中的类比的一个主要区别,即关系表列。

在关系型数据库中,每个表列只能容纳一个值。例如 book 表中的每一行,author 列只能持有一个作者的外键。如果一本书恰好有几个作者,这种简单的关系模式设计就不能用了,我们必须使用一个新的表来模拟作者关系,即书和作者之间的多对多关系。

Freebase 认为多值属性对现实生活中的数据进行建模非常理想,在创建 /book/written_work/author 属性时,就假定每本书允许有多个作者。多值属性和单值属性可以通过完全相同的方式查询,不需要考虑使用第三张表连接,来模拟多对多关系。

小结

  • 类型是一个概念性的容器,它包含了描述一个主题的某个方面通常需要的相关属性。
  • 一个主题可以被分配一个或多个类型(默认类型是/common/topic)
  • 正如属性被归为类型,类型被归为
  • 域、类型和属性在命名空间/键的层次结构中被赋予 ID
  • 常见的知名主题在 /en 命名空间中被赋予 ID,这些 ID 是人类可读的英文字符串。
  • 主题在 Freebase 中通过 GUIDs 唯一标识。
  • 属性默认是多值的,多值属性和单值属性可以用同样的方式查询。

知识图谱 Freebase 的基本概念相关推荐

  1. 论文浅尝 \ 联合知识图谱实例和本体概念的通用表示学习

    论文笔记整理:周虹廷,浙江大学研究生.研究方向:知识图谱,图表示学习等. 论文链接: http://web.cs.ucla.edu/~yzsun/papers/2019_KDD_JOIE.pdf 本文 ...

  2. 知识图谱中有哪些核心概念?

    前言 本文隶属于专栏<人工智能>,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢! 本专栏目录结构和参考文献请见人工智能 知识图谱 "知识图谱" ...

  3. 论文浅尝 | 区分概念和实例的知识图谱嵌入方法

    链接:https://arxiv.org/pdf/1811.04588.pdf 知识图谱的表示学习最近几年被广泛研究,表示学习的结果对知识图谱补全和信息抽取都有很大帮助.本文提出了一种新的区分概念和实 ...

  4. 关于知识图谱上下级概念建设的一点想法

      对知识图谱有所了解的人,都知道知识图谱是对知识的整理,以点和边的形式呈现,属于人工智能中的"符号主义"流派.虽然知识图谱可以清晰地告诉我们各个知识点之间的关联和区别,但我们还是 ...

  5. 知识图谱的前世今生:为什么我们需要知识图谱?

    来源:SimmerChan(知乎) 编辑:Debra 摘要:本文主要分为三个部分.第一个部分介绍我们为什么需要知识图谱,第二个部分介绍知识图谱的相关概念及其形式化表示.最后,作一个简单的总结,并介绍该 ...

  6. 论文浅尝 | Data Intelligence 已出版的知识图谱主题论文

    本文转载自公众号:DI数据智能.   知识图谱被称为人工智能的基石,它的前身是语义网,由谷歌在2012年率先提出,用于改善自身的搜索业务.Data Intelligence执行主编.东南大学计算机科学 ...

  7. 连载 | 知识图谱发展报告 2018 -- 前言

    OpenKG 将开始连载<知识图谱发展报告(2018)>,希望该连载能够让更多的人深入了解知识图谱.欢迎各位读者留言讨论. 1. 知识图谱的研究目标与意义 知识图谱(Knowledge G ...

  8. 面向知识图谱的信息抽取

    面向知识图谱的信息抽取 人工智能技术与咨询 点击蓝字 · 关注我们 来源:< 数据挖掘,> ,作者赵海霞等 关键词: 知识图谱:信息抽取:实体抽取:关系抽取:开放域 摘要: 摘要: 随着大 ...

  9. 从知识工程到知识图谱全面回顾

    文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 来源|集智俱乐部(ID:swarma_org) 文本挖掘和图形数据库 | ©ontotext 知识工程 ...

  10. 知识图谱基础入门(一)

    知识图谱旨在采用图结构来建模和记录世界万物之间的关联关系和只是,以便有效实现更加精准的对象级搜索.其相关技术可以应用在搜索引擎.语言理解.推荐计算.大数据决策分析等众多领域.如今,知识图谱已经是实现认 ...

最新文章

  1. 没有最好,只有A/B测试!
  2. excel函数FREQUENCY、COUNTIFS、COUNTIF
  3. 物联网架构成长之路(3)-EMQ消息服务器了解
  4. Java每天5道面试题,跟我走,offer有!(八)
  5. 自学前端的高效学习路线.avi
  6. 计算机工程与应用单像素成像,2011计算机工程与应用基于压缩感知理论的单像素成像系统研究_白凌云.pdf...
  7. PHP学习记录_基本语法
  8. 基于JAVA+SpringMVC+Mybatis+MYSQL的办公用品销售平台进销存系统
  9. python实践项目(二)
  10. Manually Summarizing EIGRP Routes
  11. MySQL innoDB数据插入性能优化
  12. CocoaPods 简易教程 Alamofire请求数据 Swift
  13. visio 如何画光学器件
  14. 隐藏在浏览器背后的“黑手”
  15. Magic Data上榜互联网周刊2022数字经济100强
  16. 蓝桥杯 Java 算法提高 盾神与积木游戏
  17. python 正态分布图_用python制作正态分布图
  18. 深度学习入门(一)快速建立自己的图片数据集
  19. 【Multisim仿真】有源低通滤波电路仿真
  20. 使用jquery.validate.js,当onfocusout: true,同时focus验证失败元素时会导致$(#form).valid()总是返回true?...

热门文章

  1. python热力图_一、python可视化——热力图
  2. 【神操作】网络分线器短路导致公司网络瘫痪
  3. mysql数据库如何查看表空间_MYSQL:查看的数据库表空间
  4. Python转UTC世界标准时间(包含T和Z) 成为北京时间
  5. 六西格玛质量管理慕课答案
  6. 2022年作为一个中年程序员写给35岁的自己
  7. python处理csv文件计算均值_读取CSV文件,计算平均值并打印所述平均值
  8. 有线路由器接无线路由器设置方法
  9. 全国短信息中心号码一览
  10. 服务器篇 使用Windows Server 2012R2搭建DHCP服务器-01