http://chuansong.me/n/1840839551422

知识图谱示例

假设你想搜与“联想”有关的信息,下图是谷歌搜索结果。请观察左侧和右侧红框的搜索结果有什么不同呢?

左侧是传统谷歌搜索返回的一列依相关度排列的网站链接,你要自己打开一个个网页去阅读抽取与“联想”有关的知识。右侧则将一条条与“联想”有关的知识作为结果直接呈现给你,例如联想的简介、股价、CEO、创立信息等等(省去了自己一个个网页点击阅读的辛苦)。右侧其实是谷歌于2012年推出的Knowledge Panel (知识面板)。对比左侧,右侧直接返回知识的方式是更智能、更精准、更移动友好的未来搜索方式。

“构成这个世界的是实体,而非字符串(things, not strings)。”

过去几十年,搜索引擎的本质工作是将字符串匹配做的更精准,而不是去理解字符串的含义。现在,谷歌能够做到Knowledge panel,离不开知识图谱的支持。知识图谱提供了结构化的知识体系,使得搜索引擎可以在海量图谱上进行语义分析、知识推断、图谱遍历等一系列知识挖掘。

2 知识图谱概述 知识图谱是一种数据模型,将世界上的知识组织成为实体和实体之间的关系。
2.1 关系规则(Schema)

知识图谱首先要定义一个系统的关系规则。关系规则定义了不同类别(class)的实体(entity)之间可以存在的关系。

《儿歌三百首》......中有这么一首口口相传:“爸爸的爸爸叫什么?爸爸的爸爸叫爷爷”。这句歌词描述了两条关系规则(下图,字丑见谅):一个男性类别实体可以是另一男性类别实体的父亲;一个男性类别实体可以是另一男性类别实体的祖父。一条关系规则是一个三元组:<主, 谓, 宾>。

2.2 关系(Relationship)

依据定义的关系规则,知识图谱就可以实体化描述世界上千千万万的的父子关系和祖孙关系(下图描述了最牛80后一家的父子关系)。这规则也可用来描述你家的父子关系。类似的,可以定义夫妻关系、雇佣关系、位置关系、客户关系、投资关系、贸易关系等可以想到的所有知识。

一条关系是一条边(以两个实体为顶点,关系为边)。千千万万的边在一起就构成了知识图谱。

知识图谱(Knowledge graph)原名其实是知识库(Knowledge base)。谷歌将自己的知识库称为知识图谱。因为这名字比较酷炫便于炒作,就广泛通用了。知识图谱Schema有多种标准定义,例如 RDFS。这里不展开叙述。

3 知识图谱的优点

问题来了,为什么要用知识图谱?知识图谱作为更高级的结构化数据可以将图分析挖掘、自然语言处理、语义分析等智能技术聚合做以往做不到的事。下面简单列举两个优点。

3.1 知识推断补全能力

根据Schema,知识图谱可以自动推断出新的知识。假设下图左侧是原始的知识图谱,根据两层父子关系,图谱可以自动推断出缺失的祖孙关系,正所谓“爸爸的爸爸是爷爷”。

3.2 语义理解能力

比如字符串“位于香港的博物馆”,对于知识图谱而言这再也不是单纯的字符串,而是饱含语义的关系查询:要查询某一个东西(?),它是属于博物馆类别的,而且是位于香港的。

4 应用场景 4.1 医疗知识图谱

PatientsLikeMe.com 是一家专注医疗知识图谱的大数据公司,于2017年1月刚融得了1亿美元。它将病人、病症、医院、医生、药品等等医疗数据组织成知识图谱。在图谱上,医生可以搜索家族病史网络,查询相似病例及解决方案;病人可以搜索疾病相关的病症、药品、医生、相似病例等。

图片来源:https://www.patientslikeme.com/

4.2 金融反欺诈、反洗钱

金融业各种交易数据可以构成知识图谱,包括现金账户、股票账户、大宗商品账户、ETF账户、债券账户等之间的所有交易数据。在知识图谱上对潜在的洗钱模式进行模式匹配、子图挖掘,可以让欺诈洗钱账户们无所遁形。

图片来源:http://www.fintrac-canafe.gc.ca/publications/typologies/images/2009-05-01/fig4-eng.jpg

4.3 商业知识图谱(商业选址, 广告推荐)

数据库顶级会议SIGMOD’2016有一篇论文 “Top-k Relevant Semantic Place Retrieval on Spatial RDF Data” 提出了基于空间地理位置和语义查询返回相关知识图谱的技术。该技术可以应用在商业选址、旅游路线酒店推荐、广告推荐、医疗等领域。比如你要在某街道开一家菜馆,根据该论文技术,你可以在知识图谱上查询街道周边的餐馆类型、居民类型、交通配套等,为选址提供全方位支持。

其实,微信、滴滴、顺丰、Airbnb、美团等所有的线上线下的商业数据都是知识图谱。将这些图谱进行实体融合打通整合组成一个大的知识图谱。。。就厉害了。基本上任何商业应用都能做了。

4.4 公共安全监测

古人云,近朱者赤,近墨者黑。这条道理也可以应用在公安知识图谱上,进行安全事件分析、潜在高危地区、高危人员挖掘监测等。公安数据,如户籍、人口、通信、商业、财产信息、交通等可以组织成非常完备的知识图谱。

4.5 新闻知识图谱

新闻媒体行业进行新闻推荐、关系挖掘等。下图,我的天哪!特朗普竟然给扎克伯格提供过婚姻建议。知识图谱在成功吸引我的注意力后,便可以推荐相应的新闻给我阅读了。都是套路,心碎。

5 两大技术难点 5.1 实时响应数十亿级别的知识图谱查询

2016年底谷歌的知识图谱已经包含了700亿条关系,而这仅是浩瀚知识的九牛一毛。在如此规模上,敏捷的响应速度至关重要。如何将知识图谱大数据技术推动达到企业级应用也是我们联想大数据实验室攻克的一项难题。

5.2 自动化生成知识图谱

知识图谱是高度结构化的数据。如何从无数网页、文本、书籍等非结构化信息中完全自动化精准抽取知识图谱,目前来讲,还是业界未解之谜。学术界做的比较好的有DeepDive等,不过仍然距离业界应用有较高门槛和改进空间。

不看后悔 | 分分钟教你做知识图谱大数据专家相关推荐

  1. 基于Neo4j中医方剂药材知识图谱大数据可视化分析系统的设计与开发

    基于Neo4j中医方剂药材知识图谱大数据可视化分析系统的设计与开发 设计背景 这个系统的开发初衷是笔者希望通过这个系统来学习一下Neo4j的相关技术,包括与python.java的对接.可视化等方面, ...

  2. 学习笔记(03):大数据工程师新手必学实战:手把手教你做一份大数据行业分析报告-课程介绍...

    立即学习:https://edu.csdn.net/course/play/9712/206793?utm_source=blogtoedu 学习

  3. 笔记本android启动画面,android解锁界面开发分分钟教你做锁屏软件 -电脑资料

    想做个锁屏界面很久了,最近一周,历经千辛万苦,越过种种挫折,终于完美实现了这一要求,在此将锁屏思路分享出来, 注意:这不是什么一键锁屏,是类似"go锁屏"那样的锁屏界面. 准备:本 ...

  4. Atitit 知识图谱的数据来源

    Atitit 知识图谱的数据来源   2. 知识图谱的数据来源1 a) 百科类数据2 b) 结构化数据3 c) 半结构化数据挖掘AVP (垂直站点爬虫)3 d) 通过搜索日志(query record ...

  5. 大数据是什么?大数据可以做什么?大数据实际做了什么?大数据要怎么做?

    "大数据"一词时下的热门程度无需赘言,这一两年来互联网相关的任何活动.会议必不可少"大数据"板块. 对于任何一个大数据的从业者或初接触者,或许都会有个共同的感触 ...

  6. 一起自学吧”做大数据专家,不做第一,只做唯一。

    数据仓库工程师进阶之路零基础到精通(全套) https://www.17zixueba.com/thread-473-1-1.html (出处: 一起自学吧) 一起自学吧"做大数据专家,不做 ...

  7. 百度搜索“一起自学吧”做大数据专家,不做第一,只做唯一

    机器学习专家系列精品课程零基础到精通(全套) https://www.17zixueba.com/thread-471-1-1.html (出处: 一起自学吧) 百度搜索"一起自学吧&quo ...

  8. 前端各技术领域完整知识图谱大亮相

    网上学习资源参差不齐.分散无系统,给爱学习.努力想提高的你是不是造成很多困扰呢? 与其他学习平台不同,CSDN知识库不是随机地.一股脑地向您推算大量文章,而是首先梳理各技术领域知识图谱,再以此为基础, ...

  9. AI公司Diffbot推出世界上最大的知识图谱,数据量是谷歌的500倍

    Diffbot是一家小而美的初创公司,该公司通过计算机视觉.机器学习和人工智能来处理Web页面,目标是实现整个网页的"机器可读". 昨日,他们发布了据称是世界上有史以来最大的人类知 ...

最新文章

  1. Spring MVC Controller介绍
  2. Jenkins构建之常用的触发器和Git Hook自动构建
  3. css table嵌套内部table不受外部影响_HTML+CSS网页一揽子(4)
  4. php 去掉不可见字符串,php去掉指定字符串的办法
  5. 程序员是如何做到随时随地编程的?
  6. if 与 while
  7. risc-v 编译 linux,linux - 如何为RISC-V编译Linux Kernel 4.20 - 堆栈内存溢出
  8. CSDN写博客添加代码两种方法
  9. 计算机版音乐教学,EduOffice音乐教学备课软件
  10. 各大搜索引擎提交入口
  11. WPS简历模板的图标怎么修改_指导|让疫情之下的应届生,求职简历脱颖而出
  12. IT服务管理领域的最佳实践知识体系ITIL4
  13. dnf服务器炸团门票怎么找回,DNF:打团掉线被献祭点这里免费补门票,再也不怕被献祭没牌了...
  14. python 爬虫遇到br网页压缩
  15. 无法加载计算机管理,电脑中无法打开Internet选项中的管理加载项如何解决
  16. 小程序打开速度慢是服务器原因吗,网页打开速度慢的原因以及解决方法
  17. 有个程序媛上司是什么体验
  18. dependency一直报错,换各种jar包都不行
  19. Oracle表数据转换为XML格式数据
  20. c++ gets函数

热门文章

  1. 评“影视制作业看好网播剧,版权价格1年飙升10倍”
  2. 风控建模六:变量相关性分析及筛选方法
  3. mysql 删除一个约束条件_MySQL 字段增删改查 和 约束条件
  4. html 仿 设置多个闹钟,设置闹钟重复时间.html
  5. Java后端开发必备基础
  6. 15位院士出席 | 第六届中国(西安)国际3D打印大会会议日程
  7. PHP PHPExcel 下拉 让其只能在其下拉的分表隐藏并设置解锁密码
  8. 小鹏汽车质量 未来的小鹏汽车质量该走的路,一步也不能少!
  9. ElasticSearch实战系列五: ElasticSearch的聚合查询基础使用教程之度量(Metric)聚合
  10. Opencv3中Rect和rectangle函数