业务理解、图谱设计
知识抽取、知识表示、知识存储
知识众包、知识链接、知识融合
问答、推荐等等

业务理解:
有哪些可获取的业务数据?
如果需要获取数据以及人工标注,需要多大成本?
是否需要专家介入?
业务数据的特性是什么样的?
业务数据是否用一般数据库表示即可?
通过这些关系表示,能否给场景带来实际益处?

在熟悉业务的场景下,构建边界清晰、产出可用的知识图谱。

图谱设计:
现实场景中的哪些事物可以抽象为实体?
各类实体分别具有哪些属性?
实体间存在什么关系?关系有什么属性?

构建知识图谱的基础
限定了数据范围
约束了数据的操作范围
不同的图谱设计、不同的业务逻辑、不同的下游应用

几个基本设计规则

基于业务设计图谱
专家法:自上而下,总体规划;领域专家(技术+业务)
归纳法:单点切入,自下而上(针对一个单点的业务场景纵向打破,然后再基于这一套横向扩展):技术专家
混合法:一味用专家发,细节不足,一味用归纳法,高度不够,可以综合两者,比如大的方向上用专家法,小的场景下用归纳法。

参照法:标杆对照,设配调整;行业标准

几点经验:
业务+技术
不断迭代修整
小规模实践
可视化图谱全貌
验证对应用工程的支持

知识抽取

结构化数据、非结构化数据、半结构化数据
预处理、分词、词性标注、句法分析
命名实体识别、实体链接
关系抽取、事件抽取
基本的自然语言处理、机器学习、深度学习等

知识表示 SPO三元组,三元关系(subject ----Predicate ---Object)主谓宾

概念理解
资源(Resource):所有以RDF表示法来描述的东西都叫做资源,它可能是一个网站,可能是一个网页,可能只是网页中的某个部分,甚至是
不存在于网络的东西,如纸本文献、器物、人等,都以统一资源标识(URI, Uniform Resource Indentifiers)来命名。
属性(Properties):用来描述资源的特定特征或关系
陈述(Statements):一个RDF陈述,其中资源是主词(subject),属性是述词(Predicate),属性值则是受词(Object),这是一种描述的语法。
RDF图中一共有三种类型, International Resource Identifiers(IRIs), bland nodes 和Literals.下面是SPO每个部分的类型约束:
Subject可以是IRI或者blank node
Predicate是IRI
Object三种类型都可以

如何存储和传输RDF数据?

目前,RDF序列化的方式主要有:RDF/XML , N-Triples, Turtle, RDFa, JSON-LD等几种。

这种简单的表示方式存在什么缺陷?
有些知识和时空相关,也具有不确定性

例如: 奥巴马,就职,美国总统
番茄,有助于,补铁

RDF的表达能力有限,无法区分类和对象,也无法定义和描述类的关系/属性

知识存储:

关系数据库
三元组
图数据库

并非所有的实体都要放入到三元组或者图数据库中!!! 
没有太多关系延伸计算、属性多、结构固定,放到一般关系数据库中即可。

可以把一些信息比如“年龄”、“家乡”放到传统的关系型数据库中,因为:
这些数据对于分析关系来说没有太大作用
访问频率低,放在知识图谱上反而影响效率

知识链接:
构建好的知识图谱,从文本中引入更多知识的时候。
Mention variations:同一个实体有不同的mention,
如何将不同称呼的关于“唐僧”的文本知识扩充至KG?
唐僧、唐三藏、金蝉子、玄奘、江流儿、长老、唐玄奘、旃(zhan)檀功德佛
  
Entity Ambiguity: 同一个mention对应不同的实体

如何避免将机器学习的乔丹与飞人乔丹混淆?

知识融合:
对于已构建好的知识图谱,如何如何知识?
豆瓣和百度百科中同一个人的介绍内容如何融合

扩展知识:知识图谱|知识存储
https://zhuanlan.zhihu.com/p/63378196

知识存储

本章内容介绍知识图谱在存储数据过程中的知识存储。

一般情况,对知识存储没有统一的标准,目前业内存储知识的方式有三种,第一种为三元组形式的RDF存储;第二种为传统关系型数据库存储;第三种为图数据库存储;而目前比较常用的为图数据存储或者关系型数据库+图数据库存储的方式。

RDF

RDF即资源描述框架,本质上是一个数据模型;它提供了一个统一的标准,用于描述资源/实体,形式上是以(实体,关系,实体)三元组的形式进行数据的存储。

RDF存储的优点是:

  1. RDF用图描述更加直观。
  2. 图模型符合RDF模型的语义层次,可以最大限度的保持RDF数据的语义信息。
  3. 图能够直接映射RDF模型,避免了为适应存储结构对RDF数据进行转换。
  4. 以图结构存储RDF数据避免了重构,以其他形式存储时,查询RDF数据的语义信息需要重构RDF图。
  5. 可以借鉴成熟的图算法、图数据库来设计RDF数据的存储方案与查询算法。

同样RDF的缺点也很明显:

  1. 设计上不够灵活,当加入新的属性或数据时,需要重构网络。
  2. 存储空间大。
  3. 由于没有相应的图查询引擎,所以查询算法时间复杂度高。

关系型数据库

传统的关系型数据库存储图数据可以很好的解决单条数据查询的问题,因为传统的数据库在存储效率和查询效率上都有很大的优势,且关系型数据库是目前最成熟也应用最广的数据库。

关系型数据库的缺点:

  1. 在深度关联查询时,效率很低。
  2. 在关系的实时查询时不能很好的支持。

知识图谱的相关技术-概览(笔记)相关推荐

  1. 知识图谱入门 (一) 知识图谱与语义技术概览

    欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里哦~ 知识图谱与语义技术概览.主要介绍知识表示.知识抽取.知识存储.知识融合.知识推理.知识众包.语义搜索 ...

  2. 知识图谱综述及技术地图概览(智能问答系统)

    知识图谱(Knowledge Graph)的概念由谷歌于2012年正式提出,旨在实现更智能的搜索引擎,并且于 2013 年以后开始在学术界和业界普及,并在智能问答.情报分析.反欺诈等应用中发挥重要作用 ...

  3. 知识图谱·概念与技术--第1章学习笔记--知识图谱概述--知识图谱的概念,与传统语义网络的区别

    知识图谱·概念与技术--第1章学习笔记--知识图谱概述--知识图谱的概念,与传统语义网络的区别 知识图谱的概念,与传统语义网络的区别 狭义概念 作为语义网络的内涵 与传统语义网络的区别 优点 缺点 与 ...

  4. 【知识图谱】本周文献阅读笔记(4)——周三 2023.1.11:英文)基于动态知识图谱的虚假评论检测 + 基于知识图谱的推荐系统研究综述 + 基于知识图谱的推荐算法研究综述+新一代知识图谱关键技术

    声明:仅学习使用~ 对于各文献,目前仅是泛读形式,摘出我认为重要的点,并非按照原目录进行简单罗列! 另:鉴于阅读paper数目稍多,对paper内提到的多数模型暂未细致思考分析.目的是总结整理关于KG ...

  5. 《知识图谱》赵军 学习笔记

    知识图谱读书笔记 文章目录 知识图谱读书笔记 一. 概述 1.1 什么是知识图谱 1.2 知识图谱发展历程 1.3 知识图谱类型 1.4 知识图谱生命周期 知识体系构建 知识获取 知识融合 知识存储 ...

  6. 你需要学好知识图谱——用AI技术连接世界

    立即参团 原价 ¥899.00 50人以上  ¥499.00 100人以上  ¥399.00 点击文末阅读原文,立即参团 <知识图谱>第一期  课程简介: 本次的知识图谱课程主要包括三大部 ...

  7. 知识图谱的关键技术及其智能应用(附PPT)

    来源:专知 本文约1000字,建议阅读5分钟. 本文为你介绍北京大学赵东岩老师在<知识图谱的关键技术及其智能应用>讲座上的主要内容. [ 导读 ]随着自然语言处理等相关技术的发展,知识图谱 ...

  8. 知识图谱 ppt_PPT|知识图谱的关键技术及其智能应用

    [导读]随着自然语言处理等相关技术的发展,知识图谱已经成为工业界开展下一代人工智能应用的重要基础. 几周前,北京大学的赵东岩老师,在计算所做了名为<知识图谱的关键技术及其智能应用>的讲座, ...

  9. 人工智能学习--知识图谱的关键技术及其智能应用

    本文为你介绍北京大学赵东岩老师在<知识图谱的关键技术及其智能应用>讲座上的主要内容. [ 导读 ] 随着自然语言处理等相关技术的发展,知识图谱已经成为工业界开展下一代人工智能应用的重要基础 ...

  10. 虚拟专题:知识图谱 | 医学知识图谱构建关键技术及研究进展

    来源:<大数据> 医学知识图谱构建关键技术及研究进展 谭玲1, 鄂海红1, 匡泽民2, 宋美娜1, 刘毓1, 陈正宇1, 谢晓璇1, 李峻迪1, 范家伟1, 王晴川1, 康霄阳1 1 北京 ...

最新文章

  1. linux卸载mpfr,Red Hat Linux在安装gcc时遇到的问题汇总
  2. SurfaceView、GLSurfaceView、SurfaceTexture、TextureView简单对比
  3. Spring中使用RedisTemplate操作Redis(spring-data-redis)
  4. 计划边际码(Scheduling Margin Key)
  5. Linux网络编程服务器模型选择之循环服务器
  6. Git(11)-cherry-pick、reset、rebase
  7. Android开发笔记(一百五十五)利用GL10描绘点、线、面
  8. 如何访问环境变量值?
  9. [java变量] - 字符串数组转long型数组
  10. Jenkins构建触发器(定时构建项目)
  11. 设计模式之建造者(builder)模式
  12. 开源打印监控 linux,挺带劲!这款免费开源的监控系统真强大~
  13. tgp dnf服务器文件在哪,DNFTGP补丁使用说明及问题解决方案
  14. Sketch一站式设计开发工具 Dapollo插件 for mac v2.0.9破解版
  15. 玩乐购与京东天猫深度合作 打造云购全网最低价
  16. JZ38* 字符串的排列
  17. 分享45个Android实例源码
  18. 折叠屏:手机厂商的「续命良药」
  19. uni-app 本地图片引入问题
  20. lucene 分词源码分析

热门文章

  1. 网络爬虫Python试验
  2. 洛谷刷题笔记 鸡尾酒疗法
  3. Python常见方法(5)-dictionary的可更改性和创建、增删元素、拼接和由list生成dictionary详解
  4. 四川大学计算机与生命科学专业,四川大学生命科学学院2014年研招专业目录
  5. int和Integer有什么区别
  6. 全球与中国溴酸钠市场深度研究分析报告
  7. 盘点一下使用高德api踩得坑
  8. linux4 系统下载,syslinux下载|
  9. python中的index函数
  10. android 百度地图api切换城市,【百度地图API】关于如何进行城市切换的三种方式...