(这是为北京知识学习小组第一期 kgbj1 准备的为期4周的学习大纲)

2016年6月3日

鲍捷

这个学习小组的目的,不是按教科书的定义去学习“知识图谱”,更不是做研究。我们更多是要去解决问题,而不是研究方法。传统的“知识图谱”(Knowledge Graph),“链接数据”(Linked Data),“语义网”(Semantic Web),”知识提取”(Knowledge Extraction),等等技术,到底在实战中要解决的是什么问题?要解决这些问题是不是可以用相对简单的方法?能不能用廉价的方法尽可能快地解决有代表性的问题?这是这个学习小组的目的。

知识图谱是一种结构化数据的处理方法,它涉及知识的提取、表示、存储、检索等一系列技术。从渊源上讲,它是知识表示与推理、数据库、信息检索、自然语言处理等多种技术发展的融合。在短短的四周内,显然不可能涉猎所有上述领域。而且作为一个以自学为主的学习小组(而非集中强化的学习班),也不可能学习太深。所以学习小组更多只是提供一种思路,让大家觉得知识图谱并不神秘,不是大公司的专利,自己也可以做一点点小事,不必拘泥于特定的方法。

以应用为导向,尽可能降低工程的风险,就决定了我们非常关注成本,尽可能依赖成熟的技术。因此,在内容选择上,有人可能会觉得“这也配叫知识图谱”?但是过去十多年的实践中,我们已经看到太多的工程因为教条而失败。我们不应该盲目追求技术的先进性或者新颖性,而是应以业务为目标,用知识图谱的原则而非具体的教条去解决问题。

因此,在这四周里,我们是要通过一些具体的小问题的学习,来体会知识图谱的核心理念。我们会优先使用传统的成熟技术,并把它们和前沿(通常也是高风险、不成熟)技术比较,来比较这些理念不同的实践路径。同一个问题,同一个理念,可以根据实际情况有不同的实现。我们要掌握的,是这些理念,并在今后的实践中发现新的实现方法。

这四周的安排,就是依次接触知识图谱四个领域的一些核心理念。每周我们会安排线上的自学和一次线下的聚会。在线下聚会上,我们会解答大家的疑问,并邀请领域专家和大家分享该周话题上的工程实战经验。

第一周:知识提取

详细提纲: 第一期w1:知识提取

知识提取是要解决结构化数据生成的问题。但是广义上讲,知识提取是数据质量提升中的一环,各种提升数据质量的方法,都可以视为某种知识提取。学术上一般是用自然语言处理的方法,但在实践中通常是利用规则。

我们要熟悉的概念和工具有

× 正则表达式

× 中文分词和词性标注

× 命名实体识别

作业:综合分词工具和正则表达式提取邮件签名档

第二周:知识表示

详细提纲: 第一期w2:知识表示

知识表示是如何组织数据的结构,以方便推导出新的结构的方法。传统上属于逻辑的分支,但在实践中我们会用很简单、可读、可维持的数据结构。

× JSON和YAML

× RDF和OWL

× JSON-LD

作业:自己设计电子邮件的结构化表示

第三周:知识存储

详细提纲: 第一期w3:知识存储

知识存储解决如何管理大量的结构化数据。我们可以用不同的数据库工具。现代的关系数据库可能可以解决大多数需要知识图谱的场合。某些特殊场合,我们需要图数据库。

× 知识链接的方式:字符串、外键、URI

× PostgreSQL及其JSON扩展

× 图数据库 Neo4j和OrientDB

× RDF数据库Stardog

作业:选择一种数据库存储自己的电子邮件

第四周:知识检索

详细提纲: 第一期w4:知识检索

知识检索提供对用户友好的交互。知识检索从简单到复杂可分为六级:关键词、词联想、词本体、短程关系、长程关系、自由问答。我们会实践前两个层次的技术,并了解后面四个层次。

× Gensim实现主题模型

× ElasticSearch

× SearchKit构造分面浏览器

× IBM Watson的架构 作业:浏览和检索自己的电子邮件

(具体的内容链接和作业内容会在下周细化)

第一期学习小组的班长是杜会芳(中国农业大学, duhuifang@memect.co )。有问题可以联系我( baojie@memect.co ) 和班长。

谢谢大家的参与。期待和你度过富有挑战的四周。

https://github.com/memect/kg-beijing/wiki/%E7%9F%A5%E8%AF%86%E5%9B%BE%E8%B0%B1%E5%AD%A6%E4%B9%A0%E5%B0%8F%E7%BB%84%E5%AD%A6%E4%B9%A0%E5%A4%A7%E7%BA%B2

知识图谱学习小组学习大纲相关推荐

  1. 知识图谱、深度学习、AutoML,推荐系统与新技术结合将碰撞出怎样的火花?

    近日,来自意大利米兰理工大学 Maurizio 团队发表的一篇极具批判性的文章火了.这篇文章剑指推荐系统领域的其他数十篇论文,并通过多项试验证明这些论文中基于深度学习的推荐算法大部分都存在不同程度的数 ...

  2. 知识图谱与深度学习(新时代·技术新未来)

    作者:刘知远,韩旭,孙茂松 出版社:清华大学出版社 品牌:清华大学出版社 出版时间:2020-05-01 知识图谱与深度学习(新时代·技术新未来)

  3. 论文浅尝 | ​ADRL:一个基于注意力机制的知识图谱深度强化学习框架

    论文笔记整理:谭亦鸣,东南大学博士. 来源:Knowledge-Based Systems 197 (2020) 105910 链接:https://www.sciencedirect.com/sci ...

  4. 斯坦福大学CS520知识图谱系列课程学习笔记:第三讲高级的知识图谱是什么样的

    这一讲的主题是:一些高级的知识图谱是什么样的.三位讲者分别从他们各自带领的团队构建出来的高质量的知识图谱实例出发,从中我们可以认识到一些大佬们构建的优秀的知识图谱产品有哪些特点和优势,从中对我们自己构 ...

  5. 斯坦福大学CS520知识图谱系列课程学习笔记:第二讲如何构建知识图谱

    上一讲我们学习了知识图谱的一些基本概念: 斯坦福大学CS520知识图谱系列课程学习笔记:第一讲什么是知识图谱 本节课程关于如何构建知识图谱,因为知识图谱的构建是整个知识图谱领域的一个非常核心且基础的工 ...

  6. 知识图谱从入门到应用——知识图谱推理:基于表示学习的知识图谱推理-[嵌入学习]

    分类目录:<知识图谱从入门到应用>总目录 前面多次提到过,基于符号逻辑的演绎推理的主要缺点是对知识表示的逻辑结构要求比较高,不论是本体推理还是规则推理,都要求人工定义公理和规则才能完成推理 ...

  7. 解析KDTCN:知识图谱和深度学习模型联合实现股票预测

    背景概述 今天看了一篇论文我觉得挺有意思,一方面是讲的股票预测相关,另一方面是把深度学习和知识图谱相结合解决一个问题.通常知识图谱和深度学习很少有交集,一般是独立发展的两个人工智能领域解决问题的手段, ...

  8. oracle 方泽宇_斯坦福大学CS520知识图谱系列课程学习笔记:第二讲如何构建知识图谱...

    上一讲我们学习了知识图谱的一些基本概念:泽宇:斯坦福大学CS520知识图谱系列课程学习笔记:第一讲什么是知识图谱​zhuanlan.zhihu.com 本节课程关于如何构建知识图谱,因为知识图谱的构建 ...

  9. 知识图谱 图 强化学习 推荐系统

    知识图谱或图为强化学习的状态和动作选择提供语义信息得到更好的表示来优化强化学习的过程.(将知识图谱作为外部信息引入强化学习框架中,用来引导强化学习探索过程) Unified Conversationa ...

  10. 知识图谱赵军学习笔记(一)--概论

    什么是知识图谱 知识的种类 陈述性知识(描述性知识) 描述客观事物的性状等静态信息 分为事物,概念,命题3个层次 事物是特定的事或物 概念是对一类事物本质特性的反映 命题是对事物之间关系的陈述 概括性 ...

最新文章

  1. python异常机制
  2. NetCore+MySql+EF 数据库生成实体模型
  3. YOLOv5训练量化压缩
  4. vnr光学识别怎么打开_水晶光电:光学元件需求向好,光学创新打开成长新空间,未来可期...
  5. 部署Dashboard图形界面控制docker集群
  6. pycharm 如何将同一项目中不同模块代码分屏显示
  7. [转]vim基础入门、语法速探、快捷键与宏
  8. 技术晋升的评定与博弈
  9. 4-[函数]- 独立功能的代码块
  10. delphi android路径 TPath 文件路径,文件管理
  11. python对象的引用_Python 对象引用、可变性和垃圾回收
  12. mysql 实现row_number_MySQL实现ROW_NUMBER()
  13. AndroidSDK下载
  14. 计算机领域EI和SCI收录期刊、影响因子及国际会议
  15. Linux mmc驱动框架(4)——卡检测及初始化
  16. docker使用国内加速器的正确姿势
  17. FM立体声 matlab 左右,FM立体声收音机的制作
  18. 移动APP登录注册(vue+vant)
  19. Emacs 安装与使用
  20. 校园歌手信息评分系统(C语言),大一新生期末实训

热门文章

  1. 1028: 在霍格沃茨找零钱
  2. 学习opengl(起步)
  3. xml simpleXML_load_file(), simpleXML_load_string()
  4. 如何屏蔽TCP 报头中的内容-位置字段中显示的 IP 地址
  5. 有特殊步长适应的自适应差分脉码调制语音编码系统
  6. 编程的精髓:发现问题,解决问题
  7. Anaconda prompt:Cache entry deserialization failed, entry ignored
  8. CUDA下在Host端分配的几种内存模式
  9. ubuntu 搜索文件方法(find命令)
  10. Tips:重装系统后Anaconda目录在开始菜单消失问题