一、DeepDive简介

deepdive是一个具有语言识别能力的信息抽取工具,可用作KBC系统(Knowledge Base Construction)的内核,也可以理解为是一种Automatic KBC工具。
    deepdive基于语法分析器构建,所以deepdive可通过各类文本规则实现实体间关系的抽取,deepdive面向异构、海量数据,所以其中涉及一些增量处理的机制。
PaleoDeepdive是基于deepdive的一个例子,用于推测人、地点、组织之间的关系,deepdive的执行过程可以分为:feature extraction,probabilistic knowledge engineering,statisticalinference and learning三部分。

Deepdive的工作机制分为特征抽取、领域知识集成、监督学习、推理四步。

二、DeepDive优势

基于DeepDive的系统可以被没有机器学习经验的用户使用包括古生物学、基因学等。DeepDive是一个使用机器学习算法的训练系统来减少各种形式的噪音和不确定性,通过Mindtagger接口、基于规则的丰富的结构化领域的知识让用户能够在较低的反馈下完成系统训练的工作。DeepDive是要让没有机器学习实践的专家们也能使用它,它的一个关键的技术创新包括解决大范围的概率统计推断问题。它和传统的系统几个不一样的地方在于:

  • DeepDive要求开发者思考特征而不是算法,而其他机器学习系统要求开发者思考聚类算法、分类算法的使用等,而DeepDive基于联合推理的算法让用户只需要关心信号或者特征本身。
  • DeepDive系统能够获得更高的质量:PaleoDeepDive在科学领域知识抽取能力和实体关系抽取能力上比人类更胜一筹。
  • DeepDive很明确的知道数据经常有噪声和误差:名字被误拼、自然语言有多意或者人类自己犯错。通过考虑这些误差,DeepDive为每一个决断进行复杂的可能性计算,比如如果DeepDive告知可能性为0.9,那么证明事实为真的概率为90%。
  • DeepDive可以把多种数据源作为数据的来源,如文档、网页、PDF、图表和表格。
  • DeepDive允许特定领域的开发者使用简单的规则来影响学习的过程以提升结果的质量,DeepDive也考虑到用户的反馈来更正预测的准确度来更加精准的预测。
  • DeepDive能够使用数据来立即学习。大部分的机器学习系统需要为每一次预测构建大量的训练,而许多DeepDive应用,尤其是早期,可以完全不需要训练数据。
  • DeepDive的关键在于其可扩展性、优质的推理和学习引擎。在项目中应用到的技术包括部分商业和开源工具:MADlib、Impala(Oracle的一款产品产品)和底层工具如Hogwild,它们同时也被微软的Adam和其他主要的网络公司集成。

三、DeepDive安装

deepdive支持在linux和mac上安装,本次deepdive的安装是在linux环境下完成的,安装过程中需要在线下载资源。。

1、首先打开终端并运行

bash <(curl -fsSL git.io/getdeepdive)

2、当被问及时选择时,可以选择 deepdive 或 deepdive_from_release 。如果只是想安装DeepDive没有任何运行时依赖关系可以选择deepdive_from_release,官方推荐选择deepdive 。

++ get-url https://github.com/HazyResearch/deepdive/raw/master/util/install.sh
++ curl -fsSL https://github.com/HazyResearch/deepdive/raw/master/util/install.sh
### DeepDive installer for RedHat
1) deepdive                  5) jupyter_notebook
2) deepdive_docker_sandbox    6) postgres
3) deepdive_example_notebook  7) run_deepdive_tests
4) deepdive_from_release      8) spouse_example
# Install what (enter to repeat options, a to see all, q to quit, or a number)?1

DeepDive安装完成后,在使用过程时,产生的数据存放在数据库中,需要依赖关系型数据库。

安装选项:

  • postgres DeepDive使用PostgreSQL的最近的版本。 然而,9.3 +推荐使用所有功能。
  • postgres_xl PostgreSQL-XL DeepDive与当前版本,这是基于PostgreSQL 9.2。 PL / Python扩展是必需的。
  • greenplum Greenplum DeepDive与最近的版本,是基于PostgreSQL 8可能缺乏一些功能所需的一些高级DeepDive功能。 PL / Python扩展是必需的。
  • mysql DeepDive提供最小支持MySQL和MySQL集群,但PostgreSQL-based数据库是强烈推荐。

3、deepdive在使用过程中,产生的数据都存放在数据库中,依赖于postgre、mysql等关系型数据库,可以直接输入如下命令在机器上安装postgre。

bash<(curl -fsSL git.io/getdeepdive)postgres

由于按照 官网的教程下载实例,并没有正确完成,所有先写到这里

有兴趣的朋友可以去官网学习

参考资料

官方教程:http://deepdive.stanford.edu/quickstart

非官方中文版cn_deepdive:http://openkg.cn/tool/cn-deepdive

DeepDive学习相关推荐

  1. 基于DeepDive实现从股权交易公告获取企业与企业之间存在交易关系的概率--实践篇

    文章目录 实践目标 1.示例目录说明 2.数据处理 2.1 定义原始数据导入数据库表结构 2.2 导入数据 3. 数据标注 3.1 定义处理后的数据存放结构 3.1 定义NLP处理函数 3.3 说明n ...

  2. 知识图谱-知识抽取(三):非结构化数据【DeepDive:基于远程监督的“关系抽取”】【斯坦福开发的开源知识抽取系统,通过弱监督学习,从非结构化的文本中抽取结构化的关系数据 】

    deepdive是由斯坦福大学InfoLab实验室开发的一个开源知识抽取系统.它通过弱监督学习,从非结构化的文本中抽取结构化的关系数据 .是目前人工智能学习领域的一个热门项目.原文见 http://d ...

  3. 知识图谱 -- deepdive介绍与安装

    前言 最近在实践知识图谱的过程中,发现阿里目前在神马搜索构建知识图谱的过程使用了deepdive进行了关系抽取,另外就是利用深度学习PCNNs进行关系抽取.通过在对deepdive进行了解的过程中,d ...

  4. DeepDive安装学习

    工具和说明书下载地址如下: deepdive下载地址 deepdive安装说明连接 遇到问题: 1.安装时候找不到下载包,解决方法如下,解压之后可以看到CNdeepdive里面的下载包,不要删除. 解 ...

  5. 首次公开!深度学习在知识图谱构建中的应用

    在智能化时代的今天,搜索引擎不仅能理解用户检索的信息.并总结出与搜索话题相关的内容,更在逐步构建一个与搜索结果相关的完整知识体系,让用户获得意想不到的发现.神马搜索的知识图谱与应用团队就在这条路上不断 ...

  6. 如何玩转网络安全下的深度学习?最全的学习资料清单看这里

    近日,外媒 KDnuggets 刊登了一篇机器学习与网络安全相关的资料大汇总,文中列出了相关数据源的获取途径,优秀的论文和书籍,以及丰富的教程.大部分都是作者在日常工作和学习中亲自使用并认为值得安利的 ...

  7. 领域应用 | 深度学习在知识图谱构建中的应用

    本文转载自公众号:阿里技术. 深度学习模型介绍 DeepDive系统在数据处理阶段很大程度上依赖于NLP工具,如果NLP的过程中存在错误,这些错误将会在后续的标注和学习步骤中被不断传播放大,影响最终的 ...

  8. 基于主动学习算法减少人工标注量,提升文本标注效率的方案探究

    基于主动学习算法减少人工标注量,提升文本标注效率的方案探究 阅读 451 收藏 23 2018-06-26 原文链接:yq.aliyun.com OPPO技术开放日第三期,未来的探索 · AI& ...

  9. 【知识图谱】知识图谱数据构建的“硬骨头”,阿里工程师如何拿下?深度学习在知识图谱构建中的应用。

    阿里妹导读:搜索"西红柿",你不但能知道它的营养功效.热量,还能顺带学会煲个牛腩.炒个鸡蛋!搜索引擎何时变成"暖男"了?原来背后有"知识图谱" ...

最新文章

  1. 【Android 逆向】逆向修改游戏应用 ( 分析应用结构 | 定位动态库位置 | 定位动态库中的修改点 | 修改动态库 | 重打包 )
  2. 关闭弹出窗口刷新父窗口
  3. linux之查看文件大小和磁盘大小总结
  4. Vue 媒体处理(摄像头,截图,播放本地视频)
  5. linux下僵尸进程(Defunct进程)的产生与避免
  6. Android设计模式之——状态模式
  7. Java Double类hashCode()方法及示例
  8. linux下的缓存机制及清理buffer/cache/swap的方法梳理
  9. 【存档】MySQL(8.0.12 .msi)安装文档
  10. [转]性能调优攻略(2)
  11. C语言 二级指针内存模型②
  12. 量子计算机采用量子力学原理,量子计算机的工作是不是就是根据量子力学原理造的?...
  13. 4600u黑苹果 r5_黑苹果台式机机型选择指导
  14. double IE之H3CIE之路--我的H3CIE考试经历
  15. seo网站优化技巧_新网站的10个SEO技巧
  16. uniapp接入人身核验小程序
  17. java_web需要哪些技术
  18. 2019-02-13 扇贝自动打卡贼简单版
  19. A*搜索算法——图形搜索算法
  20. 百度网盘漏洞,2019年不限速方法,一直享受高速加速下载!

热门文章

  1. python函数返回字符判断_Python中用startswith()函数判断字符串开头的教程
  2. SBC的功能与部署方案
  3. 程序设计思想及范例(6),遍历问题,百钱买百鸡问题
  4. 专访| 达摩院视觉黑科技创造者华先胜
  5. 教育部考试中心对于全国计算机等级考试无纸化考试的成绩评分标准,全国计算机等级无纸化考试说明...
  6. joomla 3.4.5 php版本,joomla升级
  7. 质量工具之矩阵解析法
  8. cobaltstrike 宏病毒实践
  9. client-go源码学习(二):Reflector、DeltaFIFO
  10. Python 自动推送百度收录脚本