deepdive是由斯坦福大学InfoLab实验室开发的一个开源知识抽取系统。它通过弱监督学习,从非结构化的文本中抽取结构化的关系数据 。是目前人工智能学习领域的一个热门项目。原文见 http://deepdive.stanford.edu/

DeepDive 用来做什么?

DeepDive是一个从暗数据(dark data)中提取价值的系统。与暗物质(dark matter)一样,暗数据是隐藏在文本、表格、图形和图像中的大量数据,缺乏结构,因此基本上无法通过现有软件处理。DeepDive通过从非结构化信息(文本文档)创建结构化数据(SQL表)并将这些数据与现有的结构化数据库集成,帮助揭示暗数据。DeepDive用于提取实体之间复杂的关系,并对涉及这些实体的事实进行推断。DeepDive帮助用户处理各种各样的暗数据,并将结果放入数据库。有了数据库中的数据,人们可以使用各种标准工具来使用结构化数据;例如,可视化工具(如Tableau)或分析工具(如Excel)。

DeepDive是什么?

DeepDive是一种新型的数据管理系统,它能够在单个系统中解决提取、集成和预测问题,使用户能够快速构建复杂的端到端数据管道,如暗数据BI(Business Intelligence)系统。通过允许用户端到端构建他们的系统,DeepDive允许用户专注于他们的系统中最直接提高应用程序质量的部分。相比之下,以前的基于管道的系统要求开发人员构建提取器、集成代码和其他组件,而不清楚其更改如何提高数据产品的质量。这个简单的洞察是深海系统如何在更短的时间内产生更高质量数据的关键。从古生物学到基因组学再到人口贩卖等许多领域,没有机器学习专业知识的用户都使用基于深海的系统;请参见我们的示例。

DeepDive是一个训练系统,使用机器学习来处理各种形式的噪音和不精确性。DeepDive的目的是让用户通过Mindtagger界面的低级反馈和通过规则的丰富、结构化的领域知识来轻松地训练系统。DeepDive希望能够帮助那些没有机器学习专业知识的专家。深海潜水的关键技术创新之一是能够大规模解决统计推断问题。

DeepDive与传统系统有几个不同之处:

  • DeepDive要求开发人员考虑功能而不是算法。相比之下,其他机器学习系统要求开发人员考虑使用哪种聚类算法、哪种分类算法等。在DeepDive的基于联合推理的方法中,用户只指定必要的信号或特征。
  • DeepDive可以获得高质量:在科学领域提取复杂知识和在实体关系提取竞赛中获胜方面,古深海系统比人类志愿者具有更高的质量。
  • DeepDive意识到数据常常是嘈杂和不精确的:名字拼写错误,自然语言模棱两可,人类也会犯错。考虑到这种不精确性,DeepDive计算它所做的每一个断言的校准概率。例如,如果深海潜水产生一个概率为0.9的事实,那么这个事实有90%可能是真的。
  • DeepDive能够使用来自各种来源的大量数据。使用DeepDive构建的应用程序已经从数以百万计的文档、web页面、pdf、表和图中提取了数据。
  • DeepDive允许开发人员使用他们对给定域的知识,通过编写通知推理(学习)过程的简单规则来提高结果的质量。深度潜水还可以考虑用户对预测正确性的反馈,以改进预测。
  • DeepDive能够利用这些数据进行“远距离”学习。相比之下,大多数机器学习系统需要对每个预测进行冗长的训练。事实上,许多深海应用,特别是在早期阶段,根本不需要传统的训练数据!
  • DeepDive的秘密是一个可伸缩的、高性能的推理和学习引擎。在过去的几年里,我们一直在努力使底层算法运行得越快越好。本项目中率先采用的技术是商业和开放源码工具的一部分,包括MADlib、Impala(Oracle的产品)和低级技术,如Hogwild!。他们也被包括在微软的Adam和其他主要的网络公司中。

DeepDive 用于哪些方面?

我们在showcase页面中描述了深海应用程序的示例。

  • MEMEX-支持打击人口贩卖,这是最近在福布斯上出现,现在被执法机构积极使用。
  • PaleoDeepDive-一个比人类志愿者质量更高的古生物学家知识库。
  • GeoDeepDive -从地质学杂志文章中提取暗数据。
  • Wisci-用结构化数据丰富维基百科。
    这些示例在showcase页面中进行了描述。这些示例的完整代码可在DeepDive(如果允许)中获得。DeepDive目前在其他领域的合作者甚至更多。

谁应该使用DeepDive?

使用者应该熟悉DDlog或SQL、使用关系数据库和Python来构建DeepDive应用程序或将DeepDive与其他工具集成。想要修改和改进DeepDive的开发者必须具备DeepDive开发者指南中提到的基本背景知识。

谁开发了DeepDive?

DeepDive是由斯坦福大学Christopher Ré 领导的项目。目前的组员包括:Michael Cafarella, Xiao Cheng, Raphael Hoffman, Dan Iter, Thomas Palomares, Alex Ratner, Theodoros Rekatsinas, Zifei Shan, Jaeho Shin, Feiran Wang, Sen Wu, and Ce Zhang。

DeepDive 简介相关推荐

  1. 知识图谱-知识抽取(三):非结构化数据【DeepDive:基于远程监督的“关系抽取”】【斯坦福开发的开源知识抽取系统,通过弱监督学习,从非结构化的文本中抽取结构化的关系数据 】

    deepdive是由斯坦福大学InfoLab实验室开发的一个开源知识抽取系统.它通过弱监督学习,从非结构化的文本中抽取结构化的关系数据 .是目前人工智能学习领域的一个热门项目.原文见 http://d ...

  2. 支持中文的deepdive:斯坦福大学的开源知识抽取工具(三元组抽取)

    一.DeepDive简介 deepdive帮助你从更少的结构化数据和统计推断中提取结构化的知识而无需编写任何复杂的机器学习代码.deepdive是一种新的数据管理系统,能够解决提取.整合型,并在一个单 ...

  3. DeepDive安装教程

    DeepDive简介: DeepDive是一个混乱数据中抽取有效数据的系统.混乱的数据包括混合在文本.表格和图片等中的非结构化数据而难以被软件处理.DeepDive帮助从非结构化数据中抽取数据并整合到 ...

  4. DeepDive学习

    一.DeepDive简介 deepdive是一个具有语言识别能力的信息抽取工具,可用作KBC系统(Knowledge Base Construction)的内核,也可以理解为是一种Automatic ...

  5. 【DeepDive】使用教程

    一.DeepDive简介 deepdive帮助你从更少的结构化数据和统计推断中提取结构化的知识而无需编写任何复杂的机器学习代码.deepdive是一种新的数据管理系统,能够解决提取.整合型,并在一个单 ...

  6. ubantu16.04下配置使用DeepDive

    一.DeepDive简介 deepdive帮助你从更少的结构化数据和统计推断中提取结构化的知识而无需编写任何复杂的机器学习代码.deepdive是一种新的数据管理系统,能够解决提取.整合型,并在一个单 ...

  7. DeepDive-信息抽取工具安装教程

    一.DeepDive简介 DeepDive是信息抽取的工具,它可以从各种dark data(文本.图片.表格)中将非结构数据抽取到关系数据库中.DeepDive的主要功能是抽取dark data中的实 ...

  8. deepdive的安装

    简介 deepdive是由斯坦福大学InfoLab实验室开发的一个开源知识抽取系统.它通过弱监督学习,从非结构化的文本中抽取结构化的关系数据 下载 CNdeepdive的下载地址:https://pa ...

  9. etcd 笔记(01)— etcd 简介、特点、应用场景、常用术语、分布式 CAP 理论、分布式原理

    1. etcd 简介 etcd 官网定义: A highly-available key value store for shared configuration and service discov ...

最新文章

  1. 贝壳大数据OLAP平台架构演进
  2. 杭州程序员吐槽:月薪1.3万,结婚需要给女方彩礼35-40万,直呼结不起!网友回复:娶老婆还是娶祖宗?...
  3. 宏基因组蚂蚁森林公益合种树项目,支持祖国绿化事业,让世界更美好
  4. 抛出java类型异常的方法_Java Streams:抛出异常的优雅方法
  5. Linux Shell快速入门
  6. 大数据之-Hadoop之HDFS的API操作_配置参数的优先级说明_以设置hdfs文件副本数量参数为案例---大数据之hadoop工作笔记0057
  7. Python PIL库处理图片常用操作,图像识别数据增强的方法
  8. 编程基本功:创新是贬义词,与乱搞同义
  9. ImportError:cannot import name ‘save_state_warning‘和解决torch1.7.1报分布式错误No rendezvous handler for env:
  10. springboot整合手机验证码
  11. 〖Python 数据库开发实战 - Python与MySQL交互篇⑰〗- 项目实战 - 实现用户管理 - 修改用户
  12. 跨境电商的痛点有哪些?
  13. 基于QT实现的职工住房管理系统
  14. (转)2010年最不能错过的101个网站
  15. 【Win10错误】从0x80190001错误码恢复
  16. 花生壳PHTunnel嵌入Openwrt实例
  17. 华为鸿蒙为工业设计,华为鸿蒙系统设计
  18. 如何利用音乐合成软件将多段音频合并为一段?可以试试这个方法
  19. python绘制成绩直方图_python如何绘制直方图
  20. SQL server 2008基本语句大全与提升语句

热门文章

  1. 19.13-PLC和PLC的ModbusRTU通信及Modbus_Slave指令讲解
  2. Linux系统下超级好用的终端——Terminator终结者
  3. 计算机所有u口都不读u盘,U盘不被电脑识别,不要扔掉!解决方法!收藏!
  4. 工作中的方法论(十四)
  5. 蚁群算法-matlab
  6. Visual Studio开发Windows Mobile程序
  7. 使用Windows To Go工具制作你的U盘系统【含下载Windows10系统镜像】亲测已成功23.06.21
  8. 「1024 · 马尔可夫链」活动
  9. 中国专利电子申请网 使用教程
  10. (飞速下载)阿里云上用nexus搭建的maven私服仓库