自2014年9月首次提供Beta版以来, Apache Drill一直在获得广泛的用户采用和社区动力。2015年5月发布了Drill的通用版本-Drill 1.0,此后,许多客户已在生产中部署和使用了Drill。 在此博客文章中,我将简要总结客户在Drill中发现的宝贵价值的一些关键功能。 我还将介绍部署Drill的常见用例,以及Drill入门资源。

为什么Drill对客户具有吸引力

  1. Drill提供对任何类型数据的SQL访问,具有极大的灵活性和易用性

    使用Drill,您可以在短短几分钟内查询文件,Hive数据仓库,HBase表甚至是非基于Hadoop的存储系统中的数据,并且可以动态合并这些来源的数据。 无需定义和维护任何中央元数据定义。 钻取就地查询数据并即时发现模式。 通过利用高级SQL解析器( Apache Calcite )提供的全面SQL支持,Drill还提供了SQL扩展,以本地查询和操作复杂数据类型,例如大多数新数据源中常见的数组和映射(如网站点击,社会,传感器数据)。 Drill还随附ODBC / JDBC驱动程序,因此可以很容易地将其插入到Tableau和MicroStrategy等BI工具中,以在组织中广泛使用。

  2. 演练可提供大规模的低延迟性能

    Drill是专为复杂数据而构建的分布式列式SQL查询引擎 。 它不使用MapReduce,Tez或Spark 。 Drill可以部署在单个节点上,也可以水平扩展到10s到100s到1000s的节点,具体取决于需要支持的用户数量,要满足的性能SLA以及需要处理的数据量。 除了规模之外,Drill还具有出色的性能。 内存中的柱状执行引擎旨在优化短查询的处理,结合了高级和可插拔的优化功能,包括分区修剪,下推运算符以及基于规则和基于成本的查询重写功能。 这些功能使Drill在大数据生态系统中成为功能强大的交互式工具。

  3. Drill提供了细化和分散的安全模型

    Drill中的视图通常用作管理单元,以提供对Hadoop数据的细化行和列级访问控制。 与其他SQL技术/工具不同,钻取视图是去中心化的实体,并且仅作为文件系统上的文件进行维护(用户可以选择文件系统位置来创建视图作为查询的一部分)。 这意味着可以使用文件系统权限来保护视图,而无需建立单独的安全性存储库来管理权限。

    另外,Drill支持用户模拟,因此特定的用户身份可用于访问这些视图,而不是系统或进程用户访问数据,这在某些用户环境中是不可接受的。 Drill还提供了强大的所有权链接功能,可控制给定用户可以访问多少级嵌套视图,因此组织可以在自助数据探索与受控治理之间取得平衡。

演练用例

在更广泛的层面上,Drill的用例是对Hadoop数据湖/数据中心中存储的数据提供自助式BI /临时查询。 在这个保护伞下存在几个子用例 ,下面是一些常见的使用模式,我们看到客户在其环境中利用Drill。 请注意,根据数据处理和报告要求的类型,通常会同时使用这些用例的混合。

  • 原始数据浏览:数据通常以文本和JSON等原始数据格式进入Hadoop集群。 目标是以自助方式尽快将其提供给最终用户,分析师,数据科学家和其他SQL专家查询。 这是我们看到客户开始使用Drill时功能最强大且障碍最小的切入点。 Drill为这些大型原始数据集(有时由于处理过程的复杂性和成本而被忽略的数据集)带来了启发,立即打开了新型的BI用例类型,例如支持概念和查询的即席证明,新产品开发,数据发现用于构建模型,数据探索和数据质量报告。
  • Hive表上的低延迟查询:在这种情况下,首先使用Hive ETL作业对来自各种数据源(通常是传统系统的负载)到达Hadoop集群的数据进行建模,预处理和转换。 目标是打开存储在Hive中的BI / adhoc查询数据集。 这是标准用例,几乎所有Hadoop工具上的SQL都致力于解决此问题。 Drill凭借其ANSI SQL功能,与Hive的深度集成(允许重用Hive资产(例如文件格式,UDF和元数据定义))以及在Hive上进行的查询所带来的巨大性能提升,为该用例提供了强大的价值。
  • HBase / MapR-DB上的操作分析 :在此用例中,HBase / MapR-DB用作需要频繁更新的广泛,稀疏且经常动态的数据集的操作数据存储/数据中心。 Drill具有从NoSQL数据源实时发现架构的能力,并具有全面的SQL函数支持以读取/解释各种数据类型和编码,Drill成为查询这些系统中数据的自然工具。

产品进度

Drill社区正在通过迭代发布在产品上取得快速进展。 在GA中提供了核心基础后不久,便在7月发布了新的1.1版本(请参阅发行说明),它基于支持上述用例的功能集以及对SQL支持,性能,规模和企业的持续改进。可管理性。 Drill 1.2版本中还有更多令人兴奋的增强功能,您也可以检出。

如何开始使用Drill

  • 在10分钟内在笔记本电脑上开始使用Drill
  • 将Drill与Hadoop结合使用-MapR沙箱和教程
  • 尝试使用Amazon Web Services进行钻取
  • 将Drill下载到您的MapR集群
  • 按需训练
  • 详细的分步教程

有关完整文档,请参阅http://drill.apache.org/docs 。 其他资源可以在http://mapr.com/apachedrill找到

您有关于Apache Drill的问题吗? 在下面的评论部分中询问他们。

翻译自: https://www.javacodegeeks.com/2015/11/drill-into-your-big-data-today-with-apache-drill.html

使用Apache Drill深入研究当今的大数据相关推荐

  1. drill apache_使用Apache Drill深入研究当今的大数据

    drill apache 自2014年9月首次提供Beta版以来, Apache Drill一直在获得广泛的用户采用和社区动力.2015年5月发布了Drill的通用版本-Drill 1.0,此后大量客 ...

  2. 计算机大数据的前景方向_研究未来计算机大数据的发展方向

    龙源期刊网 http://www.qikan.com.cn 研究未来计算机大数据的发展方向 作者:贺彬 来源:<山东工业技术> 2019 年第 20 期 摘 要:随着计算机的普及,计算机在 ...

  3. 卷皮OLAP平台进化史:Apache Kylin在卷皮网大数据平台的运用

    \ AI 前线导读:"卷皮网"是一家专注高性价比商品的移动电商 ,日活跃高达 1000 多万,随着卷皮网的快速发展,数据规模快速增长,集群数据存储量成指数倍增大,服务器规模达到 1 ...

  4. Apache Flink 为什么能够成为新一代大数据计算引擎?

    众所周知,Apache Flink(以下简称 Flink)最早诞生于欧洲,2014 年由其创始团队捐赠给 Apache 基金会.如同其他诞生之初的项目,它新鲜,它开源,它适应了快速转的世界中更重视的速 ...

  5. Apache Mnemonic成为Apache顶级项目,主要解决大数据性能问题

    近日,Apache软件基金会宣布,Apache Mnemonic从Apache孵化器中毕业成为顶级项目. Apache Mnemonic是一个用于处理和分析链接对象的开源对象平台,旨在解决大数据性能问 ...

  6. GSMA最新研究指出移动大数据解决方案的巨大机遇,可用以推动积极的社会影响

    大数据解决方案有望在未来五年对1.5亿人的生活产生积极影响 洛杉矶--(美国商业资讯)--据GSMA发布的一项新研究显示,未来五年,移动大数据解决方案在灾难应对.疾病预防和金融普惠等领域的应用可能对超 ...

  7. 日均 6000+ 实例,TB 级数据流量,Apache DolphinScheduler 如何做联通医疗大数据平台的“顶梁柱”?...

    作者 | 胡泽康 鄞乐炜 Profile 作者简介 胡泽康 联通(广东)产业互联网公司  大数据工程师,专注于开源大数据领域,从事大数据平台研发工作 鄞乐炜 联通(广东)产业互联网公司 大数据工程师, ...

  8. kafka处理流式数据_通过Apache Kafka集成流式传输大数据

    kafka处理流式数据 从实时过滤和处理大量数据,到将日志数据和度量数据记录到不同来源的集中处理程序中,Apache Kafka越来越多地集成到各种系统和解决方案中. 使用CData Sync ,可以 ...

  9. 通过Apache Kafka集成流式传输大数据

    从实时实时过滤和处理大量数据,到将日志数据和度量数据记录到不同来源的集中处理程序中,Apache Kafka日益集成到各种系统和解决方案中. 使用CData Sync ,可以轻松地将此类解决方案应用于 ...

最新文章

  1. Java-数据类型拓展
  2. python googletrans_Python使用googletrans报错的解决方法
  3. mysql自动备份工具 linux_自动备份MYSQL方法 (Linux)
  4. 复合型网络拓扑结构图_网络拓扑结构大全和图片星型总线型环型树型分布式网状拓扑结构...
  5. Win7双屏显示设置
  6. 2010年11.30日 爱普生 武昌培训 Technical workshop OPOS INSTALL
  7. android彻底退出应用_Android完全退出应用程序的方法
  8. Java Web 学生选课管理系统
  9. 训练AI 玩王者荣耀,这算不算开挂?!(附源码)
  10. Java 实现打印文件详解(附demo)
  11. UART串口协议简介
  12. 美团外卖订单中心的演进
  13. Cocos2d-x 着色器
  14. 遇见你,是我幸福的开始
  15. c语言编程文本文件的写入,c语言 文本文件的操作 字符写入
  16. CodeForces - 1005A . Tanya and Stairways
  17. 安装elasticsearch
  18. Win10哪些服务可以关闭/禁用?
  19. Proxy SwitchyOmega
  20. 学术失信!2人被撤销硕士学位!导师均被撤销硕士研究生指导教师资格!

热门文章

  1. (十)IDEA添加mybatis-mapp.xml文件
  2. 如何用spring boot写一个注册页面
  3. java中求5的阶乘
  4. super与this关键字的区别
  5. 方舟非主机服务器无限距离,方舟非专业服务器距离限制怎么解除 | 手游网游页游攻略大全...
  6. redis集群信息分析-cluster info-cluster nodes
  7. 事务的状态(状态模式)
  8. 带有Prometheus的弹簧靴和Micrometer第5部分:旋转Prometheus
  9. 抽象工厂模式设计模式_创新设计模式:抽象工厂模式
  10. 阿帕奇跨域_阿帕奇光束