drill apache

自2014年9月首次提供Beta版以来, Apache Drill一直在获得广泛的用户采用和社区动力。2015年5月发布了Drill的通用版本-Drill 1.0,此后大量客户在生产中部署和使用了Drill。 在这篇博客文章中,我将简要总结客户在Drill中发现非常宝贵的一些关键功能。 我还将介绍部署Drill的常见用例,以及Drill入门资源。

为什么Drill对客户具有吸引力

  1. Drill提供对任何类型数据SQL访问,具有极大的灵活性和易用性

    使用Drill,您可以在短短几分钟之内查询文件,Hive数据仓库,HBase表甚至是非基于Hadoop的存储系统中的数据,并且可以动态合并这些来源的数据。 无需定义和维护任何中央元数据定义。 钻取就地查询数据并即时发现模式。 通过利用高级SQL解析器( Apache Calcite )提供的全面SQL支持,Drill还提供了SQL扩展,以本地查询和操作复杂数据类型,例如大多数新数据源中常见的数组和映射(如网站点击,社会,传感器数据)。 Drill还带有ODBC / JDBC驱动程序,因此可以很容易地将其插入到Tableau和MicroStrategy等BI工具中,以在组织中广泛使用。

  2. 演练可提供大规模的低延迟性能

    Drill是专为复杂数据而构建的分布式列式SQL查询引擎 。 它不使用MapReduce,Tez或Spark 。 Drill可以部署在单个节点上,也可以水平扩展到10s到100s到1000s的节点,具体取决于需要支持的用户数量,要满足的性能SLA以及需要处理的数据量。 除了规模之外,Drill还具有出色的性能。 内存中的柱状执行引擎旨在优化短查询的处理,结合了高级和可插入的优化功能,包括分区修剪,下推运算符以及基于规则和基于成本的查询重写功能。 这些功能使Drill在大数据生态系统中成为强大的交互工具。

  3. Drill提供了精细且分散的安全模型

    Drill中的视图通常用作管理单元,以提供对Hadoop数据的细化行和列级访问控制。 与其他SQL技术/工具不同,钻取视图是分散的实体,并且可以简单地维护为文件系统上的文件(用户可以选择文件系统位置来创建视图作为查询的一部分)。 这意味着可以使用文件系统权限来保护视图,而无需建立单独的安全性存储库来管理权限。

    此外,Drill支持用户模拟,因此特定的用户身份可用于访问这些视图,而不是系统或进程用户访问数据,这在某些用户环境中是不可接受的。 Drill还提供了强大的所有权链接功能,可控制给定用户可以访问多少级嵌套视图,因此组织可以在自助数据探索与受控治理之间取得平衡。

演练用例

在更广泛的层面上,Drill的用例是对存储在Hadoop数据湖/数据中心中的数据提供自助式BI /临时查询。 在这个保护伞下存在几个子用例 ,下面是一些常见的使用模式,我们看到客户在其环境中利用Drill。 请注意,根据数据处理和报告要求的类型,通常会同时使用这些用例的混合。

  • 原始数据浏览:数据通常以文本和JSON等原始数据格式进入Hadoop集群。 目标是以自助服务的方式尽快将其提供给最终用户,分析师,数据科学家和其他SQL专家查询。 这是我们看到客户开始使用Drill时功能最强大,障碍最小的切入点。 Drill为这些大型原始数据集提供了启发(有时由于处理的复杂性和成本而忽略了数据集),立即打开了新型的BI用例,例如支持概念和查询的即席证明,新产品开发,数据发现用于构建模型,数据探索和数据质量报告。
  • Hive表上的低延迟查询:在此用例中,首先使用Hive ETL作业对来自各种数据源(通常是传统系统的负载)到达Hadoop集群的数据进行建模,预处理和转换。 目标是打开存储在Hive中的BI / adhoc查询数据集。 这是标准用例,几乎所有Hadoop工具上SQL都致力于解决此问题。 Drill凭借其ANSI SQL功能,与Hive的深度集成(允许重用Hive资产(例如文件格式,UDF和元数据定义))以及在通过Hive进行的查询方面的巨大性能提升,为该用例提供了强大的价值。
  • HBase / MapR-DB上的操作分析 :在此用例中,HBase / MapR-DB用作需要频繁更新的广泛,稀疏且经常动态的数据集的操作数据存储/数据中心。 Drill具有从NoSQL数据源实时发现架构的能力,并具有全面SQL功能支持以读取/解释各种数据类型和编码,Drill成为查询这些系统中数据的自然工具。

产品进度

Drill社区正在通过迭代发布在产品上取得快速进展。 在GA中提供了核心基础之后不久,便在7月发布了新的1.1版本(请参阅发行说明),它基于支持上述用例的功能集以及对SQL支持,性能,规模和企业的持续改进。可管理性。 Drill 1.2版本中还有更多令人兴奋的增强功能,您也可以检出。

如何开始使用Drill

  • 在10分钟内开始在笔记本电脑上使用Drill
  • 将Drill与Hadoop结合使用-MapR沙箱和教程
  • 尝试使用Amazon Web Services进行钻取
  • 将Drill下载到您的MapR集群
  • 按需训练
  • 详细的分步教程

有关完整文档,请参阅http://drill.apache.org/docs 。 其他资源可以在http://mapr.com/apachedrill找到

您有关于Apache Drill的问题吗? 在下面的评论部分中询问他们。

翻译自: https://www.javacodegeeks.com/2015/11/drill-into-your-big-data-today-with-apache-drill.html

drill apache

drill apache_使用Apache Drill深入研究当今的大数据相关推荐

  1. 使用Apache Drill深入研究当今的大数据

    自2014年9月首次提供Beta版以来, Apache Drill一直在获得广泛的用户采用和社区动力.2015年5月发布了Drill的通用版本-Drill 1.0,此后,许多客户已在生产中部署和使用了 ...

  2. drill apache_使用Apache Drill REST API通过Node构建ASCII仪表盘

    drill apache Apache Drill有一个隐藏的瑰宝:易于使用的REST接口. 该API可用于查询,分析和配置Drill引擎. 在此博客文章中,我将解释如何使用Brilled Contr ...

  3. drill apache_使用Apache Drill对混合模式数据进行SQL查询

    drill apache 您可能已经听过以下声明: Apache Drill可以即时进行模式发现. 这是什么意思,为什么对您来说很重要? SQL具有强大的业务分析功能,但是大数据设置中的挑战在于,SQ ...

  4. 计算机大数据的前景方向_研究未来计算机大数据的发展方向

    龙源期刊网 http://www.qikan.com.cn 研究未来计算机大数据的发展方向 作者:贺彬 来源:<山东工业技术> 2019 年第 20 期 摘 要:随着计算机的普及,计算机在 ...

  5. 卷皮OLAP平台进化史:Apache Kylin在卷皮网大数据平台的运用

    \ AI 前线导读:"卷皮网"是一家专注高性价比商品的移动电商 ,日活跃高达 1000 多万,随着卷皮网的快速发展,数据规模快速增长,集群数据存储量成指数倍增大,服务器规模达到 1 ...

  6. Apache Flink 为什么能够成为新一代大数据计算引擎?

    众所周知,Apache Flink(以下简称 Flink)最早诞生于欧洲,2014 年由其创始团队捐赠给 Apache 基金会.如同其他诞生之初的项目,它新鲜,它开源,它适应了快速转的世界中更重视的速 ...

  7. Apache Mnemonic成为Apache顶级项目,主要解决大数据性能问题

    近日,Apache软件基金会宣布,Apache Mnemonic从Apache孵化器中毕业成为顶级项目. Apache Mnemonic是一个用于处理和分析链接对象的开源对象平台,旨在解决大数据性能问 ...

  8. GSMA最新研究指出移动大数据解决方案的巨大机遇,可用以推动积极的社会影响

    大数据解决方案有望在未来五年对1.5亿人的生活产生积极影响 洛杉矶--(美国商业资讯)--据GSMA发布的一项新研究显示,未来五年,移动大数据解决方案在灾难应对.疾病预防和金融普惠等领域的应用可能对超 ...

  9. 日均 6000+ 实例,TB 级数据流量,Apache DolphinScheduler 如何做联通医疗大数据平台的“顶梁柱”?...

    作者 | 胡泽康 鄞乐炜 Profile 作者简介 胡泽康 联通(广东)产业互联网公司  大数据工程师,专注于开源大数据领域,从事大数据平台研发工作 鄞乐炜 联通(广东)产业互联网公司 大数据工程师, ...

最新文章

  1. DCN-2655 同异步端口PPP (chap)认证
  2. idm 爬取网站 跳转路径_儋州网站案例基本流程,电子元件网络推广,浅析
  3. 我什么时候应该使用结构而不是类?
  4. python参数类型检查_Python中的类型检查
  5. 【Java面试题】39 Set里的元素是不能重复的,那么用什么方法来区分重复与否呢? 是用==还是equals()? 它们有何区别?...
  6. linux按函数数字大小排序,linux awk 数组排序多种实现方法
  7. ElementUI的el-table怎样隐藏某一列
  8. 从NT向solaris 8移植C/C++应用
  9. 密码学 / 什么是数字签名
  10. 编译away3d例程序记
  11. 腾讯面试编程题python_腾讯面试官出的 2 道经典数据分析面试题
  12. Win7安装oracle 10 g
  13. 出租车管理系统java_基于jsp的出租车管理系统-JavaEE实现出租车管理系统 - java项目源码...
  14. server2008密码不满足密码策略的要求,检查最小密码长度、密码复杂性和密码历史的要求”的解决办法...
  15. 软件测试:Jmeter关联详解
  16. mybatis 注解忽略属性
  17. 关于属性值书写无效问题
  18. flyMcu给STM32串口烧录失败踩坑、总结及注意事项
  19. 玻色量子与Menlo Systems共同开展光量子计算研发
  20. 《SPSS统计分析与行业应用实战》之P2P行业中的应用

热门文章

  1. AT3860-[AGC020F]Arcs on a Circle【dp】
  2. 牛客挑战赛53G-同源数组(Easy Version)【NTT】
  3. CF1039D-You Are Given a Tree【根号分治,贪心】
  4. 2018NOIP普及组初赛解析
  5. 学习手记(2018/7/14~2018/7/18)——快乐纪中
  6. 28、jdbc操作数据库(5)
  7. Spring 基于注解的配置
  8. 认识JVM--第一篇-对象分配&回收算法
  9. JVM调优总结(5):典型配置
  10. C++描述杭电OJ 2005.第几天? ||