drill apache_使用Apache Drill深入研究当今的大数据

drill apache

自2014年9月首次提供Beta版以来， Apache Drill一直在获得广泛的用户采用和社区动力。2015年5月发布了Drill的通用版本-Drill 1.0，此后大量客户在生产中部署和使用了Drill。在这篇博客文章中，我将简要总结客户在Drill中发现非常宝贵的一些关键功能。我还将介绍部署Drill的常见用例，以及Drill入门资源。

为什么Drill对客户具有吸引力

Drill提供对任何类型数据SQL访问，具有极大的灵活性和易用性

使用Drill，您可以在短短几分钟之内查询文件，Hive数据仓库，HBase表甚至是非基于Hadoop的存储系统中的数据，并且可以动态合并这些来源的数据。无需定义和维护任何中央元数据定义。钻取就地查询数据并即时发现模式。通过利用高级SQL解析器（ Apache Calcite ）提供的全面SQL支持，Drill还提供了SQL扩展，以本地查询和操作复杂数据类型，例如大多数新数据源中常见的数组和映射（如网站点击，社会，传感器数据）。 Drill还带有ODBC / JDBC驱动程序，因此可以很容易地将其插入到Tableau和MicroStrategy等BI工具中，以在组织中广泛使用。
演练可提供大规模的低延迟性能

Drill是专为复杂数据而构建的分布式列式SQL查询引擎。它不使用MapReduce，Tez或Spark 。 Drill可以部署在单个节点上，也可以水平扩展到10s到100s到1000s的节点，具体取决于需要支持的用户数量，要满足的性能SLA以及需要处理的数据量。除了规模之外，Drill还具有出色的性能。内存中的柱状执行引擎旨在优化短查询的处理，结合了高级和可插入的优化功能，包括分区修剪，下推运算符以及基于规则和基于成本的查询重写功能。这些功能使Drill在大数据生态系统中成为强大的交互工具。
Drill提供了精细且分散的安全模型

Drill中的视图通常用作管理单元，以提供对Hadoop数据的细化行和列级访问控制。与其他SQL技术/工具不同，钻取视图是分散的实体，并且可以简单地维护为文件系统上的文件（用户可以选择文件系统位置来创建视图作为查询的一部分）。这意味着可以使用文件系统权限来保护视图，而无需建立单独的安全性存储库来管理权限。

此外，Drill支持用户模拟，因此特定的用户身份可用于访问这些视图，而不是系统或进程用户访问数据，这在某些用户环境中是不可接受的。 Drill还提供了强大的所有权链接功能，可控制给定用户可以访问多少级嵌套视图，因此组织可以在自助数据探索与受控治理之间取得平衡。

演练用例

在更广泛的层面上，Drill的用例是对存储在Hadoop数据湖/数据中心中的数据提供自助式BI /临时查询。在这个保护伞下存在几个子用例，下面是一些常见的使用模式，我们看到客户在其环境中利用Drill。请注意，根据数据处理和报告要求的类型，通常会同时使用这些用例的混合。

原始数据浏览：数据通常以文本和JSON等原始数据格式进入Hadoop集群。目标是以自助服务的方式尽快将其提供给最终用户，分析师，数据科学家和其他SQL专家查询。这是我们看到客户开始使用Drill时功能最强大，障碍最小的切入点。 Drill为这些大型原始数据集提供了启发（有时由于处理的复杂性和成本而忽略了数据集），立即打开了新型的BI用例，例如支持概念和查询的即席证明，新产品开发，数据发现用于构建模型，数据探索和数据质量报告。
Hive表上的低延迟查询：在此用例中，首先使用Hive ETL作业对来自各种数据源（通常是传统系统的负载）到达Hadoop集群的数据进行建模，预处理和转换。目标是打开存储在Hive中的BI / adhoc查询数据集。这是标准用例，几乎所有Hadoop工具上SQL都致力于解决此问题。 Drill凭借其ANSI SQL功能，与Hive的深度集成（允许重用Hive资产（例如文件格式，UDF和元数据定义））以及在通过Hive进行的查询方面的巨大性能提升，为该用例提供了强大的价值。
HBase / MapR-DB上的操作分析 ：在此用例中，HBase / MapR-DB用作需要频繁更新的广泛，稀疏且经常动态的数据集的操作数据存储/数据中心。 Drill具有从NoSQL数据源实时发现架构的能力，并具有全面SQL功能支持以读取/解释各种数据类型和编码，Drill成为查询这些系统中数据的自然工具。

产品进度

Drill社区正在通过迭代发布在产品上取得快速进展。在GA中提供了核心基础之后不久，便在7月发布了新的1.1版本（请参阅发行说明），它基于支持上述用例的功能集以及对SQL支持，性能，规模和企业的持续改进。可管理性。 Drill 1.2版本中还有更多令人兴奋的增强功能，您也可以检出。

如何开始使用Drill

在10分钟内开始在笔记本电脑上使用Drill
将Drill与Hadoop结合使用-MapR沙箱和教程
尝试使用Amazon Web Services进行钻取
将Drill下载到您的MapR集群
按需训练
详细的分步教程

有关完整文档，请参阅http://drill.apache.org/docs 。其他资源可以在http://mapr.com/apachedrill找到

您有关于Apache Drill的问题吗？在下面的评论部分中询问他们。

翻译自: https://www.javacodegeeks.com/2015/11/drill-into-your-big-data-today-with-apache-drill.html

drill apache