presto 使用部署_探秘Presto+Alluxio高效云端SQL查询

我们很高兴宣布与Starburst Data建立OEM战略合作伙伴关系。Startburst Data是Presto背后的公司，另一方面Presto是一个增长速度最快的SQL查询引擎。通过这种合作关系， Startburst Data将提供一个捆绑的解决方案，将我们的两种开源技术结合在一起，并为交互式分析工作提供出色的性能和跨云功能。在详细介绍Alluxio+Starburst方案之前，让我们先退一步，看看为什么这些技术本身是现代数据栈的基本元素。

常用链接

Alluxio项目官网
Alluxio在各大厂用例
关注Alluxio微信公众号：Alluxio_China

让我们回到45年前的1974年，当时IBM实验室正在构建System R—SEQUEL (Structured English Query Language，结构化英文查询语言)的第一个实现。该架构包括一个解析器、编译器、基本优化器、系统缓存池和RSS研究存储系统。随着时间的推移演进，这个架构栈被称为关系数据库。

自1974年以来，数据世界发生了很多变化，从系统变得更加分布式，到硬件变得比以前快了无数倍，需要管理的数据也多了很多，但用于管理数据的核心概念实际上并没有改变。历史上，数据库与所有核心组件都被紧密集成在一起。Hadoop改变了这一点。计算和存储仍然是同置的，但是整个系统是高度分布式的，而不是在一个或几个盒子里。

进一步地，云计算改变了Hadoop数据栈模式。如今，优步（Uber）、推特（Twitter）、京东（http://JD.com）等一批最具创新力的公司正在构建的数据栈是一个完全不同的数据栈。原始关系数据库管理系统的每个核心元素现在都是一个独立层。存储引擎的选择范围很广，从HDFS到云对象存储，再到本地对象存储。表格目录的选择从集群的Hive Metastore到AWS的AWS Glue。对于正逐渐被称为数据编排层（Data Orchestration）的数据缓冲池，Alluxio是一个主要的实现。。另外，对于查询引擎Presto，Alluxio也是使用增加最快的配合选项。

这让我回到了令我兴奋的地方：Starburst Data和Alluxio的合作伙伴关系。当Alluxio的数据编排层和Presto一起部署时，可以优化整体的数据栈，使得数据栈在每个工作节点上具有更紧密的数据本地性。首先，用户可以使用Alluxio来对Presto缓存数据。这意味着计算驱动着数据需要从底层数据竖井和存储系统中取出。数据根据查询行为存储到缓冲区中，而查询行为又意味着最终用户行为，而最终用户行为又意味着最热的数据。I/O的操作从底层的慢速存储系统交给了Alluxio中一个非常快的数据访问层来进行。

为了扩展到超过Presto缓存，用户可以利用数据编排将数据从任何位置（本地集群、跨数据中心、云对象存储）移动到查询处理层附近。从技术上讲，这并不局限于查询引擎，计算也可以是ETL框架或基于Python的机器学习框架，例如像Tensorflow这样的深度学习框架。

Starbrust + Alluxio = 在一起更好

和Alluxio一起的Starbrust Presto是一个真正独立的数据栈，支持任何文件或对象存储进行交互式大数据分析。Starbrust Presto和Alluxio整合后能够共同帮助作业运行速度提高10倍，使重要数据本地化，并连接到各种存储系统和云。

通过这种合作方式，用户可以从Starbrust Data购买到Alluxio相应的产品和服务。我们很高兴能将这种伙伴关系带到我们的社区，并期待着您的参与！我们当然希望你也很感兴趣！

用户现在可以将他们遗留的数据仓库构建方法改为来使用现代云数据栈，在Presto、Alluxio和任何文件或对象存储上构建真正不同的数据栈。今天是与Presto绑定的数据编排（Data Orchestration），明天将是与另一个框架绑定的数据编排。数据编排才刚刚开始。

更多的资源

资源1：Starbrust Data和Alluxio

资源2：用Presto和Alluxio进行交互式分析

资源3：发布新闻稿

资源4：Presto + Alluxio数据表