SQL卷土重来 成就炙手可热的大数据
近日在美国召开的Hadoop峰会上,众多新产品与合作都围绕“大数据”分析这一核心展开。其中最令人惊讶的在于,一项已经存在数十年的技术伴随着海量数据处理方案再次出现在人们面前。此次峰会上的大多数企业都以SQL为基础的新技术作为大数据分析的主要接口。
“看起来没有哪家Hadoop相关方案供应商能够在改进SQL之外拿出新型产品,”曾任Concurrent公司数据科学负责人、现任Mesosphere公司首席科学家的Paco Nathan在Hadoop峰会的演讲中指出。“其中一些方案甚至出色到让人质疑。”
以Hadoop为基础
Hadoop是一款开源批量处理存储及分析引擎,以谷歌发布的MapReduce及谷歌文件系统技术研究论文为基础。它充当着众多“大数据”分析工具的底层技术,旨在对由Web访问、服务器日志及其它各类数据流所产生的海量数据进行筛选。举例来说,Facebook在其Hadoop集群中保存着超过30PB的数据,并为Hadoop创建了Hive查询前端(目前已经成为Apache开源项目)。美国国家安全局利用Accumulo数据库进行情报数据的实时分析工作,这套数据库同样以Hadoop为基础。
不过技术人员在学习Hadoop系统时遇上了诸多挑战,这是因为该机制要求用户充分理解问题解决策略(也就是MapReduce)并掌握支持MapReduce所必需的编程语言。MapReduce利用批量并行处理工作对规模化数据进行分类,而SQL则成为绝大多数关系型数据库及技术人员高效发掘并分析数据的利器。尽管Facebook所创建的Hive能为Hadoop提供一套类似于SQL的前端,但它仍然无法完全重现SQL语义或者达到与SQL等同的执行速度——这是因为它只是将查询转译成可为Hadoop接纳的批量处理式MapReduce工作。
在过去六个月中,供应商们已经根据市场需求推出了一系列具备完整SQL查询功能且性能表现显著优于现有Hive/Hadoop系统的系统方案,从而满足企业用户降低使用门槛的呼吁。这些新系统允许用户对全局数据集进行完整的SQL查询,而且在大多数情况下能够完全绕过Hadoop(尽管某些产品仍属于混合型方案)。规模化高速SQL查询的实现终于令大数据分析成为大部分企业员工能够掌握并适合现有工作流程的实用性解决方案。
下面我们就具体看看SQL大数据方案中的主要代表:
· Facebook的Presto:这套实时查询引擎能够为Facebook的Hadoop数据存储提供直接SQL接口。Facebook计划于今年秋季将Presto以开源项目的形式推出。
· Amazon Web Services的RedSift:该服务提供一套基于SQL的数据存储服务,能够处理数据规模在1.6PB以内的全部数据库查询。
· HortonWorks的Stinger:旨在改进Hive的SQL接口,并将Hive的速度提升上百倍。
· IBM的BigSQL:这是一套专为Hadoop开发的SQL查询引擎。BigSQL回避了MapReduce,通过与Hadoop分布式文件系统对接以处理只读查询及HBase(即Hadoop数据库引擎)事务查询对数据的读写操作。
· EMC的HAWQ:这套SQL查询引擎专门用于该公司的Pivotal HD版本Hadoop。
· Cloudera的Impala:这是一套去年十月刚刚发布的Hadoop专用实时查询接口。
Hadoop本身也将迎来一系列变更,从而使Hadoop数据的SQL查询流程更为便捷。将于今年年底推出的Hadoop 2.0利用名为YARN的模块化架构替代原本的MapReduce代码,允许多种分析系统与MapReduce共存于系统当中。
作者:核子可乐 编译
来源:IT168
原文链接:SQL卷土重来 成就炙手可热的大数据
SQL卷土重来 成就炙手可热的大数据相关推荐
- 基于简单sql语句的sql解析原理及在大数据中的应用
基于简单sql语句的sql解析原理及在大数据中的应用 李万鸿 老百姓呼吁打土豪分田地.共同富裕,总有一天会实现. 全面了解你所不知道的外星人和宇宙真想:http://pan.baidu.com/s/1 ...
- SQL on Hadoop在快手大数据平台的实践与优化 | 分享实录
快手大数据架构工程师钟靓 本文是根据快手大数据架构工程师钟靓于 5月18-19日在A2M人工智能与机器学习创新峰会<SQL on Hadoop在快手大数据平台的实践与优化>演讲中的分享内容 ...
- 天翼云从业认证(1.3)了解数据库的概念、SQL、关系型数据库、大数据和 NoSQL 数据库
数据库的概念 SQL 简单举例 create \ insert \ update \ delete\select WHERE\BETWEEN\IS NULL\LIKE avg\count\max gr ...
- 以小博大外小内大,Db数据库SQL优化之小数据驱动大数据
SQL优化中,有一条放之四海而皆准的既定方针,那就是:永远以小数据驱动大数据.其本质其实就是以小的数据样本作为驱动查询能够优化查询效率,在SQL中,涉及到不同表数据的连接.转移.或者合并,这些操作必须 ...
- spark sql读取hive底层_[大数据]spark sql读写Hive数据不一致
在大数据公司中,任何一家公司都不会只使用一个框架吧?! skr,skr~~ 那我们今天就来聊一段 Hive 与 Spark的爱恨情仇 就像 在一些场景中,需要将外部的数据导入到Hive表中,然后再对这 ...
- 2019年最炙手可热的大数据行业学习路线指导
随着国家对大数据政策的倾向越来越多的人听说过这个名词,但对它都可能也是一知半解,今天小编精心为大家整理了大数据相关的所有知识,以及大数据学习的一些资料,希望对大家有所帮助. 什么是大数据 麦肯锡全球研 ...
- sql数据库去重语法_oracle大数据去重sql语句
Oracle LogMiner Oracle LogMiner 是Oracle公司从产品8i以后提供的一个实际非常有用的分析工具,使用该工具可以轻松获得Oracle 重作日志文件(归档日志文件)中的具 ...
- hivesql修改字段类型_Hive SQL常用命令总结,大数据开发人员按需收藏
Hive是基于Hadoop生态的一个重要组件,是对数据仓库进行管理和分析数据的工具.她提供了SQL查询方式来分析存储在HDFS分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完 ...
- Spark SQL编程DataFrame 创建_大数据培训
DataFrame 创建 在Spark SQL中SparkSession是创建DataFrame和执行SQL的入口,创建DataFrame有三种方式:通过Spark的数据源进行创建:从一个存在的RDD ...
最新文章
- 网站SEO优化之如何提升网站的流量?
- CSS基础学习 19.CSS hack
- 那些原生JavaScript
- Go语言在扫码支付系统中的成功实践
- linux rz批量上传
- ArcEngine调用FeatureToLine工具传参问题
- Asp.Net文件和文件夹操作大全
- C语言rand函数生成随机数详解和示例
- Javascript中交换两个变量值的十种方法相关笔记(一)
- 学号 20165329 《Java程序设计》第4周学习总结
- ASP.NET网站运行常见错误以及解决方法(持续更新)
- 惠普公司推出新的数据中心动态冷却技术
- 暴风电视TV 55X 3.0系统通过adb Root修改桌面,删除无用app
- 空气净化器什么牌子好,家用空气净化器哪个牌子好推荐
- 简单彩票中奖实现-Demo
- nvme固态必须uefi启动吗_戴尔Inspiron 灵越笔记本装win10系统及bios设置教程(uefi+gpt)...
- GMF 所依赖的插件
- TemporalAdjusters.firstDayOfNextYear
- 科普系列: CAN/CAN FD 采样点及其测试简介
- 小程序+阿里矢量图标图iconfont