“你好,一杯热美式,加 2 份shot, 1 份焦糖,谢谢”

L 跨进汇智国际中心大厦的 Starbucks, 拿着 iPhone 对着点餐机轻轻一扫,对黑带服务员小妹抛出一个笑脸。

“ L 先生,您的热美式”

“谢谢”

最近 1 礼拜,无论双休还是工作日,L 每天基本都是同一时间,在早上 Starbucks 开门的 5 分钟内必定冲进去,点好咖啡,在大玻璃落地窗坐定。打开 17 寸 MacPro 翻盖,等待唤醒休眠了 6 小时的 3 台 vmware fusion centos 虚拟机。

当 vmware fusion 全亮了之后,L 也将各种 guide 从十字徽章包中取出,一一摊开在松木桌上。满意的看着这些战利品,L 认真的饮下两口香美式。

在 L 的心目中,大玻璃落地窗,加上一张 2.8 米长,1.5 米宽的深棕色送木桌,简直是灵感之台,梦寐以求。而如今 41 块的价格,便能让他坐上一整天,这么划算的买卖,L 自是不会放过。

每天 不到 6 小时的睡眠,从参加了 GIIS (Global Information Industry Summit)峰会之后, L 便一直沉浸在对大数据的研究中。搭建了各种 hadoop, Hive, Spark 环境,就是为了让自己尽快对各种实战环境能有所熟悉。这种久违的亢奋,还是 10 多年前在玩 Oracle 9i/10g 的时候有过。Oracle Concepts 小手册被 L 打印了 6 份,生活中所到之处,都可以随手翻看。别人说他浪费,“嗯,每天拿着 900 多页的书,跑来跑去,那才叫浪费,浪费智力”。

“上班挤公交,下班乱逛街,那都是浪费精力,精力不可再生,无端浪费会妨碍智力的获取与生长,简直是对生命的亵渎” L 一向都这么告诫自己。

“ Spark 的威力在于可以发挥分布式集群种所有机器的内存运算,使其只为一个应用服务。”

“ 而 Spark SQL 则将这种内存运算封装为类 SQL 标准的 DSL 语法。相当于是说,我要挖干西湖,唯一要做的事情就是发出“挖”这个命令,至于 1 个人挖还是 1000 个人挖,我不管。我要做的事情便是发出指令,如何实现的,我只要找到对的人,派给他干就行。我要考虑的是挖干西湖之后,我接下来要干什么。”

“挖西湖这么伟大的工程,一个人肯定不行。同样在 20分钟内,处理大数据比如 2T 数据,一台计算机肯定玩不转吧,那么 1000 台同时计算呢?” L 眉头一紧,“ 还真是没想想过这么玩的”。

“不过且慢。1000台计算机就肯定比一台计算机快吗?就简单拿 3 台计算机来说,Spark 怎能确保每台计算机正好处理了他所需要的那部分数据呢,如果需要从网络上另一台计算机读取所需数据呢,是不是造成堵塞,延迟加长?再比如,1000 台计算机,万一哪一天某台计算机抽风,跪了之后怎么能确保数据一致性呢?”

“再如果…. ”

一堆问题萦绕在 L 心头。

不知不觉,马克杯的美式,已经半杯下肚了。

作为 SQL 的狂热分子,其实 L 看上 Spark 的原因,也是因为 Spark SQL. 想着也肯定可以快速玩转 Spark SQL, 然问题却越来越多。

L 盯着前两天做的草图,眼珠不停的在几个方框之间来回游离

image

“如果 Spark SQL 和 Hive 的 metaData store 通用一套,那么 Spark SQL 不是也知道了 Hdfs 上的文件存储块。这样一来,Spark SQL 的物理指令不也箭无虚发了”

“所以可以大胆的假设,Spark 在每一台 hadoop data node 上都部署了自己的 slave, 与 hadoop cluster 融为一体,再拥有了 hive 的 metadata store, 便可坐拥宝山了。Awesome, you are great, L! 本质上我要只要把这些统统都搭建在一个集群中,给 spark 配置一套 hive 的参数文件,那么整个体系就打通了。 ”

“说干就干吧!” L 猛地吞下两口咖啡,登录进了黑屏的 centos.

"java, hadoop/hive/spark home, 已经 配置好了,ssh 也设置完毕。centos00,centos01,centos02 已经同步完成。现在的问题是配置文件,问题不大。"

打开 freedoor, google 下来一堆配置参数,L 照着都填了进去。

“先开 hdfs, 再开 yarn, 看看结果如何”

image

image

"hadoop ready , awesome"

"看看 Hive "

image

"配上 hive-site.xml 给 spark "

image

"似乎一切也来得太容易了,登录 spark-sql 看看 sqoop 导入的数据"

image

“简直perfect, 没想到今天这么顺利。看来前几天的功夫没白费,犒劳下自己看场电影吧”

作为 85 前,80 后,都是看着港剧长大的,自然《无双》是不可不看的。加上 L 是个影迷,一星期不看一部电影,那都是感觉白活了。

"顺便把前些日子没看的补上吧,貌似铁血战士也不错"
当然,L 在潜意识中也想好了下一步,仅仅环境部署好了,没有上手的客户端去跑 SQL,去做数据展现也是无用,所以 Hue, Tableau 也得抓紧配上来,但眼下不急,该玩的时候还得玩。

L 用海明威在接受《巴黎评论》采访的语录安慰自己:

写书或者写故事的时候,每天早上天一亮我就动笔,没人打搅;写好的部分通读一下,知道接下来会发生什么,会写什么就停下来,直到第二天再去碰它。

“ 大作家都这么做,更何况我一小 IT ”

Spark SQL 与 Hive 的第一场会师相关推荐

  1. Hive on Spark和Spark sql on Hive,你能分的清楚么

    摘要:结构上Hive On Spark和SparkSQL都是一个翻译层,把一个SQL翻译成分布式可执行的Spark程序. 本文分享自华为云社区<Hive on Spark和Spark sql o ...

  2. spark sql读取hive底层_scala – 从一个hive表中读取并使用spark sql写回来

    我正在使用Spark SQL读取Hive表并将其分配给 scala val val x = sqlContext.sql("select * from some_table") 然 ...

  3. Spark SQL整合Hive

    Spark SQL官方释义 Spark SQL is Apache Spark's module for working with structured data. 一.使用Spark SQL访问Hi ...

  4. spark基础之Spark SQL和Hive的集成以及ThriftServer配置

    如果希望Maven编译Spark时支持Hive,需要给定-Phive -Phive-thriftserver.比如比如:mvn -Pyarn -Phadoop-2.6 -Dhadoop.version ...

  5. 使用Spark SQL读取Hive上的数据

    Spark SQL主要目的是使得用户可以在Spark上使用SQL,其数据源既可以是RDD,也可以是外部的数据源(比如Parquet.Hive.Json等).Spark SQL的其中一个分支就是Spar ...

  6. spark sql on hive初探

    前一段时间由于shark项目停止更新,sql on spark拆分为两个方向,一个是spark sql on hive,另一个是hive on spark.hive on spark达到可用状态估计还 ...

  7. spark sql读写hive的过程

    Spark sql读写hive需要hive相关的配置,所以一般将hive-site.xml文件放到spark的conf目录下.代码调用都是简单的,关键是源码分析过程,spark是如何与hive交互的. ...

  8. spark sql保存hive表时的压缩设置

    根据查看spark sql源码(3.1.3)的源码,找到hive表输出文件压缩格式的设定方式: 结论: 1. 如果hive输出表的属性里定义了压缩格式,则直接使用表定义的格式,具体属性为: 文件输出格 ...

  9. spark sql and hive 3g数据测试

    1:上传文件到hdfs [jifeng@feng01 hadoop]$ hadoop fs -mkdir /user/jifeng/fire 15/03/05 13:29:28 WARN util.N ...

最新文章

  1. 寒门出贵子,传递正能量
  2. oracle查询语句注意事项:
  3. 数据结构源码笔记(C语言):Huffman树字符编码
  4. 【技术综述】你真的了解图像分类吗?
  5. cf1208G Polygons 欧拉函数
  6. 教你培养成功的必备因素——强烈的企图心
  7. 【Git、GitHub、GitLab】五 git中裸仓库.git下的内容
  8. 浏览器对象模型(BOM)
  9. java 斗地主 案例
  10. Cmder的下载安装及使用
  11. Frame-relay帧中继网络配置手册
  12. win10计算机远程连接命令,详细教你win10设置远程桌面连接命令
  13. JSP中应用eWebEditor在线编辑器
  14. Oracle里default什么意思,ORACLE中默认值default的使用方法
  15. ssm毕设项目鲲龙装饰公司在线管理系统的设计与开发前台模块iub6h(java+VUE+Mybatis+Maven+Mysql+sprnig)
  16. Conlletion集合框架总结大全
  17. 大一计算机在线测试,计算机在线测试
  18. AI可能真的要代替插画师了……
  19. linux-tomcat下载安装(最新)
  20. 从VGA到GPU!细数二十年显卡发展历程

热门文章

  1. python 3.9安装mxnet
  2. Leaflet绘制新冠病毒全球及中国各省市数据分布
  3. 【操作系统】cache直接映射、组相连映射以及全相连映射
  4. java ftp byte下载_java ftp下载
  5. 原型和原型链面试题总结
  6. 知乎网友给CVPR颁“最差论文奖”:今天AI科研界和网红界差不多|湾区人工智能...
  7. Unreal的常见动画流程
  8. 大数据的未来是App 而非基础架构
  9. PPT配色简单美观的方法
  10. 在这次DTF中戴尔的数字化转型的观点,相信你不想错过