2019独角兽企业重金招聘Python工程师标准>>>

Q1:新手学习spark如何入手才好?

  • 先学习Scala的内容,强烈推荐《快学Scala》;

  • 然后按照我们免费发布的“云计算分布式大数据Spark实战高手之路(共3本书)”循序渐进的学习即可,其中“云计算分布式大数据Spark实战高手之路---从零开始”涵盖了Spark1.0的所有主题:包括Spark集群的构建,Spark架构设计、Spark内核剖析、Shark、Spark SQL、Spark Streaming、图计算GraphX、机器学习、Spark on Yarn、JobServer等,为了方便大家学习Spark,网络发布版本采用图文并茂的方式发布,这样大家在阅读的时候就像家林在身边做演示和讲解一样,不亦乐哉!以Spark集群的搭建为例,  对于90%以上想学习Spark的人而言,如何构建Spark集群是其最大的难点之一,为了解决大家构建Spark集群的一切困难,家林在“云计算分布式大数据Spark实战高手之路---从零开始”的第一章节中把Spark集群的构建分为了四个步骤,每个步骤为一个小节,从零起步,不需要任何前置知识,涵盖操作的每一个细节,构建完整的Spark集群。

Q2:我想问,hdfs的namenode挂了,怎么处理?

  • 使用ZooKeeper;

  • 使用Mesos;

  • 使用Yarn;

Q3:用python和scala区别大吗?

  • 就代码的风格而言是不大的;

  • 世界上也有很多人使用python开发Spark程序;

  • 但是最为推荐的是Scala,因为Spark框架是用Scala编写的,在API方面对Scala的支持也是最好的;

Q4:对几百T的数据,现在SPARK支持得如何?

  • Spark能够非常好的处理几十T或者几百T的数据;

  • 正如Spark能够轻松处理PB级别的数据;

Q5:可以结果直接输出到关系型数据库吗?

  • 目前不可以;

  • 一般都是把结果直接输出到HDFS上;

  • 让后在采用Sqoop等工具把数据导入到Oracle、MySQL等数据库中;

Q6:SPARK环境需要哪些? 除了HDFS基础,有SPARK集成包么?

  • Spark的安装需要Hadoop的HDFS;

  • Spark有自己的集成包,但是依旧需要HDFS的配合;

  • 同时Spark也可以部署到亚马逊云上;

Q7:spark的缺点是什么?不适合做什么?

  • 目前主要的缺点是对数据细粒度的支持不够好;

Q8:spark sql可以代替hive和hbase吗?

  • Spark SQL可以取代Hive;

  • Spark SQL可以完成HBase的大部分功能;

  • Spark Streaming配合Spark SQL可以取代HBase;

Q9:没有java基础可否直接看scala语言?

  • 可以直接看Scala语言;

转载于:https://my.oschina.net/u/1791057/blog/294568

Spark技术互动问答分享相关推荐

  1. 中国Spark技术峰会(上):Spark与生态圈中组件结合实战

    5月13日-15日,由全球最大中文IT社区CSDN主办的"2016中国云计算技术大会"(Cloud Computing Technology Conference 2016,简称C ...

  2. 墨天轮社区专属福利:与作者互动问答,民工哥全新力作《Linux系统运维指南:从入门到企业实战》送上!...

    墨墨导读:最近人民邮电出版社出版了新书<Linux系统运维指南:从入门到企业实战>,本书是同名经典畅销书的升级版,基于MySQL 5.7版本进行了内容改写,同时穿插介绍了MySQL 8.0 ...

  3. 3位Committer,12场国内外技术实践,2016中国Spark技术峰会议题详解

    源于2014年,由CSDN主办的中国Spark技术峰会已成功举办两届,而到了2016年,峰会更得到了Spark护航者Databricks的支持,所有议题均由Databricks联合创始人兼首席架构师R ...

  4. 与 Hadoop 对比,如何看待 Spark 技术

    http://www.zhihu.com/question/26568496 与 Hadoop 对比,如何看待 Spark 技术? 最近公司邀请来王家林老师来做培训,其浮夸的授课方式略接受不了.其强烈 ...

  5. 《spark技术应用》课程期末考试大作业报告,使用eclipse完成求top值、文件排序、二次排序三个程序的个性化开发。

    ​​​​目录 一.选题的目的及要求... 4 二.设计思路... 4 三.主要内容及关键技术.. 5 四.制作步骤... 5 1.准备工作... 5 1.1在VMware中安装一台Ubuntu64位系 ...

  6. Spark技术在京东智能供应链预测的应用

    Spark技术在京东智能供应链预测的应用 原创 2017-03-06 杨冬越 郭景瞻 大数据杂谈 大家晚上好,做一个简单的介绍:我叫郭景瞻,来自京东,著有<图解Spark:核心技术与案例实战&g ...

  7. 2016中国spark技术峰会见闻摘要

    5-15号笔者参加了2016中国spark技术峰会,各演讲嘉宾分享了很多spark实践经验,本文整理了笔者印象比较深的内容,ppt详见峰会ppt <spark and yarn :better ...

  8. 大数据改变世界,Spark改变大数据——中国Spark技术峰会见闻

    作者:张相於,当当网推荐系统开发经理 责编:周建丁(zhoujd@csdn.net) 笔者5月15日参加了"中国云计算技术大会"中的"中国Spark技术峰会", ...

  9. c语言姚英语好吗,姚老师互动问答会 # 问题006:根据种子法则,我要学好英语就要先去教别人英语,那我自己还要不要继续学习呢?...

    姚老师互动问答会︳No.2 学友提问: 常听人说:学英语最好的方式就是要自己多听.多说,多学习. 姚老师: 谢谢这位同学的问题,在回答这个问题之前我想先跟大家分享一个故事,这个故事叫阿司匹林片的故事. ...

  10. Python常用6个技术网站汇总分享!

    Python是一门面向对象的编程语言,它具有丰富和强大的库,能够把用其他语言编写的各种模块轻松地联结在一起,因此也常被称为"胶水语言".Python技术会随着互联网的不断发展一直迭 ...

最新文章

  1. android toast通知关闭,屏蔽系统通知,Toast无法显示的解决方案 v2.0.0
  2. asterisk使用MYSQL认证的配置方法
  3. 第1章 ssh命令和SSH服务详解
  4. carla安装之clang版本问题
  5. 一线互联网大厂中高级Java面试真题收录!面试必会
  6. jdk优先级队列是如何实现的
  7. 最全面、最详细web前端面试题及答案总结
  8. java 获取各省市的区号_城市查区号示例代码
  9. 鼠标滑轮成了页面缩放的解决方法
  10. 硬盘克隆 计算机更换硬盘,换硬盘数据怎么办 看一招本地磁盘对拷
  11. 你知道各调的特点吗?
  12. 应试教育---幸好我们还有一张考卷
  13. 九月英语总结——不同凡响
  14. android canvans 画3d,Canvas 3D梯形
  15. 协同办公系统(OA系统)选型对比参考
  16. 如何获取自己QQ里面的所有qq好友号码
  17. 如何开发自动生产爆款抖音视频机器人
  18. pdf如何合并成一页,快速合并就靠它!
  19. 提升计算机性能 操作系统原理角度,浅析计算机操作系统原理
  20. MHDD使用教程图解二

热门文章

  1. Oracle 11g Release 1 (11.1)——自动存储管理(Automatic Storage Management,ASM)
  2. 参加了 InfoQ 的虚拟座谈会
  3. java读取资源文件(Properties)
  4. 运行出现Server Tomcat v8.5 Server at localhost failed to start.和A child container failed during start...
  5. 【[TJOI2014]上升子序列】
  6. 【旧文章搬运】从XP到Win7看Windows对象管理的变化(概述)
  7. 【学习】js学习笔记---数组对象
  8. [BZOJ1009]GT考试
  9. 付费用户金字塔模型在充值消费活动前后的显著差异解读
  10. 硬盘安装Windows需要了解的DOS命令