一、实验环境

  1. 虚拟机操作系统:
  • Ubuntu 18.04.6
  1. 虚拟机硬件配置:
  • CPU:4
  • 内存:4GB
  • 磁盘:50GB
  1. 虚拟机主机名/IP:
  • huyu/192.168.253.312

二、Spark配置环境截图

1. Spark若干关键配置文件的截图(Java, Scala, Python)

  • Java成功安装的截图如下:

  • SDKMAN成功安装的截图如下:

  • Scala成功安装的截图如下:

  • Python成功安装的截图如下:

2. Spark成功启动的截图(./spark-shell)

三、GMM执行结果截图

1. 任务提交以后,Spark执行过程的截图

2. 任务完成后,打印结果的截图

四、拓展实验:Scala GMM

1. 打印预测的结果

2. 查看模型相关参数

五、拓展实验:Spark独立部署模式(Standalone)

  1. 如下图所示,在Master虚拟机上执行jps命令可以看到Jps、Master、Worker三个进程,在Slave虚拟机上可以看到Jps、Worker两个进程,说明Spark集群启动成功。

  2. 执行结果如下图所示。

六、思考(注:画图说明,并分析原因)

Spark Local模式和Standalone模式执行同一任务时间比较(画图或列表)

模式 节点个数 开始时间 结束时间 执行时间/S 同一任务花费/S
Local 1 03:39:48 03:39:58 10 0.7928
Standalone 2 07:13:19 07:13:34 15 1.5729

理想情况下N台机器的执行时间为单机的1/N倍。对照自己的实验结果,并分析原因。

答:从理论上来讲,N台机器的执行时间为单机的1/N倍,但是从上述的实验结果中来看,Standalone模式下的执行时间反而更长一点。究其原因,是因为Standalone模式在Task调度方面通常比Local模式低效——因为Local模式下所有程序都运行在一个进程里面,因此大部分只涉及到了进程内通信,而Standalone模式下的通信需要借助网络。而且,就本次实验所使用的例子而言,T ask执行时间非常短,因此把Task调度引起的额外开销放大了。从上述分析来看,Standalone模式主要是针对无法在单机处理的大数据来设计的,而简单的程序很可能单机下反而更快。

Spark与大数据处理技术实践相关推荐

  1. Spark 大数据处理最佳实践

    开源大数据社区 & 阿里云 EMR 系列直播 第十一期 主题:Spark 大数据处理最佳实践 讲师:简锋,阿里云 EMR 数据开发平台 负责人 内容框架: 大数据概览 如何摆脱技术小白 Spa ...

  2. 《深入理解大数据:大数据处理与编程实践》一一1.2 大数据处理技术简介

    本节书摘来自华章计算机<深入理解大数据:大数据处理与编程实践>一书中的第1章,第1.2节,作者 主 编:黄宜华(南京大学)副主编:苗凯翔(英特尔公司),更多章节内容可以访问云栖社区&quo ...

  3. 纯前端大数据处理技术:葡萄城纯前端开发工具应用实践

    SpreadJS 是一款基于 HTML5 的纯 JavaScript 电子表格和网格功能控件,满足多平台.跨平台的表格数据处理和类 Excel 的表格应用开发. WijmoJS 前端开发工具包由多款纯 ...

  4. 《大数据处理技术Spark》--林子雨

    从林子雨老师的网课上学到的东西,林老师讲的特别清晰,记录一下,防止忘记. 以下是资料的链接: hadoop安装 课程 课件链接 其他资料: Spark-SQL之DataFrame操作大全 文章目录 1 ...

  5. 【大数据处理技术】第三篇 大数据处理与分析(暂停更新)

    大数据分析与处理 第7章 MapReduce 7.1 概述 7.1.1 分布式并行编程 7.1.2 MapReduce 模型简介 7.1.3 Map 和 Reduce 函数 7.2 Mapreduce ...

  6. 关于大数据技术的演讲_大数据核心技术介绍:大数据处理技术

    大数据之所以能够从概念走向落地,说到底还是因为大数据处理技术的成熟,面对海量的数据,在有限的硬件条件下,以低成本满足大数据处理的各种实际需求.那么具体处理大数据需要哪些技术,今天我们来简单介绍一下大数 ...

  7. 大数据处理技术之hadoop概览

    上两个图,可以对热到极致的大数据处理技术有一个基本的认识 大数据处理技术之演进 大数据处理技术之hadoop软件族: hadoop 1 hadoop2 相关软件下面简介: 1 Ambari:Hadoo ...

  8. 大数据处理技术导论(8) | Datawhale组队学习46期

    文章目录 10. 1 面试题 10.1.1 hive外部表和内部表的区别 10.1.2 简述对Hive桶的理解? 10.1.3 HBase和Hive的区别? 10.1.4 简述Spark宽窄依赖 10 ...

  9. NLPIR大数据处理技术实现多种类智能挖掘

    当今,信息技术为人类步入智能社会开启了大门,带动了互联网.物联网.电子商务.现代物流.网络金融等现代服务业发展,催生了车联网.智能电网.新能源.智能交通.智能城市.高端装备制造等新兴产业发展.现代信息 ...

最新文章

  1. 统计文件中每个单词出现的次数
  2. 模拟命令行自动输入的HTML,HTML5 命令行界面仿真和自动打字动画
  3. Visual Studio registry capture utility 已停止工作的解决办法
  4. es算法matlab编程,matlab练习程序(演化策略ES)
  5. leetcode跳跃游戏C语言,LeetCode:跳跃游戏
  6. undefined reference to Mat_VarCreate'
  7. virtual和override
  8. JS 函数中的call,apply
  9. Android笔记 android 7.0 动态申请权限
  10. Windows8-ConsumerPreview 虚拟机安装与体验
  11. 关于jquery中prev()和next()的用法
  12. snownlp 原理_使用snownlp进行情感分析
  13. 转载:h5标签中的embed标签
  14. MES生产制造执行系统与APS计划排产系统相关名词解释
  15. SQL零基础入门学习(四)
  16. word批量调整图片大小
  17. AT89C51单片机流水灯c语言程序及详解(扫盲教程)
  18. 淘宝/天猫盗图投诉之提交盗图申诉材料时,图片过大,如何缩小呢?
  19. Java 获取姓氏的笔画数
  20. 牛津书虫系列102册1.27G书虫配套6.8G MP3 百度网盘下载

热门文章

  1. 用turtle画奥运五环
  2. 七人成团即拼即赚七人拼团模式解析
  3. double转换为二进制
  4. 九章算术 九:《勾股》
  5. [原创] 4步骤,让你的皮肤晶莹剔透(2分钟学会)
  6. 未来的计算机也无法突破冯诺依曼结构,冯诺依曼计算机的基本原理
  7. 金属基功能单体/高折射率功能单体/特种丙烯酸酯单体/特种甲基丙烯酸酯单体
  8. 基础操作案例 :ArcGIS PRO基础教程(一)
  9. 钻石闪耀天体,但我还是忘不了-孔卡
  10. Exploratory Social Network Analysis with Pajek(第三版)8