python编程快速上手(持续更新中…)

推荐系统基础


文章目录

  • python编程快速上手(持续更新中…)
    • 推荐系统基础
    • 一、目标
    • 二、spark 安装部署
      • 1.下载
      • 2.安装
      • 3.启动和使用
    • 三、spark 集群相关概念
      • 1.spark集群架构(Standalone模式)
      • 2.Spark作业相关概念
      • 3.Spark作业图

一、目标

  • 知道Spark的安装过程,知道standalone启动模式
  • 知道spark作业提交集群的过程

二、spark 安装部署

1.下载

spark: 版本spark2.2.0, 下载地址:http://archive.apache.org/dist/spark/spark-2.2.0/
,下载spark-2.2.0-bin-hadoop2.6.tgz

2.安装

a.spark解压到/opt下,并分别重名为scala2118,spark22,然后配置环境变量,具体如下:

tar -zxvf spark-2.2.0-bin-hadoop2.6.tgz -C /opt/

cd /opt

mv spark-2.2.0-bin-hadoop2.6/ spark

b.配置spark环境变量spark-env.sh(需要将spark-env.sh.template重命名)

cd spark/conf

mv spark-env.sh.template spark-env.sh

vi spark-env.sh

export SPARK_HOME=/opt/spark
export JAVA_HOME=/opt/jdk8
export HADOOP_HOME=/opt/hadoop
export YARN_HOME=/opt/hadoop
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
export HADOOP_CONF_DIR=$YARN_HOME/etc/hadoop
export SPARK_MASTER_IP=172.18.2.2
export SPARK_LIBRARY_PATH=$HADOOP_HOME/lib/native
export SPARK_LOCAL_DIRS=/opt/spark/tmp

c.修改slaves配置文件

# 步骤一:将slaves.template这个文件重新命名为slaves:
mv slaves.template slaves# 步骤二:修改slaves配置文件中的内容,在里面添加worker节点的地址
# 配置从节点的地址(默认)
localhost

d.配置Spark环境变量
打开/etc/profile,在该文件中添加如下内容:

#配置Spark环境变量
export SPARK_HOME=/opt/modules/spark-2.2.0
export PATH=$SPARK_HOME/bin:$PATH

让配置生效:

source /etc/profile

3.启动和使用

a.进入到$SPARK_HOME/sbin目录

  • 启动

./start-all.sh

  • jps查看进程

60056 Master
60137 Worker

  • 通过SPARK WEB UI查看Spark集群及Spark

http://172.18.2.2:8080/ 监控Spark集群
http://172.18.2.2:4040/ 监控Spark Job

  • 关闭

./stop-all.sh

b.进入到$SPARK_HOME/bin目录

spark-shell

三、spark 集群相关概念

1.spark集群架构(Standalone模式)

2.Spark作业相关概念

  • Master

    • 主节点
    • 负责Worker状态管理
    • 响应client提交来的Application
  • Worker
    • 管理自身资源
    • 运行Applicatoib对应的task
    • 启动图driver执行application
  • Excutor
    • task最终执行的容器
  • Application
    • spark作业
  • Diver
    • 作业提交给spark的时候先由一个Worker启动一个Driver来分析Application
    • DAGScheduler
      • tash划分交给TaskScheduler
      • 作用可以划分多个stage
      • 每一个stage根据partion的 数量觉得由多个task
  • TaskScheduler
    • 将task调度到对应的Excutors上执行
  • Clent

3.Spark作业图


8.1.CentOS7安装Spark安装部署及standalone模式介绍相关推荐

  1. linux安装spark安装(详解版-单机/伪分布)

    spark安装 前提条件 至少已经安装好Hadoop 优质:Hadoop+Hbase+Hive hadoop单机/伪分布: https://blog.csdn.net/qq_46138492/arti ...

  2. Spark On K8S(Standalone模式部署)

    Spark on K8S 的几种模式 Standalone:在 K8S 启动一个长期运行的集群,所有 Job 都通过 spark-submit 向这个集群提交 Kubernetes Native:通过 ...

  3. Spark(5)——standalone模式

    在spark中,也有自己的一套集群模式,启动方式如下: 到spark的sbin目录下完成启动: -h后面跟自己的master的ip地址 再开启slave: 后面填写master的ip地址并跟上端口号. ...

  4. Spark- Linux下安装Spark

    Spark- Linux下安装Spark 前期部署 1.JDK安装,配置PATH 可以参考之前配置hadoop等配置 2.下载spark-1.6.1-bin-hadoop2.6.tgz,并上传到服务器 ...

  5. 【Ubuntu-大数据】spark安装配置

    这里写目录: 一.(实现需要先安装好Hadoop3) 1.官网下载:3版本 2.单机模式 安装配置: 3.在集群上运行Spark应用程序 待更新... 参考的 文章: http://dblab.xmu ...

  6. 通过MAVEN安装Spark、 EclipseIDE

    Spark Installation with Maven & Eclipse IDE 文章目录 Spark Installation with Maven & Eclipse IDE ...

  7. SS00004.flink——|HadoopFlink计算领域锋利的武器.v04|——|Flink.v01|StandAlone模式部署|

    一.Flink安装和部署 ### --- Flink支持多种安装模式~~~ local(本地):单机模式,一般本地开发调试使用 ~~~ StandAlone 独立模式:Flink自带集群,自己管理资源 ...

  8. 深入理解Spark 2.1 Core (五):Standalone模式运行的原理与源码分析

    概述 前几篇博文都在介绍Spark的调度,这篇博文我们从更加宏观的调度看Spark,讲讲Spark的部署模式.Spark部署模式分以下几种: local 模式 local-cluster 模式 Sta ...

  9. CentOS7下Spark集群的安装

    从物理部署层面上来看,Spark主要分为两种类型的节点,Master节点和Worker节点,Master节点主要运行集群管理器的中心化部分,所承载的作用是分配Application到Worker节点, ...

  10. 最新小白详细描述在centos7.5上安装python3并使用Nginx+virtualenv+supervisor来部署tornado项目(整理集合结合实际)系列2

    4.安装nginx 安装gcc gcc是用来编译下载下来的nginx源码,安装gcc和c++编译器(当然以下都是在切换到root用户下的) yum -y install gcc  gcc-c++ ce ...

最新文章

  1. 【Linux】一步一步学Linux——sum命令(234)
  2. Java中数组的赋值方式
  3. linux中sybase删除数据库,Linux_Sybase ASE数据库的常见问题解答,1 数据库占用磁盘空间的形式 - phpStudy...
  4. pytorch从dataframe中提取信息,变为可训练的tensor
  5. 一张图让你读懂鹅厂的物联网框架
  6. “工业4.0”下的可视化工厂建设方案 1
  7. python3 常见命令
  8. Trick (八)——list 模拟 stack(Python)
  9. mono webservice问题请教
  10. Jenkins集群搭建
  11. html用锚点回到顶部代码,纯css实现回到顶部-jq回到顶部方法
  12. LPC1788入门手记
  13. 国内使用bing国际版(非国内国际切换版本)
  14. 数据介绍与描述性分析——以NBA球员薪酬影响因素分析为例
  15. 【知识分享】C语言的设计模式——责任链、观察者
  16. 产品营销|一套方法教你如何策划一场成功的产品营销推广活动
  17. Ubuntu安装及常用软件安装
  18. ps多边形套索工具按过delete以后点下一个点点不出来
  19. 组合排序题目汇总(排列组合、卡特兰数和递归思想)
  20. python---控制时间的函数time()

热门文章

  1. [转]计算机四级网络工程师思维导图--常考重点
  2. 某电商销售数据分析 SQL 面试题解析
  3. 如何激活win10系统?小白们无需到处问东问西了!
  4. 全国大学生电子设计竞赛(五)--开关电源的设计
  5. Win10中卸载IE11
  6. 2021 浏览器edge改 ie11 模式
  7. 机器学习——人工神经网络(NN)
  8. 讲座笔记 | 批判性思维和论文写作
  9. 京东把 Elasticsearch 到底用的有多牛?日均5亿订单查询完美解决!
  10. 全国离线地图矢量地图矢量数据点线面数据