pyspark -h 查看用法

pyspark -h

Usage: pyspark [options]

常见的[options] 如下表：

输入pyspark -h 查看各参数的定义

查看sc变量

不指定--master时
```
  pyspark(查看sc变量)sc
```

指定--master时

  pyspark --master spark://node1:7077(查看sc变量)sc

用pyspark开发一个WordCount程序

输入下面的代码并运行（路径根据情况修改）。

在本地创建一个文件：/home/hadoop/252/input/data.txt (hadoop是本地用户名，252表示文件名，两个值请根据情况修改)。此路径也可以换为hdfs的路径。

data.txt文件中的内容是：
```
  a good beginning is half the battlewhere there is a will there is a way
```

一行代码实现WordCount

  sc.textFile("/home/hadoop/252/input/data.txt").flatMap(lambda line: line.split(" ")).map(lambda word : (word,1)).reduceByKey(lambda x,y : x+y).saveAsTextFile("/home/hadoop/252/output/0222")

多行代码实现WordCount（单步）

  rdd1 = sc.textFile("/home/hadop/252/input/data.txt")  #延时读取数据rdd1.collect()  #查看结果(列表方式)

rdd2 = rdd1.flatMap(lambda line: line.split(" "))  #将每句话进行分词，再整合到一个列表
rdd2.collect()  #查看结果(列表方式)

rdd3 = rdd2.map(lambda word : (word,1))  #每个单词记一次数，将单词和1构成元组
rdd3.collect()  #查看结果(列表方式)

rdd4 = rdd3.reduceByKey(lambda x,y:x+y)  #再将value进行累加，把相同的Key的value进行累加
rdd4.collect()  #查看结果(列表方式)

rdd4.saveAsTextFile("/home/hadoop/252/output/0333")  #保存到指定目录，此目录预先不能存在

最后，输出查看目录中的内容

转载于:https://www.cnblogs.com/jiajiaba/p/10581878.html

pyspark的用法相关推荐

【Pyspark教程】SQL、MLlib、Core等模块基础使用
文章目录零.Spark基本原理 0.1 pyspark.sql 核心类 0.2 spark的基本概念 0.3 spark部署方式 0.4 RDD数据结构 (1)创建RDD的2种方式 (2)RDD操作 ...
基于PySpark和ALS算法实现基本的电影推荐流程
文章目录 1.PySpark简介 2.Pyspark接口用法读取数据源常用算子完整的wordcount示例 3.基于PySpark和ALS的电影推荐流程数据集背景读取用户数据训练模型调用 ...
pyspark dataframe基本用法
pyspark dataframe基本用法 #!/usr/bin/env python3 # -*- coding: utf-8 -*- """ Created on F ...
PySpark reduce reduceByKey用法
用法 reduce:对rdd内部元素进行迭代操作 reduce方法分区内和分区间调用相同的用户给定的函数; 先在每个分区内执行完用户给定的函数后,将每个分区的结果通过collect()方法统计到 ...
when-otherwise for pyspark用法
pyspark when otherwise用法描述:根据某一列的值,修改另一列的值 1.第一种思路,生成临时表,统计数量,用withcolumn 修改数据 2.第二种思路,调用pandas API ...
pyspark及Spark报错问题汇总及某些函数用法。
此贴,主要记录本人在工作中遇到的某些报错问题,并提出自己的解决办法. 1. spark = SparkSession.builder() TypeError: 'Builder' object is ...
Python大数据处理扩展库pySpark用法精要
Spark是一个开源的.通用的并行计算与分布式计算框架,其活跃度在Apache基金会所有开源项目中排第三位,最大特点是基于内存计算,适合迭代计算,兼容多种应用场景,同时还兼容Hadoop生态系统中的组 ...
数据分析工具篇pyspark应用详解——Pyspark实现PCA主成分
pyspark不是所有的代码都在spark环境应用,可以将一些主要的运算单元切到spark环境运算完成,然后输出运算结果到本地,最后在本地运行一些简单的数据处理逻辑. pyspark主要的功能为: 1 ...
PySpark︱pyspark.ml 相关模型实践
文章目录 1 pyspark.ml MLP模型实践模型存储与加载 9 spark.ml模型评估 MulticlassClassificationEvaluator 1 pyspark.ml MLP模 ...
PySpark与GraphFrames的安装与使用
PySpark环境搭建配置hadoop spark访问本地文件并执行运算时,可能会遇到权限问题或是dll错误.这是因为spark需要使用到Hadoop的winutils和hadoop.dll,首先我 ...

pyspark的用法

pyspark -h 查看用法

查看sc变量

用pyspark开发一个WordCount程序

pyspark的用法相关推荐

最新文章

热门文章