pyspark的用法
pyspark -h 查看用法
pyspark -h
Usage: pyspark [options]
常见的[options] 如下表:
输入pyspark -h 查看各参数的定义
查看sc变量
不指定--master时
pyspark(查看sc变量)sc
指定--master时
pyspark --master spark://node1:7077(查看sc变量)sc
用pyspark开发一个WordCount程序
输入下面的代码并运行(路径根据情况修改)。
在本地创建一个文件:/home/hadoop/252/input/data.txt (hadoop是本地用户名,252表示文件名,两个值请根据情况修改)。此路径也可以换为hdfs的路径。
data.txt文件中的内容是:
a good beginning is half the battlewhere there is a will there is a way
一行代码实现WordCount
sc.textFile("/home/hadoop/252/input/data.txt").flatMap(lambda line: line.split(" ")).map(lambda word : (word,1)).reduceByKey(lambda x,y : x+y).saveAsTextFile("/home/hadoop/252/output/0222")
多行代码实现WordCount(单步)
rdd1 = sc.textFile("/home/hadop/252/input/data.txt") #延时读取数据rdd1.collect() #查看结果(列表方式)
rdd2 = rdd1.flatMap(lambda line: line.split(" ")) #将每句话进行分词,再整合到一个列表
rdd2.collect() #查看结果(列表方式)
rdd3 = rdd2.map(lambda word : (word,1)) #每个单词记一次数,将单词和1构成元组
rdd3.collect() #查看结果(列表方式)
rdd4 = rdd3.reduceByKey(lambda x,y:x+y) #再将value进行累加,把相同的Key的value进行累加
rdd4.collect() #查看结果(列表方式)
rdd4.saveAsTextFile("/home/hadoop/252/output/0333") #保存到指定目录,此目录预先不能存在
最后,输出查看目录中的内容
转载于:https://www.cnblogs.com/jiajiaba/p/10581878.html
pyspark的用法相关推荐
- 【Pyspark教程】SQL、MLlib、Core等模块基础使用
文章目录 零.Spark基本原理 0.1 pyspark.sql 核心类 0.2 spark的基本概念 0.3 spark部署方式 0.4 RDD数据结构 (1)创建RDD的2种方式 (2)RDD操作 ...
- 基于PySpark和ALS算法实现基本的电影推荐流程
文章目录 1.PySpark简介 2.Pyspark接口用法 读取数据源 常用算子 完整的wordcount示例 3.基于PySpark和ALS的电影推荐流程 数据集背景 读取用户数据 训练模型 调用 ...
- pyspark dataframe基本用法
pyspark dataframe基本用法 #!/usr/bin/env python3 # -*- coding: utf-8 -*- """ Created on F ...
- PySpark reduce reduceByKey用法
用法 reduce:对rdd内部 元素 进行迭代操作 reduce方法 分区内和分区间调用相同的用户给定的函数; 先在每个分区内执行完用户给定的函数后,将每个分区的结果通过collect()方法统计到 ...
- when-otherwise for pyspark用法
pyspark when otherwise用法 描述:根据某一列的值,修改另一列的值 1.第一种思路,生成临时表,统计数量,用withcolumn 修改数据 2.第二种思路,调用pandas API ...
- pyspark及Spark报错问题汇总及某些函数用法。
此贴,主要记录本人在工作中遇到的某些报错问题,并提出自己的解决办法. 1. spark = SparkSession.builder() TypeError: 'Builder' object is ...
- Python大数据处理扩展库pySpark用法精要
Spark是一个开源的.通用的并行计算与分布式计算框架,其活跃度在Apache基金会所有开源项目中排第三位,最大特点是基于内存计算,适合迭代计算,兼容多种应用场景,同时还兼容Hadoop生态系统中的组 ...
- 数据分析工具篇pyspark应用详解——Pyspark实现PCA主成分
pyspark不是所有的代码都在spark环境应用,可以将一些主要的运算单元切到spark环境运算完成,然后输出运算结果到本地,最后在本地运行一些简单的数据处理逻辑. pyspark主要的功能为: 1 ...
- PySpark︱pyspark.ml 相关模型实践
文章目录 1 pyspark.ml MLP模型实践 模型存储与加载 9 spark.ml模型评估 MulticlassClassificationEvaluator 1 pyspark.ml MLP模 ...
- PySpark与GraphFrames的安装与使用
PySpark环境搭建 配置hadoop spark访问本地文件并执行运算时,可能会遇到权限问题或是dll错误.这是因为spark需要使用到Hadoop的winutils和hadoop.dll,首先我 ...
最新文章
- python any()和all()用法
- 微软黑屏补丁_慎装微软最新Win7补丁 部分用户更新补丁后无法关机
- 组织架构递归_映射架构和递归管理数据–第2部分
- juniper srx电话单通
- 错误C2398:从“double”转换为“float”需要缩小转换
- 京东方班单片机和c语言,pic单片机c语言程序设计14.pdf
- UINavigationController 多次连续 Push Pop 问题
- cfree——好用的c语言编辑器(附注册码)
- [书目20090216]高绩效人士的五项管理 李践作品
- 4.2-软件开发中,“思维导图”的作用与绘制方法介绍
- VC中如何重命名一个文件
- 全球及中国图书出版发行业营销策略与运行前景分析报告2022版
- 【时序】DCRNN:结合扩散卷积和GNN的用于交通流量预测的时空预测网络
- 第八届中国智慧城市建设技术研讨会总体日程安排
- 10003 微信登录失败 redirect_uri域名与后台配置不一致
- 浏览器与HTTP网络协议缓存原理分析 转自网界网:http://news.cnw.com.cn/news-china/htm2015/20151027_322909.shtml
- 安卓投屏助手(B1425)
- 前端面试题总结(包含答案解析)
- 饥荒搜索服务器未响应,饥荒联机版代码用不了?东西无法捡起,怪物打不了?试试这个方法...
- 【Xilinx】Spartan 7上手指南(ARTY S7开发板)
热门文章
- HDU1598 并查集+枚举
- 必备9种能力、9种手段、9种心态
- maven私服搭建及应用
- Windows安装MySql时出现“Failed to find valid data directory”的错误
- SQL server 2005 数据库只能用计算机名连接不能用IP地址
- 乔安监控电脑客户端_公司上网监控使用安装电脑监控软件?
- (day 42 - 字符翻转 ) 剑指 Offer 58 - II. 左旋转字符串
- (day 30 - 二叉树的先序遍历 )剑指 Offer 55 - I. 二叉树的深度
- (day 11 - 模拟)剑指 Offer 29. 顺时针打印矩阵
- springboot整合JDBC+Druid