pyspark -h 查看用法

pyspark -h

Usage: pyspark [options]

常见的[options] 如下表:

输入pyspark -h 查看各参数的定义

查看sc变量

  • 不指定--master时

      pyspark(查看sc变量)sc

  • 指定--master时

      pyspark --master spark://node1:7077(查看sc变量)sc

用pyspark开发一个WordCount程序

输入下面的代码并运行(路径根据情况修改)。

  • 在本地创建一个文件:/home/hadoop/252/input/data.txt (hadoop是本地用户名,252表示文件名,两个值请根据情况修改)。此路径也可以换为hdfs的路径。

    data.txt文件中的内容是:

      a good beginning is half the battlewhere there is a will there is a way
  • 一行代码实现WordCount

      sc.textFile("/home/hadoop/252/input/data.txt").flatMap(lambda line: line.split(" ")).map(lambda word : (word,1)).reduceByKey(lambda x,y : x+y).saveAsTextFile("/home/hadoop/252/output/0222")

  • 多行代码实现WordCount(单步)

      rdd1 = sc.textFile("/home/hadop/252/input/data.txt")  #延时读取数据rdd1.collect()  #查看结果(列表方式)

rdd2 = rdd1.flatMap(lambda line: line.split(" "))  #将每句话进行分词,再整合到一个列表
rdd2.collect()  #查看结果(列表方式)

rdd3 = rdd2.map(lambda word : (word,1))  #每个单词记一次数,将单词和1构成元组
rdd3.collect()  #查看结果(列表方式)

rdd4 = rdd3.reduceByKey(lambda x,y:x+y)  #再将value进行累加,把相同的Key的value进行累加
rdd4.collect()  #查看结果(列表方式)

rdd4.saveAsTextFile("/home/hadoop/252/output/0333")  #保存到指定目录,此目录预先不能存在

最后,输出查看目录中的内容

转载于:https://www.cnblogs.com/jiajiaba/p/10581878.html

pyspark的用法相关推荐

  1. 【Pyspark教程】SQL、MLlib、Core等模块基础使用

    文章目录 零.Spark基本原理 0.1 pyspark.sql 核心类 0.2 spark的基本概念 0.3 spark部署方式 0.4 RDD数据结构 (1)创建RDD的2种方式 (2)RDD操作 ...

  2. 基于PySpark和ALS算法实现基本的电影推荐流程

    文章目录 1.PySpark简介 2.Pyspark接口用法 读取数据源 常用算子 完整的wordcount示例 3.基于PySpark和ALS的电影推荐流程 数据集背景 读取用户数据 训练模型 调用 ...

  3. pyspark dataframe基本用法

    pyspark dataframe基本用法 #!/usr/bin/env python3 # -*- coding: utf-8 -*- """ Created on F ...

  4. PySpark reduce reduceByKey用法

    用法 reduce:对rdd内部 元素 进行迭代操作 reduce方法 分区内和分区间调用相同的用户给定的函数; 先在每个分区内执行完用户给定的函数后,将每个分区的结果通过collect()方法统计到 ...

  5. when-otherwise for pyspark用法

    pyspark when otherwise用法 描述:根据某一列的值,修改另一列的值 1.第一种思路,生成临时表,统计数量,用withcolumn 修改数据 2.第二种思路,调用pandas API ...

  6. pyspark及Spark报错问题汇总及某些函数用法。

    此贴,主要记录本人在工作中遇到的某些报错问题,并提出自己的解决办法. 1. spark = SparkSession.builder()  TypeError: 'Builder' object is ...

  7. Python大数据处理扩展库pySpark用法精要

    Spark是一个开源的.通用的并行计算与分布式计算框架,其活跃度在Apache基金会所有开源项目中排第三位,最大特点是基于内存计算,适合迭代计算,兼容多种应用场景,同时还兼容Hadoop生态系统中的组 ...

  8. 数据分析工具篇pyspark应用详解——Pyspark实现PCA主成分

    pyspark不是所有的代码都在spark环境应用,可以将一些主要的运算单元切到spark环境运算完成,然后输出运算结果到本地,最后在本地运行一些简单的数据处理逻辑. pyspark主要的功能为: 1 ...

  9. PySpark︱pyspark.ml 相关模型实践

    文章目录 1 pyspark.ml MLP模型实践 模型存储与加载 9 spark.ml模型评估 MulticlassClassificationEvaluator 1 pyspark.ml MLP模 ...

  10. PySpark与GraphFrames的安装与使用

    PySpark环境搭建 配置hadoop spark访问本地文件并执行运算时,可能会遇到权限问题或是dll错误.这是因为spark需要使用到Hadoop的winutils和hadoop.dll,首先我 ...

最新文章

  1. python any()和all()用法
  2. 微软黑屏补丁_慎装微软最新Win7补丁 部分用户更新补丁后无法关机
  3. 组织架构递归_映射架构和递归管理数据–第2部分
  4. juniper srx电话单通
  5. 错误C2398:从“double”转换为“float”需要缩小转换
  6. 京东方班单片机和c语言,pic单片机c语言程序设计14.pdf
  7. UINavigationController 多次连续 Push Pop 问题
  8. cfree——好用的c语言编辑器(附注册码)
  9. [书目20090216]高绩效人士的五项管理 李践作品
  10. 4.2-软件开发中,“思维导图”的作用与绘制方法介绍
  11. VC中如何重命名一个文件
  12. 全球及中国图书出版发行业营销策略与运行前景分析报告2022版
  13. 【时序】DCRNN:结合扩散卷积和GNN的用于交通流量预测的时空预测网络
  14. 第八届中国智慧城市建设技术研讨会总体日程安排
  15. 10003 微信登录失败 redirect_uri域名与后台配置不一致
  16. 浏览器与HTTP网络协议缓存原理分析 转自网界网:http://news.cnw.com.cn/news-china/htm2015/20151027_322909.shtml
  17. 安卓投屏助手(B1425)
  18. 前端面试题总结(包含答案解析)
  19. 饥荒搜索服务器未响应,饥荒联机版代码用不了?东西无法捡起,怪物打不了?试试这个方法...
  20. 【Xilinx】Spartan 7上手指南(ARTY S7开发板)

热门文章

  1. HDU1598 并查集+枚举
  2. 必备9种能力、9种手段、9种心态
  3. maven私服搭建及应用
  4. Windows安装MySql时出现“Failed to find valid data directory”的错误
  5. SQL server 2005 数据库只能用计算机名连接不能用IP地址
  6. 乔安监控电脑客户端_公司上网监控使用安装电脑监控软件?
  7. (day 42 - 字符翻转 ) 剑指 Offer 58 - II. 左旋转字符串
  8. (day 30 - 二叉树的先序遍历 )剑指 Offer 55 - I. 二叉树的深度
  9. (day 11 - 模拟)剑指 Offer 29. 顺时针打印矩阵
  10. springboot整合JDBC+Druid