1 Tutorial

Spark本身是由scala语言编写,为了支持py对spark的支持呢就出现了pyspark。它依然可以通过导入Py4j进行RDDS等操作。

2 sparkContext

(1)sparkContext是spark运用的入口点,当我们运行spark的时候,驱动启动同时上下文也开始初始化。

(2)sparkContext使用py4j调用JVM然后创建javaSparkContext,默认为‘sc’,所以如果在shell下就直接用sc.方法就可以。如果你再创建上下文,将会报错cannot run multiple sparkContexts at once哦。结构如下所示

(3)那么一个sparkContext需要哪些内容呢,也就是初始化上下文的时候类有哪些参数呢。

 1 class pyspark.SparkContext (
 2    master = None,#我们需要连接的集群url
 3    appName = None, #工作项目名称
 4    sparkHome = None, #spark安装路径
 5    pyFiles = None,#一般为处理文件的路径
 6    environment = None, #worker节点的环境变量
 7    batchSize = 0,
 8    serializer = PickleSerializer(), #rdd序列化器
 9    conf = None,
10    gateway = None, #要么使用已经存在的JVM要么初始化一个新的JVM
11    jsc = None, #JavaSparkContext实例
12    profiler_cls = <class 'pyspark.profiler.BasicProfiler'>
13 )

尝试个例子:在pycharm中使用的哟

1 # coding:utf-8
2 from pyspark import SparkContext, SparkConf
3
4 logFile = "./files/test.txt"
5 sc = SparkContext()
6 logData = sc.textFile(logFile).cache()
7 numA = logData.filter(lambda s: 'a' in s).count()
8 numB = logData.filter(lambda s: 'a' in s).count()
9 print "Lines with a: %i, lines with b: %i" % (numA, numB)

加油!

转载于:https://www.cnblogs.com/lanjianhappy/p/8706478.html

3 pyspark学习---sparkContext概述相关推荐

  1. Pyspark学习笔记1——配置环境并计算pi测试

    Pyspark学习笔记(一) 环境搭建 在linux的CentOS 7.3中,首先要配置好JDK和python. 1.JDK和Python3配置 Jdk的下载地址,注意需要先点击同意条款的按钮.htt ...

  2. CTR/推荐系统中多任务/多目标学习应用概述文章汇总

    来源:CTR/推荐系统中多任务/多目标学习应用概述文章汇总 - 知乎 1.文章 吴海波:电商多目标优化小结 (2019.8-267) SunSuc:推荐系统中如何做多目标优化 (2019.12-163 ...

  3. 【Mybatis源码学习】概述

    [Mybatis源码学习]概述 1.怎样下载源码 1.1 下载地址 1.2 导入Idea 1.2.1 环境 1.2.2 部署与打包 2.源码架构 2.1 核心流程三大阶段 2.1.1 初始化 2.1. ...

  4. 多层感知机与深度学习算法概述

    多层感知机与深度学习算法概述 读研之前那会儿我们曾纠结于机器学习.深度学习.神经网络这些概念的异同.现在看来深度学习这一算法竟然容易让人和他的爸爸机器学习搞混-可见深度学习技术的影响力之大.深度学习, ...

  5. 【Scheme】Scheme 编程学习(一) —— 概述

    Scheme 编程学习(一) -- 概述 文章目录 Scheme 编程学习(一) -- 概述 概述 I - 语法简洁 1.1 - 算数运算 (arithmetic) 1.2 - 定义值 1.3 - 定 ...

  6. Pyspark学习笔记小总

    pyspark官方文档: https://spark.apache.org/docs/latest/api/python/index.html pyspark案例教程: https://sparkby ...

  7. 强化学习(part1)--概述

    学习笔记,仅供参考,有错必纠 文章目录 强化学习概述 简介 强化学习基本概念 强化学习概述 简介 学习系统没有像很多其它形式的机器学习方法一样被告知应该做出什么行为; 必须在尝试了之后才能发现哪些行为 ...

  8. 公司间交易学习笔记---概述

    本系列笔记是我在学习公司间交易的过程中的随笔,有些是我自己的想法,内容可能跟教程有所出入,由于对AX的应用部分理解得很浅,所以如果错误还请多多指教. 为了处理集团公司中各个分公司之间的交易,AX采用了 ...

  9. 大数据技术之_20_Elasticsearch学习_01_概述 + 快速入门 + Java API 操作 + 创建、删除索引 + 新建、搜索、更新删除文档 + 条件查询 + 映射操作

    大数据技术之_20_Elasticsearch学习_01 一 概述 1.1 什么是搜索? 1.2 如果用数据库做搜索会怎么样? 1.3 什么是全文检索和 Lucene? 1.4 什么是 Elastic ...

最新文章

  1. 重磅~ 深度学习中的图像分割:方法和应用
  2. linux网络工程师证书,网络工程师应该考什么证
  3. 为什么 UEFI 方式启动的 U 盘必须使用 FAT32 文件系统?
  4. 程序员面试系列——冒泡排序
  5. boost::coroutine2模块实现相同的边缘的测试程序
  6. python迭代器使用_Python迭代器的用法
  7. java输出1-100之间的全部素数
  8. Android的HTTP方式网络通信---HttpURLConnection
  9. 转 常量指针和指针常量的区别详解
  10. suse linux主机安全加固,suse linux操作系统安全加固
  11. 在虚拟机中安装Linux系统
  12. 实战技巧:网站死链检测及处理方法!
  13. 弘辽科技:限制店铺流量上涨的七大原因
  14. CentOS7搭建Docker私有仓库
  15. 用HTML和CSS做箭头
  16. 怎么用计算机画正弦函数图像,怎样用几何画板作正弦函数图象
  17. 【第九篇】商城系统-商城首页功能
  18. OpenCV-实现天空变换(图像分割)
  19. Connection has been closed BEFORE response异常
  20. python爬虫-初次接触

热门文章

  1. hbase hfile java_通过生成HFile导入HBase
  2. 第二轮冲次会议第三次
  3. Vue 进阶系列(一)之响应式原理及实现
  4. VS打包项目详细解析
  5. 个人信息保护呼吁“基本法”
  6. 关于iOS原生条形码扫描,你需要注意的两三事
  7. 面向过程和面向对象的本质理解
  8. IClient for js开发之地图的加载
  9. 数据绑定,vs2005
  10. Mybatis高级应用 多表关联查询