集群上的python环境通常没有任务计算所需要的包,pyspark中的SparkContext提供pyFiles参数供我们导入第三包,这里的包可以是我们自己写的py文件,也可以是.whl文件,比如测试中的并行计算需要用到以下三个包:

将三个包直接打包压缩成 package.zip,记住一定要是zip格式

测试代码

from pyspark import SparkConf, SparkContext
import add
import mult
import traceback
import os
import pandas as pddef getResult(x):a=add.add(len(x),1)#并行计算中用到的自定义函数addb=mult.mult(a,2)#并行计算中用到的自定义函数multb=pd.to_datetime(b)#并行计算中用到pandasreturn bif __name__ == '__main__':os.environ["PYSPARK_PYTHON"]="/usr/bin/python3"#集群上pyspark的python版本指向python3appname = "test"master ="spark://XXX.XXX.XX.XX:XXXX" #"spark://host:port"spark_driver_host="XXX.XXX.XX.XX"#本地主机ippyFiles=["D:/pysparktest/package.zip"]#压缩的包的所在路径'''也可以这样:pyFiles=["D:/pysparktest/add.py","D:/pysparktest/mult.py","D:/pysparktest/pandas.py"]'''try:conf = SparkConf().setAppName(appname).setMaster(master).set("spark.driver.host",spark_driver_host )sc = SparkContext(conf=conf,pyFiles=pyFiles)words = sc.parallelize(["scala","java","hadoop","spark","akka","spark vs hadoop","pyspark","pyspark and spark"])result=words.map(lambda x:getResult(x)).collect()print(result)sc.stop()print('计算成功!')except:sc.stop()traceback.print_exc()#返回出错信息print('连接出错!')

运行结果

如果对你有帮助,请点下赞,予人玫瑰手有余香!

pyspark:导入第三方包相关推荐

  1. php导包,Thinkphp5.1 导入第三方包的问题

    一般刚接触tp5.1的,会很不适应,虽然版本号只是比5.0多了0.1,但是差别挺大,废弃了不少方法,官方的教程又很简单,很多东西没说全,在此鄙视一下框架作者,最起码体谅一下小白嘛,搞了好多天才把5.1 ...

  2. JAVA第三方包导入但找不到类,解决:导入第三方包报错java.lang.NoClassDefFoundError:XXX.XXX,XXXXXX...

    报错信息如下,主要是导入androidpn测试client端,结果报错 04-02 16:28:34.325: E/dalvikvm(485): Could not find class 'org.a ...

  3. python 导入第三方包_Python第三方包的导入

    我们知道,定义在环境变量PYTHONPATH里是可以直接用import导入的.下面我们来操作如何从非pythonpath目录导入第三方包或者自己定义的包. 假定我们的包有如下的目录结构:person ...

  4. python 导入第三方包_python 导入第三方包---

    python导入第三方包的方法: 最重要的四件事: 1 import sys sys.path.append("..") 2要引入的包所在文件添加:__init__.py 3 fr ...

  5. VsCode,GO语言,go mod 下导入第三方包飘红,但是可以执行

    问题:使用VScode编写的Go语言代码,开启了go mod,导入第三方包 import "github.com/360EntSecGroup-Skylar/excelize" 飘 ...

  6. python, pyspark导入自定义包

    python导入自定义包 在python中,py文件是一个模块,可以import导入. 如果想导入一系列功能的多个py文件,可以把这些文件放入一个包里,这个包里需要一个__init__.py文件.in ...

  7. Go 安装第三方包 与 GoLand 导入第三方包

    欢迎关注:程序员开发者社区 一 . 自动安装第三方包 通过 go get github.com/go-sql-driver/mysql 命令安装第三方类库 要启用 go get github.com/ ...

  8. 【Python打包成exe方法】——已解决导入第三方包无法打包的问题​

    前言 在我们写代码的过程中,我们开发的脚本一般都会用到一些第三方包,可能别人也需要用到我们的脚本,如果我们将我们的xx.py文件发给他,他是不能直接用的,他还需要安装python解释器,甚至还要安装我 ...

  9. linux如何导入安装包,linux下安装pip以及导入第三方包

    python有着强大的第三方库,数量不少且功能强大.python 最原始的办法是在官网上下载压缩包,解压,而后运行setup.py来进行安装.linux 显然这种方法很繁琐,不方便.所以有了包管理工具 ...

最新文章

  1. 干货 | 详解对象检测模型中的Anchors
  2. 零基础学UI设计,哪些知识需要重点学习?
  3. fft 重叠加法_FFT重叠相加法 参数如何定 h M?
  4. Python3.7模块之hashlib
  5. Vue脚手架搭建项目
  6. Array flat
  7. openssl学习笔记--CA及https网站证书配置
  8. 触发器、作业、序列、连接
  9. Android安全补丁程序下载,2017年一月win7安全补丁更新包官方下载-2017Win7安全更新补丁包64位下载-西西软件下载...
  10. 哪个计算机无法做到双屏显示,笔记本电脑怎么实现双屏显示不同的内容
  11. MobaXterm复制黏贴快捷键
  12. ActiveMQ not running
  13. Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering 论文阅读
  14. 我的学习笔记005--常见web前台技术之间的关系html,css,javascript...mxx
  15. labview问题集锦
  16. 【顺序表】顺序表定位
  17. 【python】png转jpg(pillow)
  18. 分享23种追女生的方式,教你同时把追MM和设计模式融汇贯通(上
  19. 在线教育平台架构设计
  20. 2023年全国职业院校技能大赛-信息安全管理与评估-赛题 1

热门文章

  1. matlab 音频fft,在wav文件和FFT的matlab中的Audioread
  2. 备忘4:爬取微博热门信息以及所有热门微博转发的用户信息
  3. Windows系统中vscode+MSVC的C++配置
  4. table属于html标记吗,table标签是什么意思
  5. 通过Debug命令行清除BIOS Setup密码
  6. 丘成桐大学生数学竞赛2014年分析与方程个人赛试题第一题另解
  7. html5类选择器用什么表示,HTML_揭秘常用的五类CSS选择器用法,有许多新手朋友不知道在什么 - phpStudy...
  8. 三元表达式(三目运算)
  9. 【物联网】三大厂家NB-IOT卡对比
  10. 【数据分析师-数据分析项目案例三】多因素房价预测分析案例