win7 + spark + hive + python集成

通过win7使用spark的pyspark访问hive

1、安装spark软件包

2、复制mysql驱动

3、复制hadoop配置目录到spark的conf下

4、复制hadoop和hive的配置文件到conf下

5.1、在pyspark脚本中添加HADOOP_CONF_DIR环境变量,指向hadoop配置目录

set HADOOP_CONF_DIR=D:\myprogram\spark-2.1.0-bin-hadoop2.7\conf\ha

5.2、以下也要配置

set HADOOP_CONF_DIR=D:\myprogram\spark-2.1.0-bin-hadoop2.7\conf\ha

6、修改hdfs目录权限

[centos@s101 ~]$ hdfs dfs -chmod -R 777 /user

7、在win7启动pyspark shell,连接到yarn,在bin下

pyspark --master yarn

8、测试

>>> rdd1 = sc.textFile("/user/centos/myspark/wc")>>> rdd1.flatMap(lambda e:e.split(" ")).map(lambda e:(e,1)).reduceByKey(lambda a,b:a+b).collect()

[(u'9', 3), (u'1', 2), (u'3', 3), (u'5', 4), (u'7', 3), (u'0', 2), (u'8', 3), (u'2', 3), (u'4', 3), (u'6', 4)]>>> for i in rdd1.flatMap(lambda e:e.split(" ")).map(lambda e:(e,1)).reduceByKey(lambda a,b:a+b).collect():print i

...

(u'1', 2)

(u'9', 3)

(u'3', 3)

(u'5', 4)

(u'7', 3)

(u'0', 2)

(u'8', 3)

(u'2', 3)

(u'4', 3)

(u'6', 4)>>> spark.sql("show databases").show()+------------+

|databaseName|

+------------+

| default|

| lx|

| udtf|

+------------+

IDEA中开发pyspark程序:前提是以上步骤完成

1、创建java或scala模块

2、进入项目结构(设置右侧)--左侧点modules--选myspark--右键add,python支持

点击python,指定解释器

3、在配置中指定环境变量

1、进入设置界面

2、如下配置

4、导入spark的python核心库

5、测试

安装:pip install py4j

#coding:utf-8#wordcountfrompyspark.context import SparkContextfrompyspark import SparkConf

conf= SparkConf().setMaster("local[*]").setAppName("")

sc= SparkContext(conf=conf)

rdd1= sc.textFile("/user/centos/myspark/wc")

rdd2= rdd1.flatMap(lambda s:s.split(" ")).map(lambda s:(s,1)).reduceByKey(lambda a,b:a+b)

lst=rdd2.collect()for i inlst:

print(i)

#sparksqlfrom pyspark.sql import *spark=SparkSession.builder.enableHiveSupport().getOrCreate()

arr= spark.sql("show databases").show()if __name__ == "__main__":

pass

pyspark 条件_pyspark相关推荐

  1. pyspark 条件_pyspark 日常整理

    1  联表 df1.join(df2,连接条件,连接方式) 如:df1.join(df2,[df1.a==df2.a], "inner").show() 连接方式:字符串类型, 如 ...

  2. pyspark 条件_删除pyspark中特定条件下的特定行

    我是火花的新手 . 我想删除一行使用spark sql.due来删除temptable中的不兼容性到目前为止我已经读过,操作删除像sql查询我需要永久保存pyspark中的表,这是hive表我猜 . ...

  3. pyspark 数据类型转换_PySpark之DataFrame的创建与转换

    简介 DataFrame结构代表的是数据的一个不可变分布式集合,其数据都被组织到有名字的列中,就像关系型数据库中的表一样.DataFrame 的目的就是要让对大型数据集的处理变得更简单,它让开发者可以 ...

  4. pyspark 数据类型转换_pyspark 数据类型及转换

    Spark 数据类型 Data Types Spark SQL and DataFrames support the following data types: Numeric types ByteT ...

  5. 独家 | 一文读懂PySpark数据框(附实例)

    作者:Kislay Keshari 翻译:季洋 校对:倪骁然 本文约1900字,建议阅读8分钟. 本文中我们将探讨数据框的概念,以及它们如何与PySpark一起帮助数据分析员来解读大数据集. 数据框是 ...

  6. python应用中调用spark_在python中使用pyspark读写Hive数据操作

    1.读Hive表数据 pyspark读取hive数据非常简单,因为它有专门的接口来读取,完全不需要像hbase那样,需要做很多配置,pyspark提供的操作hive的接口,使得程序可以直接使用SQL语 ...

  7. 【机器学习】3万字长文,PySpark入门级学习教程,框架思维

    为什么要学习Spark?作为数据从业者多年,个人觉得Spark已经越来越走进我们的日常工作了,无论是使用哪种编程语言,Python.Scala还是Java,都会或多或少接触到Spark,它可以让我们能 ...

  8. 【机器学习】在大数据上使用PySpark进行K-Means

    作者 | Angel Das 编译 | VK 来源 | Towards Data Science 如果你不熟悉K Means聚类,我建议你阅读下面的文章.本文主要研究数据并行和聚类,大数据上的K-Me ...

  9. 条件概率分布_条件概率

    条件概率分布 If you're currently in the job market or looking to switch careers, you've probably noticed a ...

最新文章

  1. No toolchains found in the NDK toolchains folder for ABI with prefix: mips64el-linux-android
  2. 【linux】NXP MFGTools工具配置文件详解
  3. 科研文献|中国的肠道微生物群及其与主食类型、民族和城市化的关系
  4. VS2010水晶报表的添加与使用
  5. EasyUI combobox
  6. 将某个字段改为不重复(unique)
  7. jquery添加div实现消息聊天框
  8. (递归)斐波那契数列
  9. Ubuntu提示软件更新
  10. 网站开发常用链接信息
  11. 成功解决./nvidia-installer: invalid option: “‐‐no‐opengl‐files“ ERROR: Invalid commandline, please run `
  12. 工厂模式(简单、普通、抽象)
  13. wincemobile的GPS开发
  14. linux上多个CUDA切换使用(小白教程)
  15. win7下vs2017安装奋斗纠结过程
  16. html页面设置过期时间,meta标签http-equiv=Expires属性写法及用法
  17. 52单片机四种方法实现流水灯
  18. mac上使用dbeaver设置字体大小
  19. vue项目对接钉钉企业内部H5微应用
  20. 通信原理仿真100例 | 多普勒频移的matlab仿真

热门文章

  1. 获取手机号码 和IMEI
  2. html语言教案模版,【精选】大班教案模板六篇
  3. 第一课时(下):破解基础之常见加壳程序特征
  4. 什么是无感电阻?无感电阻和普通电阻的区别
  5. Python 生成器(generator)详细总结+示例
  6. 她是真正的科学女皇!
  7. 鸿蒙版瑞幸咖啡开发日记(五)咖啡详情页逻辑实现
  8. vue中 process.env与process.VUE_CLI_SERVICE
  9. 使用Python计算fasta文件的序列长度
  10. Java生成文件hash值