pyspark dataframe基本用法

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on Fri Mar  8 19:10:57 2019@author: lg
"""from pyspark.sql import SparkSessionupper='/opt/spark/spark-2.4.0-bin-hadoop2.7/'
spark = SparkSession \.builder \.appName("Python Spark SQL basic example") \.config("spark.some.config.option", "some-value") \.getOrCreate()
# spark is an existing SparkSession
df = spark.read.json(upper+"examples/src/main/resources/people.json")
# Displays the content of the DataFrame to stdout
df.show()df.printSchema()df.select("name").show()df.select(df['name'], df['age'] + 1).show()
df.filter(df['age'] > 21).show()df.groupBy("age").count().show()# Register the DataFrame as a SQL temporary view
df.createOrReplaceTempView("people")sqlDF = spark.sql("SELECT * FROM people")
sqlDF.show()# Register the DataFrame as a global temporary view
df.createGlobalTempView("people")# Global temporary view is tied to a system preserved database `global_temp`
spark.sql("SELECT * FROM global_temp.people").show()# Global temporary view is cross-session
spark.newSession().sql("SELECT * FROM global_temp.people").show()
# +----+-------+
# | age|   name|
# +----+-------+
# |null|Michael|
# |  30|   Andy|
# |  19| Justin|
# +----+-------+spark.stop()

posted on 2019-03-08 19:24 luoganttcc 阅读(...) 评论(...) 编辑 收藏

pyspark dataframe基本用法相关推荐

  1. Pyspark:DataFrame的转化操作及行动操作

    Spark版本:V3.2.1 持续补充 序言   Spark DataFrame中的创建及常用的列操作可以参考博客:https://blog.csdn.net/yeshang_lady/article ...

  2. pyspark dataframe数据连接(join)、转化为pandas dataframe、基于多个字段删除冗余数据

    pyspark dataframe数据连接(join).转化为pandas dataframe.基于多个字段删除冗余数据 目录 pyspark dataframe数据连接(join).转化为panda ...

  3. pyspark.sql写入mysql_将pyspark dataframe写入MySQL数据库时出错

    我得到以下错误: "Caused by: java.lang.NoSuchMethodException: org.apache.spark.sql.execution.datasource ...

  4. pySpark | pySpark.Dataframe使用的坑 与 经历

    笔者最近在尝试使用PySpark,发现pyspark.dataframe跟pandas很像,但是数据操作的功能并不强大.由于,pyspark环境非自建,别家工程师也不让改,导致本来想pyspark环境 ...

  5. PySpark︱DataFrame操作指南:增/删/改/查/合并/统计与数据处理

    笔者最近需要使用pyspark进行数据整理,于是乎给自己整理一份使用指南.pyspark.dataframe跟pandas的差别还是挺大的. 文章目录 1.-------- 查 -------- -- ...

  6. pyspark dataframe生成一列常量数组

    pyspark dataframe生成一列常量数组 >>> from pyspark.sql.types import * >>> from pyspark.sql ...

  7. python的drop duplicates_pandas.DataFrame.drop_duplicates 用法介绍

    如下所示: DataFrame.drop_duplicates(subset=None, keep='first', inplace=False) subset考虑重复发生在哪一列,默认考虑所有列,就 ...

  8. PySpark:DataFrame及其常用列操作

    Spark版本:V3.2.1 1. DataFrame 虽然RDD是Spark最基本的抽象,但RDD的计算函数对Spark而言是不透明的.也就是说Spark并不知道你要在计算函数里干什么.无论你是要做 ...

  9. pyspark DataFrame 转RDD

    # -*- coding: utf-8 -*- from __future__ import print_function from pyspark.sql import SparkSession f ...

最新文章

  1. 罗美琪和春波特的故事...
  2. tomcat日志格式中的含义
  3. centos普通用户修改文件权限_用户管理(特殊权限、特殊属性、umask 默认权限 )
  4. : 无法获得锁 /var/lib/dpkg/lock-frontend - open (11: 资源暂时不可用) E: 无法获取 dpkg 前端锁 (/var/lib/dpkg/lock-fronte
  5. Host 'localhost' is not allowed to connect to this MySQL server
  6. 在线短视频缩略图剪切工具
  7. 用python绘制用例图源代码_Python设计模式 - UML - 用例图
  8. 数字抽奖小程序_两款火爆的抽奖小程序,最高抽2000元现金红包 亲测提现8.59元秒到...
  9. 震旦adc225打印机连接计算机,震旦ADC225打印机驱动
  10. 安卓系统的电视机_再送出一款智能电视、电视盒子、安卓手机通用TV直播软件...
  11. 无侵入式的mysql的binlog采集——maxwell采集binlog放到kafka中——成功!
  12. 2.1 八边形绘制
  13. 程序员的发展之道---海贼王(山治)
  14. Java接入支付宝支付(沙箱)
  15. 微信小程序面试题总结
  16. 工业手持PDA,你不得不知的重要性
  17. 初探微信小游戏(一)
  18. 函数式编程(一):概念及特点
  19. 有这么五种人不适合学编程!
  20. Win10笔记本WiFi连接选项不见了?

热门文章

  1. 你的专业知识并不等于你的能力——如何提升自我
  2. 在多台机器上搭建Hadoop的分布式环境
  3. VMware Workstation PRO 15 (已永久性激活)
  4. java基础-可执行jar包
  5. UML中几种类间关系:继承、实现、依赖、关联、聚合、组合的联系与区别
  6. 解决cisco路由器cpu占用率100%问题
  7. 程序是在RAM里还是flash里执行
  8. 如何利用python dbus来发送一个信号
  9. IDEA中Maven项目创建单元测试(JUnit4)
  10. bootstrap操作mysql数据库_前后端连接(BootStrap_MySQL_MyEclipse)