Spark与Pandas中DataFrame的详细对比
项目github地址:bitcarmanlee easy-algorithm-interview-and-practice
欢迎大家star,留言,一起学习进步
Pandas | Spark | |
工作方式 |
单机single machine tool,没有并行机制parallelism 不支持Hadoop,处理大量数据有瓶颈 |
分布式并行计算框架,内建并行机制parallelism,所有的数据和操作自动并行分布在各个集群结点上。以处理in-memory数据的方式处理distributed数据。 支持Hadoop,能处理大量数据 |
延迟机制 | not lazy-evaluated | lazy-evaluated |
内存缓存 | 单机缓存 | persist() or cache()将转换的RDDs保存在内存 |
DataFrame可变性 | Pandas中DataFrame是可变的 | Spark中RDDs是不可变的,因此DataFrame也是不可变的 |
创建 | 从spark_df转换:pandas_df = spark_df.toPandas() |
从pandas_df转换:spark_df = SQLContext.createDataFrame(pandas_df) 另外,createDataFrame支持从list转换spark_df,其中list元素可以为tuple,dict,rdd |
list,dict,ndarray转换 | 已有的RDDs转换 | |
CSV数据集读取 | 结构化数据文件读取 | |
HDF5读取 | JSON数据集读取 | |
EXCEL读取 | Hive表读取 | |
外部数据库读取 | ||
index索引 | 自动创建 | 没有index索引,若需要需要额外创建该列 |
行结构 | Series结构,属于Pandas DataFrame结构 | Row结构,属于Spark DataFrame结构 |
列结构 | Series结构,属于Pandas DataFrame结构 | Column结构,属于Spark DataFrame结构,如:DataFrame[name: string] |
列名称 | 不允许重名 |
允许重名 修改列名采用alias方法 |
列添加 | df[“xx”] = 0 |
df.withColumn(“xx”, 0).show() 会报错 from pyspark.sql import functions df.withColumn(“xx”, functions.lit(0)).show() |
列修改 | 原来有df[“xx”]列,df[“xx”] = 1 | 原来有df[“xx”]列,df.withColumn(“xx”, 1).show() |
显示 |
df 不输出具体内容,输出具体内容用show方法 输出形式:DataFrame[age: bigint, name: string] |
|
df 输出具体内容 | df.show() 输出具体内容 | |
没有树结构输出形式 | 以树的形式打印概要:df.printSchema() | |
df.collect() | ||
排序 | df.sort_index() 按轴进行排序 | |
df.sort() 在列中按值进行排序 | df.sort() 在列中按值进行排序 | |
选择或切片 | df.name 输出具体内容 |
df[] 不输出具体内容,输出具体内容用show方法 df[“name”] 不输出具体内容,输出具体内容用show方法 |
df[] 输出具体内容, df[“name”] 输出具体内容 |
df.select() 选择一列或多列 df.select(“name”) 切片 df.select(df[‘name’], df[‘age’]+1) |
|
df[0] df.ix[0] |
df.first() | |
df.head(2) | df.head(2)或者df.take(2) | |
df.tail(2) | ||
切片 df.ix[:3]或者df.ix[:”xx”]或者df[:”xx”] | ||
df.loc[] 通过标签进行选择 | ||
df.iloc[] 通过位置进行选择 | ||
过滤 | df[df[‘age’]>21] | df.filter(df[‘age’]>21) 或者 df.where(df[‘age’]>21) |
整合 |
df.groupby(“age”) df.groupby(“A”).avg(“B”) |
df.groupBy(“age”) df.groupBy(“A”).avg(“B”).show() 应用单个函数 from pyspark.sql import functions df.groupBy(“A”).agg(functions.avg(“B”), functions.min(“B”), functions.max(“B”)).show() 应用多个函数 |
统计 | df.count() 输出每一列的非空行数 | df.count() 输出总行数 |
df.describe() 描述某些列的count, mean, std, min, 25%, 50%, 75%, max | df.describe() 描述某些列的count, mean, stddev, min, max | |
合并 | Pandas下有concat方法,支持轴向合并 | |
Pandas下有merge方法,支持多列合并 同名列自动添加后缀,对应键仅保留一份副本 |
Spark下有join方法即df.join() 同名列不自动添加后缀,只有键值完全匹配才保留一份副本 |
|
df.join() 支持多列合并 | ||
df.append() 支持多行合并 | ||
缺失数据处理 | 对缺失数据自动添加NaNs | 不自动添加NaNs,且不抛出错误 |
fillna函数:df.fillna() | fillna函数:df.na.fill() | |
dropna函数:df.dropna() | dropna函数:df.na.drop() | |
SQL语句 |
import sqlite3 pd.read_sql(“SELECT name, age FROM people WHERE age >= 13 AND age <= 19″) |
表格注册:把DataFrame结构注册成SQL语句使用类型 df.registerTempTable(“people”) 或者 sqlContext.registerDataFrameAsTable(df, “people”) sqlContext.sql(“SELECT name, age FROM people WHERE age >= 13 AND age <= 19″) |
功能注册:把函数注册成SQL语句使用类型 sqlContext.registerFunction(“stringLengthString”, lambda x: len(x)) sqlContext.sql(“SELECT stringLengthString(‘test’)”) |
||
两者互相转换 | pandas_df = spark_df.toPandas() | spark_df = sqlContext.createDataFrame(pandas_df) |
函数应用 | df.apply(f)将df的每一列应用函数f |
df.foreach(f) 或者 df.rdd.foreach(f) 将df的每一列应用函数f df.foreachPartition(f) 或者 df.rdd.foreachPartition(f) 将df的每一块应用函数f |
map-reduce操作 | map(func, list),reduce(func, list) 返回类型seq | df.map(func),df.reduce(func) 返回类型seqRDDs |
diff操作 | 有diff操作,处理时间序列数据(Pandas会对比当前行与上一行) | 没有diff操作(Spark的上下行是相互独立,分布式存储的) |
转载连接:http://www.lining0806.com/spark与pandas中dataframe对比/
Spark与Pandas中DataFrame的详细对比相关推荐
- Python之pandas:对pandas中dataframe数据中的索引输出、修改、重命名等详细攻略
Python之pandas:对pandas中dataframe数据中的索引输出.修改.重命名等详细攻略 目录 对pandas中dataframe数据中的索引输出.修改.重命名等详细攻略 知识点学习 输 ...
- python column stack_Python基础 | pandas中dataframe的整合与形变(merge reshape)
[toc] 本文示例数据下载,密码:vwy3 import pandas as pd # 数据是之前在cnblog上抓取的部分文章信息 df = pd.read_csv('./data/SQL测试用数 ...
- python中ix用法_Python: pandas中ix的详细讲解
Python: pandas中ix的详细讲解 发布时间:2018-09-21 15:59, 浏览次数:2372 , 标签: Python pandas ix 在上一篇博客 中,我们已经仔细讲解了ilo ...
- pandas中DataFrame的ix,loc,iloc索引方式的异同
pandas中DataFrame的ix,loc,iloc索引方式的异同 1.loc: 按照标签索引,范围包括start和end 2.iloc: 在位置上进行索引,不包括end 3.ix: 先在inde ...
- Python—pandas中DataFrame类型数据操作函数
python数据分析工具pandas中DataFrame和Series作为主要的数据结构. 本文主要是介绍如何对DataFrame数据进行操作并结合一个实例测试操作函数. 1)查看DataFram ...
- pandas中dataframe默认不显示所有的数据行(中间省略)、使用option_context函数自定义设置单个dataframe允许显示的行的个数、set_option函数全局设置显示行的个数
pandas中dataframe默认不显示所有的数据行(中间省略).使用option_context函数自定义设置单个dataframe允许显示的行的个数.set_option函数全局设置显示行的个数 ...
- Python将Pandas中Dataframe数据保存为gzip/zip文件:gzip压缩文件、zip压缩文件
Python将Pandas中Dataframe数据保存为gzip/zip文件:gzip压缩文件.zip压缩文件 目录 Python将Pandas中Dataframe数据保存为gzip/zip文件:gz ...
- pandas中dataframe索引排序实战:pandas中dataframe索引降序排序、pandas中dataframe索引升序排序
pandas中dataframe索引排序实战:pandas中dataframe索引降序排序.pandas中dataframe索引升序排序 目录
- python查看dataframe数据类型_python pandas中DataFrame类型数据操作函数的方法
python数据分析工具pandas中DataFrame和Series作为主要的数据结构. 本文主要是介绍如何对DataFrame数据进行操作并结合一个实例测试操作函数. 1)查看DataFrame数 ...
- python科学计算笔记(九)pandas中DataFrame数据操作函数
Python数据分析工具pandas中DataFrame和Series作为主要的数据结构. 本文主要是介绍如何对DataFrame数据进行操作并结合一个实例测试操作函数. 1)查看DataFrame数 ...
最新文章
- NSOperation下载网络图片(四)
- Android --- 很好用的时间选择器
- Python取出两个文件中相同的电话号码及地址(文件类型为:txt文本)
- OpenCASCADE绘制测试线束:拓扑命令之复杂拓扑
- 洛谷入门题P1422、P1085、P1089、P1909题解(Java语言描述)
- STM8单片机ADC连续扫描模式
- 关联规则挖掘算法之Apriori算法
- torch 默认参数初始化_pytorch的初始化方式总结
- CSI Report中关于codebook/PMI的理解(2)
- 2022年信息安全工程师上午真题及答案解析
- umail for linux,umail邮件服务器 For Linux安装图示(独立安装包)
- cygwin中安装apt-cyg管理工具注意事项
- win10共享打印错误0x0000006_win7系统局域网无法共享惠普打印机提示0x000006be错误的解决方法...
- ubuntu 22.04 修复 key is stored in legacy trusted.gpg keyring
- C#实现简单点餐系统
- 第十一部分 项目采购管理
- 玩客云添加到我的计算机,玩客云怎么备份?将电脑文件备份到玩客云教程
- 学大伟业:在数学竞赛学习中,你属于哪种类型?
- 友盟对android的应用,Android 集成友盟统计
- 可解释性机器学习( Explainable Artificial Intelligence (XAI) )文献阅读记录(1.1)