pyspark groupby 后将遍历的每一行转成pandas df

文章目录

关于pyspark分组后遍历分组后的数据参考这篇文章：
pyspark分组后如下，在pandas里分组后，每一个小df就是如下的每一行
将pyspark分组后的数据，即每一行，转成pandas的df:
汇总关键代码

关于pyspark分组后遍历分组后的数据参考这篇文章：

https://blog.csdn.net/qq_42363032/article/details/118298108

pyspark分组后如下，在pandas里分组后，每一个小df就是如下的每一行

data = ss.createDataFrame(data)da_gb = data.groupby('alpos_id').agg(fn.collect_list('impressions').alias('impressions_list'),fn.collect_list('ecpm').alias('ecpm_list')
)da_gb.show()

将pyspark分组后的数据，即每一行，转成pandas的df:

def row_dealwith(data):ids = list(data.keys())[0]      # 获取分组idvalues = data.get(ids)          # 获取分组后的字段值lens = len(values)# print(ids, values[0], values[1])# 构造idids_li = []for i in range(len(values[0])):ids_li.append(ids)# 横向分组转为纵向分组zdict = {}zlis = []zdict['alpos_id'] = ids_lifor i in range(lens):zdict[i] = values[i]print(zdict)da_gb = pd.DataFrame(zdict)print(da_gb)

dardds = da_gb.rdd.map(lambda data: ({data.alpos_id: [data.impressions_list, data.ecpm_list]}))dardds.foreach(row_dealwith)

'''
out:{'alpos_id': ['0_2011082923279930', '0_2011082923279930', '0_2011082923279930', '0_2011082923279930', '0_2011082923279930', '0_2011082923279930', '0_2011082923279930', '0_2011082923279930', '0_2011082923279930', '0_2011082923279930', '0_2011082923279930'], 0: [222.0, 2269.0, 212.0, 43.0, 29.0, 172.0, 192.0, 232.0, 288.0, 306.0, 328.0], 1: [14.4595, 14.0899, 14.3868, 12.5581, 12.069, 30.814, 14.1667, 12.6293, 15.5556, 8.5948, 11.2805]}{'alpos_id': ['0_3001461399082077', '0_3001461399082077', '0_3001461399082077', '0_3001461399082077', '0_3001461399082077', '0_3001461399082077', '0_3001461399082077', '0_3001461399082077', '0_3001461399082077'], 0: [0.2, 0.0, 0.142857142857142, 0.0, 0.181818181818181, 0.3, 0.3125, 0.0, 0.0], 1: [43.6990133333333, 40.1434533333333, 41.21348, 34.8579266666666, 35.2619666666666, 35.6953, 44.22308, 44.4453, 44.18604]}{'alpos_id': ['0_3071297379437968'], 0: [8.0], 1: [73.75]}{'alpos_id': ['0_3031798112278383', '0_3031798112278383', '0_3031798112278383', '0_3031798112278383'], 0: [4.0, 62.0, 58.0, 4.0], 1: [2.5, 6.9355, 9.3103, 5.0]}
'''

汇总关键代码

def row_dealwith(data):ids = list(data.keys())[0]      # 获取分组idvalues = data.get(ids)          # 获取分组后的字段值lens = len(values)# print(ids, values[0], values[1])# 构造idids_li = []for i in range(len(values[0])):ids_li.append(ids)# 横向分组转为纵向分组zdict = {}zlis = []zdict['alpos_id'] = ids_lifor i in range(lens):zdict[i] = values[i]print(zdict)da_gb = pd.DataFrame(zdict)print(da_gb)def pyspark_gb(data):data = ss.createDataFrame(data)da_gb = data.groupby('alpos_id').agg(fn.collect_list('impressions').alias('impressions_list'),fn.collect_list('ecpm').alias('ecpm_list'))da_gb.show()dardds = da_gb.rdd.map(lambda data: ({data.alpos_id: [data.impressions_list, data.ecpm_list]}))# print(type(sss))            # pyspark.rdd.PipelinedRDD# print(sss.take(5))# sss.foreach(lambda x: print(x))dardds.foreach(row_dealwith)

pyspark groupby 后将遍历的每一行转成pandas df相关推荐

pandas用groupby后对层级索引levels的处理
层及索引levels,刚开始学习pandas的时候没有太多的操作关于groupby,仅仅是简单的count.sum.size等等,没有更深入的利用groupby后的数据进行处理.近来数据处理的时候有遇 ...
给定二叉树先序、中序遍历序列，求后序遍历
给定一个二叉树的前序遍历和中序遍历的序列,输出对应这个二叉树的后续遍历序列. 输入描述: 输入为一行. 两个字符串,分别表示二叉树的前序遍历和中序遍历结果,用空格分隔.保证数据合法输出描述: 对应输 ...
2010 求后序遍历
2010 求后序遍历时间限制: 1 s 空间限制: 64000 KB 题目等级 : 白银 Silver 题目描述 Description 输入一棵二叉树的先序和中序遍历序列,输出其后序遍历序列 ...
信息学奥赛一本通（C++）在线评测系统——基础（三）数据结构 —— 1339：【例3-4】求后序遍历
时间限制: 1000 ms 内存限制: 65536 KB 提交数: 1380 通过数: 940 [题目描述] 输入一棵二叉树的先序和中序遍历序列,输出其后序遍历序列. [输入] 共两行,第一行一个字符 ...
LeetCode——树：层次遍历、前中后序遍历
LeetCode--树:层次遍历.前中后序遍历目录层次遍历二叉树的层平均值找树左下角的值前中后序遍历概述非递归实现二叉树的前序遍历非递归实现二叉树的中序遍历非递归实现二叉树的后序遍历 ...
【例3-4】求后序遍历
[例3-4]求后序遍历链接:http://ybt.ssoier.cn:8088/problem_show.php?pid=1339 时间限制: 1000 ms 内存限制: 65536 ...
求后序遍历（信息学奥赛一本通-T1339）
[题目描述] 输入一棵二叉树的先序和中序遍历序列,输出其后序遍历序列. [输入] 共两行,第一行一个字符串,表示树的先序遍历,第二行一个字符串,表示树的中序遍历.树的结点一律用小写字母表示. [输出] ...
PTA L2-006 树的遍历-二叉树的后序遍历+中序遍历，输出层序遍历团体程序设计天梯赛-练习集...
L2-006 树的遍历 (25 分) 给定一棵二叉树的后序遍历和中序遍历,请你输出其层序遍历的序列.这里假设键值都是互不相等的正整数. 输入格式: 输入第一行给出一个正整数N(≤),是二叉树中结点的个 ...
【2020团体程序设计天梯赛】L2-3 完全二叉树的层序遍历（后序遍历转层次遍历）
problem 7-11 完全二叉树的层序遍历一个二叉树,如果每一个层的结点数都达到最大值,则这个二叉树就是完美二叉树.对于深度为 D 的,有 N 个结点的二叉树,若其结点对应于相同深度完美二叉树的 ...
groupby后选取列和不选取列的区别
1.首先通过groupby得到DataFrameGroupBy对象, 比如df.groupby('flee') 2.然后选择需要研究的列, 比如['age'], 这样我们就得到了一个SeriesGro ...

pyspark groupby 后将遍历的每一行转成pandas df

文章目录

关于pyspark分组后遍历分组后的数据参考这篇文章：

pyspark分组后如下，在pandas里分组后，每一个小df就是如下的每一行

将pyspark分组后的数据，即每一行，转成pandas的df:

汇总关键代码

pyspark groupby 后将遍历的每一行转成pandas df相关推荐

最新文章

热门文章