pyspark dataframe数据连接(join)、转化为pandas dataframe、基于多个字段删除冗余数据
pyspark dataframe数据连接(join)、转化为pandas dataframe、基于多个字段删除冗余数据
目录
pyspark dataframe数据连接(join)、转化为pandas dataframe、基于多个字段删除冗余数据
#pyspark dataframe的连接操作并删除无用字段
#查看dataframe的shape
#把dataframe从pyspark转化到pandas dataframe
#基于混合字段删除重复记录
#pyspark dataframe的连接操作并删除无用字段
tijian_with_baseInfo_df = customer_df.join(base_info_df,base_info_df.XH == tijian_with_baseInfo_df.XH)\
.drop(base_info_df.XH)\
.drop(base_info_df.sex)\
.drop(base_info_df.x)\
.drop(base_info_df.y)\
.drop(base_info_df.x1)\
.drop(base_info_df.x4)\
.drop(base_info_df.x5)\
.drop(base_info_df.xx)
#查看dataframe的shape
tijian_with_baseInfo_df.count(),len(tijian_with_baseInfo_df.columns)
#把dataframe从pyspark转化到pandas dataframe
tijian_with_baseInfo_pdf = tijian_with_baseInfo_df.toPandas()
#基于混合字段删除重复记录
tijian_with_baseInfo_pdf = tijian_with_baseInfo_pdf.drop_duplicates(subset = ['x1','x2','x3','z1',],keep = 'first')
参考:python
参考:pyspark
pyspark dataframe数据连接(join)、转化为pandas dataframe、基于多个字段删除冗余数据相关推荐
- plotly可视化表格数据:以表格可视化pandas dataframe
plotly可视化表格数据:以表格可视化pandas dataframe # plotly可视化dataframe中的表格数据: import plotly as py from plotly.too ...
- pandas使用read_csv函数读取文件最后N行数据并保留表头、pandas使用read_csv函数读取网络url链接数据
pandas使用read_csv函数读取文件最后N行数据并保留表头.pandas使用read_csv函数读取网络url链接数据 目录
- python数据去重的函数_python pandas dataframe 去重函数的具体使用
今天笔者想对pandas中的行进行去重操作,找了好久,才找到相关的函数 先看一个小例子 from pandas import Series, DataFrame data = DataFrame({' ...
- python pandas dataframe 不显示索引_python中pandas.DataFrame的简单操作方法(创建、索引、增添与删除)...
前言 最近在网上搜了许多关于pandas.DataFrame的操作说明,都是一些基础的操作,但是这些操作组合起来还是比较费时间去正确操作DataFrame,花了我挺长时间去调整BUG的.我在这里做一些 ...
- python dataframe取一列_python - 从pandas DataFrame列标题中获取列表
python - 从pandas DataFrame列标题中获取列表 我想从pandas DataFrame中获取列标题列表. DataFrame将来自用户输入,因此我不知道将会有多少列或将调用它们. ...
- oracle dul误删数据,案例:Oracle dul数据挖掘 没有数据库备份非常规恢复truncate删除的数据表...
Oracle数据库在没有备份情况下在对表中的某数据表进行truncate删除后,通过oracle dul进行非常规恢复 1.准备oracle dul测试环境SQL> select count(* ...
- 两万条数据需要做个数据图_第3关:基于Excel对电商母婴数据进行分析
对于新手,拿到数据往往不知如何下手.那就按图索骥,依照以下五部一步步来 step1:明确问题 目标必须明确,基于当前业务出发.如一千个读者有一千个哈姆雷特一样,数据可以被解读出不同样子,必须集中目标, ...
- python dataframe loc函数_详解pandas DataFrame的查询方法(loc,iloc,at,iat,ix的用法和区别)...
在操作DataFrame时,肯定会经常用到loc,iloc,at等函数,各个函数看起来差不多,但是还是有很多区别的,我们一起来看下吧. 首先,还是列出一个我们用的DataFrame,注意index一列 ...
- python中dataframe导出文件_使用Python将Pandas DataFrame导出为PDF文件
What is an efficient way to generate PDF for data frames in Pandas? 解决方案 Well one way is to use mark ...
最新文章
- (六)构建Docker私有仓库、Gitlab仓库和持续集成环境
- XFtp中文乱码解决
- select * 映射错误_高性能IO模型分析-浅析Select、Poll、Epoll机制(三)
- HikariCP 高性能的 JDBC 连接池
- 《DSP using MATLAB》示例Example7.20
- .NET Core 在程序集中集成Razor视图
- HDU 4609 3-idiots(FFT)
- thymealf如何实现传单个变量给html_梦回2013,看尤大vue的第一行代码,如何用30行代码实现vue(超简洁,适合初学者)...
- 从马云看“穷男人”如何创业——看后信心倍增!
- S-DES加密与解密
- 解决方案:数据同步Canal
- 图像处理——DCT变换的学习笔记
- 最新小浣熊5.0漫画CMS精仿土豪漫画系统源码
- linux进入根目录的代码,Linux根目录+源代码目录
- ubuntu 安装 flash 软件 卸载
- 手机WIFI传文件到局域网服务器,电脑和手机在同一局域网上,怎样无线传输文件? -电脑资料...
- FFmpeg系列(五)—— 音频重采样
- Cisco Packet Tracer的基本应用
- HCIA-5G新技术融合创新应用
- sql如何取前几行_sql 取前几行记录语句
热门文章
- 替换空格---StringBuilder
- win下我的windows键失效了
- ajax分页node,分页数据(使用 paginate 方法)《 Node.js 应用:分页器 》
- 数组-两个数组的交集(两个集合)
- 前端基础入门(html+css+详)
- MySQL数据库中的MyISAM和InnoDB存储引擎对比
- 计算机书籍-机器学习预测分析Go语言实现
- CBGS : 三维点云物体检测的类平衡分组和采样(新自动驾驶数据集nScenes第一名算法)...
- 条件滤波、半径滤波移除离群点
- 17福师《计算机应用基础,17春福师《计算机应用基础》在线作业一.doc