pyspark dataframe数据连接(join)、转化为pandas dataframe、基于多个字段删除冗余数据

目录

pyspark dataframe数据连接(join)、转化为pandas dataframe、基于多个字段删除冗余数据

#pyspark dataframe的连接操作并删除无用字段

#查看dataframe的shape

#把dataframe从pyspark转化到pandas dataframe

#基于混合字段删除重复记录


#pyspark dataframe的连接操作并删除无用字段

tijian_with_baseInfo_df  = customer_df.join(base_info_df,base_info_df.XH == tijian_with_baseInfo_df.XH)\
.drop(base_info_df.XH)\
.drop(base_info_df.sex)\
.drop(base_info_df.x)\
.drop(base_info_df.y)\
.drop(base_info_df.x1)\
.drop(base_info_df.x4)\
.drop(base_info_df.x5)\
.drop(base_info_df.xx)

#查看dataframe的shape

tijian_with_baseInfo_df.count(),len(tijian_with_baseInfo_df.columns)

#把dataframe从pyspark转化到pandas dataframe

tijian_with_baseInfo_pdf = tijian_with_baseInfo_df.toPandas()

#基于混合字段删除重复记录

tijian_with_baseInfo_pdf = tijian_with_baseInfo_pdf.drop_duplicates(subset = ['x1','x2','x3','z1',],keep = 'first')

参考:python

参考:pyspark

pyspark dataframe数据连接(join)、转化为pandas dataframe、基于多个字段删除冗余数据相关推荐

  1. plotly可视化表格数据:以表格可视化pandas dataframe

    plotly可视化表格数据:以表格可视化pandas dataframe # plotly可视化dataframe中的表格数据: import plotly as py from plotly.too ...

  2. pandas使用read_csv函数读取文件最后N行数据并保留表头、pandas使用read_csv函数读取网络url链接数据

    pandas使用read_csv函数读取文件最后N行数据并保留表头.pandas使用read_csv函数读取网络url链接数据 目录

  3. python数据去重的函数_python pandas dataframe 去重函数的具体使用

    今天笔者想对pandas中的行进行去重操作,找了好久,才找到相关的函数 先看一个小例子 from pandas import Series, DataFrame data = DataFrame({' ...

  4. python pandas dataframe 不显示索引_python中pandas.DataFrame的简单操作方法(创建、索引、增添与删除)...

    前言 最近在网上搜了许多关于pandas.DataFrame的操作说明,都是一些基础的操作,但是这些操作组合起来还是比较费时间去正确操作DataFrame,花了我挺长时间去调整BUG的.我在这里做一些 ...

  5. python dataframe取一列_python - 从pandas DataFrame列标题中获取列表

    python - 从pandas DataFrame列标题中获取列表 我想从pandas DataFrame中获取列标题列表. DataFrame将来自用户输入,因此我不知道将会有多少列或将调用它们. ...

  6. oracle dul误删数据,案例:Oracle dul数据挖掘 没有数据库备份非常规恢复truncate删除的数据表...

    Oracle数据库在没有备份情况下在对表中的某数据表进行truncate删除后,通过oracle dul进行非常规恢复 1.准备oracle dul测试环境SQL> select count(* ...

  7. 两万条数据需要做个数据图_第3关:基于Excel对电商母婴数据进行分析

    对于新手,拿到数据往往不知如何下手.那就按图索骥,依照以下五部一步步来 step1:明确问题 目标必须明确,基于当前业务出发.如一千个读者有一千个哈姆雷特一样,数据可以被解读出不同样子,必须集中目标, ...

  8. python dataframe loc函数_详解pandas DataFrame的查询方法(loc,iloc,at,iat,ix的用法和区别)...

    在操作DataFrame时,肯定会经常用到loc,iloc,at等函数,各个函数看起来差不多,但是还是有很多区别的,我们一起来看下吧. 首先,还是列出一个我们用的DataFrame,注意index一列 ...

  9. python中dataframe导出文件_使用Python将Pandas DataFrame导出为PDF文件

    What is an efficient way to generate PDF for data frames in Pandas? 解决方案 Well one way is to use mark ...

最新文章

  1. (六)构建Docker私有仓库、Gitlab仓库和持续集成环境
  2. XFtp中文乱码解决
  3. select * 映射错误_高性能IO模型分析-浅析Select、Poll、Epoll机制(三)
  4. HikariCP 高性能的 JDBC 连接池
  5. 《DSP using MATLAB》示例Example7.20
  6. .NET Core 在程序集中集成Razor视图
  7. HDU 4609 3-idiots(FFT)
  8. thymealf如何实现传单个变量给html_梦回2013,看尤大vue的第一行代码,如何用30行代码实现vue(超简洁,适合初学者)...
  9. 从马云看“穷男人”如何创业——看后信心倍增!
  10. S-DES加密与解密
  11. 解决方案:数据同步Canal
  12. 图像处理——DCT变换的学习笔记
  13. 最新小浣熊5.0漫画CMS精仿土豪漫画系统源码
  14. linux进入根目录的代码,Linux根目录+源代码目录
  15. ubuntu 安装 flash 软件 卸载
  16. 手机WIFI传文件到局域网服务器,电脑和手机在同一局域网上,怎样无线传输文件? -电脑资料...
  17. FFmpeg系列(五)—— 音频重采样
  18. Cisco Packet Tracer的基本应用
  19. HCIA-5G新技术融合创新应用
  20. sql如何取前几行_sql 取前几行记录语句

热门文章

  1. 替换空格---StringBuilder
  2. win下我的windows键失效了
  3. ajax分页node,分页数据(使用 paginate 方法)《 Node.js 应用:分页器 》
  4. 数组-两个数组的交集(两个集合)
  5. 前端基础入门(html+css+详)
  6. MySQL数据库中的MyISAM和InnoDB存储引擎对比
  7. 计算机书籍-机器学习预测分析Go语言实现
  8. CBGS : 三维点云物体检测的类平衡分组和采样(新自动驾驶数据集nScenes第一名算法)...
  9. 条件滤波、半径滤波移除离群点
  10. 17福师《计算机应用基础,17春福师《计算机应用基础》在线作业一.doc