数据合并

在日常的数据处理中,经常需要将两张表拼接起来使用,在SQL中对应的操作是join,在Pandas中则是merge函数实现。

merge函数的作用是用来拼接两张表,那么拼接时自然就需要将用户信息--对应地进行拼接,所以进行拼接的两张表需要有一个共同的识别用户的键。总结来说,整个merge的过程就是将信息--对应匹配的过程。

数据拼接的时候有四种方式:inner,left,right和outer

代码

import pandas as pd
import numpy as np
df_1 = pd.DataFrame({'userid':['a','b','c','d'],'age':[23,46,32,19]})
df_2 = pd.DataFrame({'userid':['a','c','a','b','e'],'payment':[2000,3500,500,1000,900]})
print(df_1)
print(df_2)df_1_2_inner = df_1.merge(df_2,how='inner',on='userid')df_1_2_left = df_1.merge(df_2,how='left',on='userid')df_1_2_right = df_1.merge(df_2,how='right',on='userid')df_1_2_outer = df_1.merge(df_2,how='outer',on='userid')print(df_1_2_outer)

inner方式

内连接,它在拼接的过程中会取两张表的键的交集进行拼接。

当两张表进行拼接的时候,如果存在一对多的记录时,会根据对应记录,多的记录进行扩展。

left和right

left和right的merge方式其实是类似的,分别被称为左连接和右连接。

merge时,以左边表格的键为基准进行配对,如果左边表格中的键在右边不存在,则用缺失值NaN填充。

merge时,以右边表格的键为基准进行配对,如果右边表格中的键在左边不存在,则用缺失值NaN填充。

outer

outer是外连接,在拼接的过程中它会取两张表的键的并集进行拼接。

数据分析--数据合并相关推荐

  1. python数据分析:数据拆分,数据合并,数据筛选

    #基于Python的数据分析 #1:为什么要进行数据分析 #简答:人工智能.大数据等数据的采集需要数据----数据通过Python分析 # 而来------进行数据的清洗操作-----建立数据模型Mo ...

  2. Python数据分析【第9天】| DataFrame的属性编码、数据合并和连接(get_dummies,merge,join,concat)

    系列文章目录 第1天:读入数据 第2天:read().readline()与readlines() 第3天:进度条(tqdm模块) 第4天:命令行传参(argparse模块) 第5天:读.写json文 ...

  3. DataAnalysis:数据分析、数据清理、数据合并

    数据清洗 缺失值处理 删除法(占比极少) 插补法(均值插补,回归插补,极大似然估计) 噪声过滤(减少随机误差) 回归法:一个函数拟合数据来使得数据光滑,达到去噪效果. 均值平滑法:对于具有序列特征的变 ...

  4. python数据预处理 重复行统计_Python数据分析之数据预处理(数据清洗、数据合并、数据重塑、数据转换)学习笔记...

    1. 数据清洗 1.1 空值和缺失值的处理 ​空值一般表示数据未知.不适用或将在以后添加数据.缺失值是指数据集中某个或某些属性的值是不完整的. ​一般空值使用None表示,缺失值使用NaN表示 1.1 ...

  5. 【python数据分析】pandas数据合并

    pandas数据合并 使用contact,append,merge完成数据集合并 自己学习用,欢迎大佬指正. 1.concat pd.concat()可以合并series和DataFrame对象,默认 ...

  6. Python数据分析之数据预处理(数据清洗、数据合并、数据重塑、数据转换)学习笔记

    文章目录 1. 数据清洗 1.1 空值和缺失值的处理 1.1.1 使用isnull()和notnull()函数 1.1.1.1 isnull()语法格式: 1.1.1.2 notnull()语法格式: ...

  7. python用merge匹配和左连接_左手用R右手Python系列——数据合并与追加

    感谢关注天善智能,走好数据之路↑↑↑ 欢迎关注天善智能,我们是专注于商业智能BI,大数据,数据分析领域的垂直社区,学习,问答.求职一站式搞定! 本文作者:天善智能社区专家杜雨 今天这篇跟大家介绍R语言 ...

  8. 《数据科学与大数据分析——数据的发现 分析 可视化与表示》一2.3 第2阶段:数据准备...

    本节书摘来自异步社区<数据科学与大数据分析--数据的发现 分析 可视化与表示>一书中的第2章,第2.3节,作者[美]EMC Education Services(EMC教育服务团队),更多 ...

  9. 【Python】图解Pandas数据合并:concat、join、append

    公众号:尤而小屋 作者:Peter 编辑:Peter 图解pandas数据合并:concat+join+append 在上一篇文章中介绍过pandas中最为常用的一个合并函数merge的使用,本文中介 ...

最新文章

  1. (转载)虚幻引擎3--9掌握虚幻技术UnrealScript 预处理器
  2. 证明矩阵添加一列(行),则其秩或不变,或增加1
  3. Android ANR 分析
  4. 实验一 Part 1 开发环境的配置运行
  5. linux mysql主从配置_linux下mysql主从配置
  6. 20145219 《信息安全系统设计基础》第01周学习总结
  7. photo-sphere-viewer.js使用时图片拉伸的问题
  8. 京东健康上线“新冠病毒”核酸检测 在线预约服务
  9. 关于网站备案的44个问题
  10. Oracle和al,ORACLEAL TERTABLE
  11. .Net控件Telerik全套下载:Telerik Controls 2010 Q2 (附加DLL文件+源码)
  12. 【Luogu1580】yyy loves Easter_Egg I(纯字符串模拟)
  13. postman构造post请求用于接口测试
  14. 运行在WEB上的电子海图数据
  15. Synopsys工具安装之二【SCL License】
  16. CapstoneCS5265设计原理图|CS5265设计DP转HDMI2.0 4K60HZ转换电路|CS5265demoboard
  17. 【unity 3d】--- 瞄准镜效果
  18. 基金收益率计算1:资管业务、资管产品和基金
  19. vw/vh:移动适配之vw/vh(使用方法)
  20. linux系统登陆微信,在Deepin 20系统下实现电脑端登陆两个微信账号的方法

热门文章

  1. 迅为10.1寸人机界面工业HMI安卓电容屏定制生产供应商
  2. VC 不愿承认的 4 个暗黑事实
  3. FT24C32A介绍
  4. idea项目总是自动重启_IDEA 下 SpringBoot 自动重启
  5. Facebook购买匿名操作系统漏洞,协助FBI抓捕犯罪者
  6. python三级菜单_Python 三级菜单
  7. 一起学时序分析之延迟与时钟偏斜和抖动
  8. 【艺术评析】陈全胜先生山水画
  9. 程序员护眼心得——20171229
  10. 护眼党必备良心app