在数据处理过程中,经常会遇到多个表进行拼接合并的需求,在Pandas中有多个拼接合并的方法,每种方法都有自己擅长的拼接方式,本文对pd.concat()进行详细讲解,希望对你有帮助。pd.concat()函数可以沿着指定的轴将多个dataframe或者series拼接到一起,这一点和另一个常用的pd.merge()函数不同,pd.merge()解决数据库样式的左右拼接,不能解决上下拼接。

一、基本语法

pd.concat(objs,      axis=0,     join='outer',ignore_index=False,keys=None,      levels=None,     names=None,      verify_integrity=False,     copy=True)

二、参数含义

  • objs:Series,DataFrame或Panel对象的序列或映射,如果传递了dict,则排序的键将用作键参数

  • axis:{0,1,...},默认为0,也就是纵向上进行合并。沿着连接的轴。

  • join:{'inner','outer'},默认为“outer”。如何处理其他轴上的索引。outer为联合和inner为交集。

  • ignore_index:boolean,default False。如果为True,请不要使用并置轴上的索引值。结果轴将被标记为0,...,n-1。如果要连接其中并置轴没有有意义的索引信息的对象,这将非常有用。注意,其他轴上的索引值在连接中仍然受到尊重。

  • keys:序列,默认值无。使用传递的键作为最外层构建层次索引。如果为多索引,应该使用元组。

  • levels:序列列表,默认值无。用于构建MultiIndex的特定级别(唯一值)。否则,它们将从键推断。

  • names:list,default无。结果层次索引中的级别的名称。

  • verify_integrity:boolean,default False。检查新连接的轴是否包含重复项。这相对于实际的数据串联可能是非常昂贵的。

  • copy:boolean,default True。如果为False,请勿不必要地复制数据。

三、竖向堆叠

#构建需要的数据表
import pandas as pd
df1 = pd.DataFrame({'A':['A{}'.format(i) for i in range(0,4)],'B':['B{}'.format(i) for i in range(0,4)],'C':['C{}'.format(i) for i in range(0,4)]})df2 = pd.DataFrame({'A':['A{}'.format(i) for i in range(4,8)],'B':['B{}'.format(i) for i in range(4,8)],'C':['C{}'.format(i) for i in range(4,8)]})
df3 = pd.DataFrame({'A':['A{}'.format(i) for i in range(8,12)],'B':['B{}'.format(i) for i in range(8,12)],'C':['C{}'.format(i) for i in range(8,12)]})
现将表构成list,然后在作为concat的输入
frames = [df1, df2, df3]
result = pd.concat(frames)A    B    C
0   A0   B0   C0
1   A1   B1   C1
2   A2   B2   C2
3   A3   B3   C3
0   A4   B4   C4
1   A5   B5   C5
2   A6   B6   C6
3   A7   B7   C7
0   A8   B8   C8
1   A9   B9   C9
2  A10  B10  C10
3  A11  B11  C11

传入也可以是字典

frames = {'df1':df1, 'df2':df2,'df3':df3}
result = pd.concat(frames)A    B    C
df1 0   A0   B0   C01   A1   B1   C12   A2   B2   C23   A3   B3   C3
df2 0   A4   B4   C41   A5   B5   C52   A6   B6   C63   A7   B7   C7
df3 0   A8   B8   C81   A9   B9   C92  A10  B10  C103  A11  B11  C11

三、横向拼接

1、axis

当axis = 1的时候,concat就是行对齐,然后将不同列名称的两张表合并

#再构建一个表
df4 = pd.DataFrame({'C':['C{}'.format(i) for i in range(3,9)],'E':['E{}'.format(i) for i in range(3,9)],'F':['F{}'.format(i) for i in range(3,9)]})
pd.concat([df1,df4], axis=1)A    B    C   C   E   F
0   A0   B0   C0  C3  E3  F3
1   A1   B1   C1  C4  E4  F4
2   A2   B2   C2  C5  E5  F5
3   A3   B3   C3  C6  E6  F6
4  NaN  NaN  NaN  C7  E7  F7
5  NaN  NaN  NaN  C8  E8  F8

2、join

加上join参数的属性,如果为'inner'得到的是两表的交集,如果是outer,得到的是两表的并集。

#  join='inner' 取交集
pd.concat([df1, df4], axis=1, join='inner')A   B   C   C   E   F
0  A0  B0  C0  C3  E3  F3
1  A1  B1  C1  C4  E4  F4
2  A2  B2  C2  C5  E5  F5
3  A3  B3  C3  C6  E6  F6# join='outer' 和 默认值相同
pd.concat([df1, df4], axis=1, join='outer')A    B    C   C   E   F
0   A0   B0   C0  C3  E3  F3
1   A1   B1   C1  C4  E4  F4
2   A2   B2   C2  C5  E5  F5
3   A3   B3   C3  C6  E6  F6
4  NaN  NaN  NaN  C7  E7  F7
5  NaN  NaN  NaN  C8  E8  F8

四、对比append方法

append是series和dataframe的方法,使用它就是默认沿着列进行凭借(axis = 0,列对齐)

df1.append(df2)A   B   C
0  A0  B0  C0
1  A1  B1  C1
2  A2  B2  C2
3  A3  B3  C3
0  A4  B4  C4
1  A5  B5  C5
2  A6  B6  C6
3  A7  B7  C7

五、忽略index

如果两个表的index都没有实际含义,使用ignore_index参数,置true,合并的两个表就睡根据列字段对齐,然后合并。最后再重新整理一个新的index。

pd.concat([df1, df4], axis=1, ignore_index=True) 0    1    2   3   4   5
0   A0   B0   C0  C3  E3  F3
1   A1   B1   C1  C4  E4  F4
2   A2   B2   C2  C5  E5  F5
3   A3   B3   C3  C6  E6  F6
4  NaN  NaN  NaN  C7  E7  F7
5  NaN  NaN  NaN  C8  E8  F8

六、增加区分组键

前面提到的keys参数可以用来给合并后的表增加key来区分不同的表数据来源

1、可以直接用key参数实现

pd.concat([df1,df2,df3], keys=['x', 'y', 'z'])A    B    C
x 0   A0   B0   C01   A1   B1   C12   A2   B2   C23   A3   B3   C3
y 0   A4   B4   C41   A5   B5   C52   A6   B6   C63   A7   B7   C7
z 0   A8   B8   C81   A9   B9   C92  A10  B10  C103  A11  B11  C11

2、传入字典来增加分组键

frames = {'df1':df1, 'df2':df2,'df3':df3}
result = pd.concat(frames)A    B    C
df1 0   A0   B0   C01   A1   B1   C12   A2   B2   C23   A3   B3   C3
df2 0   A4   B4   C41   A5   B5   C52   A6   B6   C63   A7   B7   C7
df3 0   A8   B8   C81   A9   B9   C92  A10  B10  C103  A11  B11  C11
七、加入新的行

1、列字段相同的加入

append方法可以将 series 和 字典就够的数据作为dataframe的新一行插入。

s2 = pd.Series(['X0', 'X1', 'X2', 'X3'], index=['A', 'B', 'C', 'D'])
df1.append(s2, ignore_index=True)A   B   C    D
0  A0  B0  C0  NaN
1  A1  B1  C1  NaN
2  A2  B2  C2  NaN
3  A3  B3  C3  NaN
4  X0  X1  X2   X3

2、列字段不同的加入

如果遇到两张表的列字段本来就不一样,但又想将两个表合并,其中无效的值用nan来表示。那么可以使用ignore_index来实现。

dicts = [{'A': 1, 'B': 2, 'C': 3, 'X': 4},{'A': 5, 'B': 6, 'C': 7, 'Y': 8}]
df1.append(dicts, ignore_index=True)A   B   C    X    Y
0  A0  B0  C0  NaN  NaN
1  A1  B1  C1  NaN  NaN
2  A2  B2  C2  NaN  NaN
3  A3  B3  C3  NaN  NaN
4   1   2   3  4.0  NaN
5   5   6   7  NaN  8.0

···  END  ···

往期精彩回顾适合初学者入门人工智能的路线及资料下载中国大学慕课《机器学习》(黄海广主讲)机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载本站qq群955171419,加入微信群请扫码:

【Python】Pandas宝藏函数-concat()相关推荐

  1. blankcount函数python,Python pandas常用函数详解

    本文研究的主要是pandas常用函数,具体介绍如下. 1 import语句 2 文件读取 df = pd.read_csv(path='file.csv') 参数:header=None 用默认列名, ...

  2. Python Pandas聚合函数

    Python Pandas聚合函数 在前一节,我们重点介绍了窗口函数.我们知道,窗口函数可以与聚合函数一起使用,聚合函数指的是对一组数据求总和.最大值.最小值以及平均值的操作,本节重点讲解聚合函数的应 ...

  3. python pandas dataframe函数_Pandas的DataFrame列操作

    13. Pandas的DataFrame列操作 本章主要研究一下DataFrame数据结构如何修改.增删等操作. 13.1 rename修改列名字 对一个dataframe的数据使用rename函数后 ...

  4. python pandas常用函数学习

    从网上看的一些资料学习一下,有的内容是直接从其他文章中粘贴过来的. pandas 有两个主要的数据结构:Series 和 DataFrame: 1. Series 是一个一维数组对象 ,类似于 Num ...

  5. python pandas rename函数_Python-pandas | 一些函数

    shift.diff.applymap和apply.pdcut和pd.qcut.groupby+agg聚合.sort_values.merge和concat.value_counts.any和all ...

  6. python——pandas——dropna()函数

    该函数主要用于滤除缺失数据. import pandas as pd import numpy as npfrom IPython.core.interactiveshell import Inter ...

  7. python pandas常用函数_Python pandas常用函数详解

    df.duplicated() 返回各行是否是上一行的重复行 df.drop_duplicates() 删除重复行,如果需要按照列过滤,参数选填['col1', 'col2',-]df.fillna( ...

  8. python loc iloc,Python pandas loc用法与iloc区别 聊聊Python pandas 中loc函数的使用,及跟iloc的区别说明...

    想了解聊聊Python pandas 中loc函数的使用,及跟iloc的区别说明的相关内容吗,Rainpages在本文为您仔细讲解Python pandas loc用法与iloc区别的相关知识和一些C ...

  9. 【Python】Pandas中的宝藏函数-applymap

    applymap的用法比较简单,会对DataFrame中的每个单元格执行指定函数的操作,虽然用途不如apply广泛,但在某些场合下还是非常有用的. applymap()是与map()方法相对应的专属于 ...

最新文章

  1. oracle 11g数据库以管理员身份登录不上
  2. linux系统安装后需要的有效小工具(持续更新)
  3. linux 命令行 ctrl z,Linux操作系统下运行命令时CTRL+Z的作用
  4. instsrv.exe——来自Windows 2000 Resource Kits的一个小工具
  5. 【.NET Core项目实战-统一认证平台】第十二章 授权篇-深入理解JWT生成及验证流程...
  6. Flex4 初始化过慢解决方法
  7. 【AI视野·今日Robot 机器人论文速览 第十二期】Tue, 22 Jun 2021
  8. PHP生成缩略图(2)--等比缩略图
  9. Dart教程(一):dart安装
  10. 怎么选择boost升压电路的电感?只要三个公式
  11. Linux 入门必备命令
  12. 下载SE78里面的图片
  13. 猫咪APP 服务器不稳定,这下知道猫咪为啥经常情绪不稳定了不?
  14. Python 一键导出微信阅读记录和笔记!
  15. Linux安装配置MySQL8.0 打war包 启动项目
  16. CAD二次开发——选择集(1)
  17. VS 2012 显示Link的参数
  18. 武汉新时标文化传媒有限公司喜欢看短视频而不是文章?
  19. idea2019本地导入lombok不兼容问题
  20. 专利申请被驳回,如何专利复审?

热门文章

  1. linux如何ARP嗅探 Linux下嗅探工具Dsniff安装记录
  2. 【转贴】大型ORACLE数据库优化设计方案
  3. 一款好用的JS时间日期插件layDate
  4. 小游戏专场:腾讯云Game-Tech技术沙龙上海站顺利落下帷幕
  5. hdu_1007_Quoit Design(最近点对)
  6. js定时器、高亮修改单元格背景色
  7. Oracle 中的SID是什么意思?有什么作用?
  8. 【转】NSMutableArray的正确使用
  9. 【NGN学习笔记】5 IMS技术
  10. iPhone磁盘空间/剩余空间代码