在处理数据过程中,常会遇到将一条数据拆分成多条,比如一个人的地址信息中,可能有多条地址,既有家庭地址也有工作地址,还有电话信息等等类似的情况,实际使用数据的时候又需要分开处理,这个时候就需要将这一条数据进行拆分成多条,以方便使用。
在pandas中如何对DataFrame进行相关操作呢,经查阅相关资料,发现了一个简单的办法,

info.drop(['city'], axis=1).join(info['city'].str.split(' ', expand=True).stack().reset_index(level=1, drop=True).rename('city'))

看起来非常之长,分开来看,流程如下:

  • 将需要拆分的数据使用split拆分工具拆分,并使用expand功能拆分成多列
  • 将拆分后的多列数据进行列转行操作(stack),合并成一列
  • 将生成的复合索引重新进行reset保留原始的索引,并命名
  • 将上面处理后的DataFrame和原始DataFrame进行join操作,默认使用的是索引进行连接

具体操作如下:

预操作:生成需要使用的DataFrame

# 用来生成DataFrame的工具
from pydbgen import pydbgen
myDB=pydbgen.pydb()# 生成一个DataFrame
info = myDB.gen_dataframe(10,['name','phone','city','state'])

结果如下:

name phone-number city state
0 Hannah Richard 810-859-7815 Irwinville Louisiana
1 Ronald Berry 591-564-0585 Glen Ellen Minnesota
2 Caitlin Barron 969-840-8580 Dubois Oklahoma
3 Felicia Stephens 154-858-1233 Veedersburg Alaska
4 Shelly Dennis 343-104-9365 Mattapex Virginia
5 Nicholas Hill 992-239-1954 Moneta Minnesota
6 Steve Bradshaw 164-081-7811 Ten Broeck Colorado
7 Gail Johnston 155-259-9514 Wayan Virginia
8 John Gray 409-892-4716 Darlington Pennsylvania
9 Katherine Bautista 185-861-1677 McNab Texas

假如现在我们要对city列进行进行拆分,按照空格拆分,转换成多行的数据,
第一步:拆分,生成多列

info_city = info['city'].str.split(' ', expand=True)

结果如下:

0 1
0 Irwinville None
1 Glen Ellen
2 Dubois None
3 Veedersburg None
4 Mattapex None
5 Moneta None
6 Ten Broeck
7 Wayan None
8 Darlington None
9 McNab None

可以看到已经将原始数据拆分成了2列,对于无法拆分的数据为None

第二步:行转列

info_city = info_city.stack()

结果如下:

0 0 Irwinville
1 0 Glen
1 Ellen
2 0 Dubois
3 0 Veedersburg
4 0 Mattapex
5 0 Moneta
6 0 Ten
1 Broeck
7 0 Wayan
8 0 Darlington
9 0 McNab

其中前面两列是索引,返回的是一个series,没有名字的series

第三步:重置索引,并命名(并删除多于的索引)

info_city = info_city.reset_index(level=1, drop=True)

结果如下:

0 Irwinville
1 Glen
1 Ellen
2 Dubois
3 Veedersburg
4 Mattapex
5 Moneta
6 Ten
6 Broeck
7 Wayan
8 Darlington
9 McNab

第四步:和原始数据合并

info_new = info.drop(['city'], axis=1).join(info_city)

结果如下:

name phone-number state city
0 Hannah Richard 810-859-7815 Louisiana Irwinville
1 Ronald Berry 591-564-0585 Minnesota Glen
1 Ronald Berry 591-564-0585 Minnesota Ellen
2 Caitlin Barron 969-840-8580 Oklahoma Dubois
3 Felicia Stephens 154-858-1233 Alaska Veedersburg
4 Shelly Dennis 343-104-9365 Virginia Mattapex
5 Nicholas Hill 992-239-1954 Minnesota Moneta
6 Steve Bradshaw 164-081-7811 Colorado Ten
6 Steve Bradshaw 164-081-7811 Colorado Broeck
7 Gail Johnston 155-259-9514 Virginia Wayan
8 John Gray 409-892-4716 Pennsylvania Darlington
9 Katherine Bautista 185-861-1677 Texas McNab

需要特别注意的是,需要使用原始的连接新生成的,因为新生成的是一个series没有join方法,也可以通过将生成的series通过to_frame方法转换成DataFrame,这样就没有什么差异了

写了这么多,记住下面的就行了:
info.drop([‘city’], axis=1).join(info[‘city’].str.split(’ ', expand=True).stack().reset_index(level=1, drop=True).rename(‘city’))

如果原数据中已经是list了,可以将info[‘city’].str.split(’ ', expand=True)这部分替换成info[‘city’].apply(lambda x: pd.Series(x)),就可以达到相同的目的。

pandas某一列中每一行拆分成多行的方法相关推荐

  1. 【python】pandas某一列中每一行拆分成多行的方法

    在处理数据过程中,常会遇到将一条数据拆分成多条,比如一个人的地址信息中,可能有多条地址,既有家庭地址也有工作地址,还有电话信息等等类似的情况,实际使用数据的时候又需要分开处理,这个时候就需要将这一条数 ...

  2. 【数据平台】pandas将一列中的文本拆分成多行

    1.场景:如下图,要将cont中的字符串分割出词汇并单独成一行 2.一列中的文本拆分成多行的效果: 3.实现方法: 方法一: df=df.drop('cont', axis=1).join(df['c ...

  3. android webservices 返回多行多列数据,Pandas: 如何将一列中的文本拆分为多行?

    本文和大家分享的主要是使用 Pandas 将一列中的文本拆分为多行相关内容,一起来看看吧,希望对大家 学习 Pandas 有所帮助. 在数据处理过程中,经常会遇到以下类型的数据: 在同一列中,本该分别 ...

  4. pandas中将每一行数据拆分成多行的方法

    一.应用场景 用pandas处理数据时,我们经常会遇到将一行拆分成多行,或者将一列拆分成多列的方法,今天主要讲第一个问题,第二个问题下次讲.举个例子:我现有的数据如下: 其中TrainData是我需要 ...

  5. python 列表多行_Python Pandas list列表数据列拆分成多行的方法实现

    1.实现的效果 示例代码: df=pd.DataFrame({'A':[1,2],'B':[[1,2],[1,2]]}) df Out[458]: A B 0 1 [1, 2] 1 2 [1, 2] ...

  6. Pandas: 如何将一列中的文本拆分为多行?

    在数据处理过程中,经常会遇到以下类型的数据: 在同一列中,本该分别填入多行中的数据,被填在一行里了,然而在分析的时候,需要拆分成为多行. 在上图中,列名为"Country" ,in ...

  7. pandas去除两列中同一行有相同元素的数据——数据分析必备技能(5)

    废话不多说,直接跟小编进入今天的正文. 假设现在有一数据集,如下: import pandas as pdname = ['bob', 'mike','lisa','jay','alen','book ...

  8. 如何把excel中的一行复制成多行

    =INDEX(A:A,QUOTIENT(ROWS(A$1:A1)-1,3)+1) 自己留着用来看的,效果是把 1 2 3 4 变成 1 1 1 2 2 2 3 3 3 4 4 4 这样的格式

  9. pandas如何将一行拆分为多行,一列拆分为多列

    今天在工作中遇到要将pandas数据框的一行拆成多行,和一列拆为多列的需求,一台服务器中可以有多个网卡,每个网卡都有状态,通过网卡的上下行流量.下面以一组"数据"为例,来说一下pa ...

最新文章

  1. Linux/Ubuntu下安装QQ2012
  2. mongodb 安装与卸载
  3. VTK:迭代最近点变换用法实战
  4. 设计模式之_Strategy_04
  5. ppt flash倒计时器_PPT三大神器之iSlide插件
  6. HTML——meta标签
  7. java输出object object_js控制台显示[object Object]问题
  8. python 路径的操作
  9. 【新增esp8266设备订阅命令主题、响应平台命令、命令处理】esp8266接入华为云物联网平台(IOTDA)2.0
  10. WPF界面工具Telerik UI for WPF入门级教程 - Xaml VS NoXaml
  11. STM32HAL库微秒延时函数的实现---DWT和SysTick
  12. 内存设置无效: 内存预留 (sched.mem.min) 应该等于内存大小 (65536)
  13. P14-Vue-supermall项目-BetterScroll滚动插件基本使用
  14. mysql查询学生表的总人数_mysql数据库查询练习
  15. 利用腾讯公有云建设灾备中心的解决方案
  16. 分布式数据库发展历程SequoiaDB 简介
  17. Visual Studio2019自定义项目模板
  18. 【科普】微波雷达感应与人体红外感应的区别
  19. java多态优化多个if_脑壳疼!代码中那么多“烦人”的if else
  20. 使用xgplayer视频播放器播放视频时不显示总时长

热门文章

  1. D5:C#设计模式之四建造者模式(Builder Pattern)【创建型】
  2. 跳转支付宝扫描二维码,付款码,收款码,和手机计算器,日历
  3. 动力节点crm项目中登录无响应记录
  4. 高校选课系统前端页面设计
  5. bowtie 加mn标签_Bowtie2使用方法与参数详细介绍 - Public Library of Bioinformatics
  6. matlab对闭合轮廓进行多边形逼近,物体轮廓线的多边形拟合.PDF
  7. string::find()函数和string::npos函数的介绍
  8. informix 插入中文显示问号
  9. C语言判断字符串类型及个数并输出
  10. 初次入职,git使用教程:如何在idea使用git拉取代码,提交代码,以及在gitlab上发起合并请求