【python】pandas某一列中每一行拆分成多行的方法
在处理数据过程中,常会遇到将一条数据拆分成多条,比如一个人的地址信息中,可能有多条地址,既有家庭地址也有工作地址,还有电话信息等等类似的情况,实际使用数据的时候又需要分开处理,这个时候就需要将这一条数据进行拆分成多条,以方便使用。
在pandas中如何对DataFrame进行相关操作呢,经查阅相关资料,发现了一个简单的办法,
info.drop(['city'], axis=1).join(info['city'].str.split(' ', expand=True).stack().reset_index(level=1, drop=True).rename('city'))
1
看起来非常之长,分开来看,流程如下:
- 将需要拆分的数据使用split拆分工具拆分,并使用expand功能拆分成多列
- 将拆分后的多列数据进行列转行操作(stack),合并成一列
- 将生成的复合索引重新进行reset保留原始的索引,并命名
- 将上面处理后的DataFrame和原始DataFrame进行join操作,默认使用的是索引进行连接
具体操作如下:
预操作:生成需要使用的DataFrame
# 用来生成DataFrame的工具
from pydbgen import pydbgen
myDB=pydbgen.pydb()# 生成一个DataFrame
info = myDB.gen_dataframe(10,['name','phone','city','state'])
123456
结果如下:
name | phone-number | city | state | |
---|---|---|---|---|
0 | Hannah Richard | 810-859-7815 | Irwinville | Louisiana |
1 | Ronald Berry | 591-564-0585 | Glen Ellen | Minnesota |
2 | Caitlin Barron | 969-840-8580 | Dubois | Oklahoma |
3 | Felicia Stephens | 154-858-1233 | Veedersburg | Alaska |
4 | Shelly Dennis | 343-104-9365 | Mattapex | Virginia |
5 | Nicholas Hill | 992-239-1954 | Moneta | Minnesota |
6 | Steve Bradshaw | 164-081-7811 | Ten Broeck | Colorado |
7 | Gail Johnston | 155-259-9514 | Wayan | Virginia |
8 | John Gray | 409-892-4716 | Darlington | Pennsylvania |
9 | Katherine Bautista | 185-861-1677 | McNab | Texas |
假如现在我们要对city列进行进行拆分,按照空格拆分,转换成多行的数据,
第一步:拆分,生成多列
info_city = info['city'].str.split(' ', expand=True)
1
结果如下:
0 | 1 | |
---|---|---|
0 | Irwinville | None |
1 | Glen | Ellen |
2 | Dubois | None |
3 | Veedersburg | None |
4 | Mattapex | None |
5 | Moneta | None |
6 | Ten | Broeck |
7 | Wayan | None |
8 | Darlington | None |
9 | McNab | None |
可以看到已经将原始数据拆分成了2列,对于无法拆分的数据为None
第二步:行转列
info_city = info_city.stack()
1
结果如下:
0 | 0 | Irwinville |
1 | 0 | Glen |
1 | Ellen | |
2 | 0 | Dubois |
3 | 0 | Veedersburg |
4 | 0 | Mattapex |
5 | 0 | Moneta |
6 | 0 | Ten |
1 | Broeck | |
7 | 0 | Wayan |
8 | 0 | Darlington |
9 | 0 | McNab |
其中前面两列是索引,返回的是一个series,没有名字的series
第三步:重置索引,并命名(并删除多于的索引)
info_city = info_city.reset_index(level=1, drop=True)
1
结果如下:
0 | Irwinville |
1 | Glen |
1 | Ellen |
2 | Dubois |
3 | Veedersburg |
4 | Mattapex |
5 | Moneta |
6 | Ten |
6 | Broeck |
7 | Wayan |
8 | Darlington |
9 | McNab |
第四步:和原始数据合并
info_new = info.drop(['city'], axis=1).join(info_city)
1
结果如下:
name | phone-number | state | city | |
---|---|---|---|---|
0 | Hannah Richard | 810-859-7815 | Louisiana | Irwinville |
1 | Ronald Berry | 591-564-0585 | Minnesota | Glen |
1 | Ronald Berry | 591-564-0585 | Minnesota | Ellen |
2 | Caitlin Barron | 969-840-8580 | Oklahoma | Dubois |
3 | Felicia Stephens | 154-858-1233 | Alaska | Veedersburg |
4 | Shelly Dennis | 343-104-9365 | Virginia | Mattapex |
5 | Nicholas Hill | 992-239-1954 | Minnesota | Moneta |
6 | Steve Bradshaw | 164-081-7811 | Colorado | Ten |
6 | Steve Bradshaw | 164-081-7811 | Colorado | Broeck |
7 | Gail Johnston | 155-259-9514 | Virginia | Wayan |
8 | John Gray | 409-892-4716 | Pennsylvania | Darlington |
9 | Katherine Bautista | 185-861-1677 | Texas | McNab |
需要特别注意的是,需要使用原始的连接新生成的,因为新生成的是一个series没有join方法,也可以通过将生成的series通过to_frame方法转换成DataFrame,这样就没有什么差异了
写了这么多,记住下面的就行了:
info.drop([‘city’], axis=1).join(info[‘city’].str.split(’ ', expand=True).stack().reset_index(level=1, drop=True).rename(‘city’))
如果原数据中已经是list了,可以将info[‘city’].str.split(’ ', expand=True)
这部分替换成info[‘city’].apply(lambda x: pd.Series(x))
,就可以达到相同的目的。
【python】pandas某一列中每一行拆分成多行的方法相关推荐
- pandas某一列中每一行拆分成多行的方法
在处理数据过程中,常会遇到将一条数据拆分成多条,比如一个人的地址信息中,可能有多条地址,既有家庭地址也有工作地址,还有电话信息等等类似的情况,实际使用数据的时候又需要分开处理,这个时候就需要将这一条数 ...
- 【数据平台】pandas将一列中的文本拆分成多行
1.场景:如下图,要将cont中的字符串分割出词汇并单独成一行 2.一列中的文本拆分成多行的效果: 3.实现方法: 方法一: df=df.drop('cont', axis=1).join(df['c ...
- android webservices 返回多行多列数据,Pandas: 如何将一列中的文本拆分为多行?
本文和大家分享的主要是使用 Pandas 将一列中的文本拆分为多行相关内容,一起来看看吧,希望对大家 学习 Pandas 有所帮助. 在数据处理过程中,经常会遇到以下类型的数据: 在同一列中,本该分别 ...
- python 列表多行_Python Pandas list列表数据列拆分成多行的方法实现
1.实现的效果 示例代码: df=pd.DataFrame({'A':[1,2],'B':[[1,2],[1,2]]}) df Out[458]: A B 0 1 [1, 2] 1 2 [1, 2] ...
- pandas中将每一行数据拆分成多行的方法
一.应用场景 用pandas处理数据时,我们经常会遇到将一行拆分成多行,或者将一列拆分成多列的方法,今天主要讲第一个问题,第二个问题下次讲.举个例子:我现有的数据如下: 其中TrainData是我需要 ...
- Pandas: 如何将一列中的文本拆分为多行?
在数据处理过程中,经常会遇到以下类型的数据: 在同一列中,本该分别填入多行中的数据,被填在一行里了,然而在分析的时候,需要拆分成为多行. 在上图中,列名为"Country" ,in ...
- pandas去除两列中同一行有相同元素的数据——数据分析必备技能(5)
废话不多说,直接跟小编进入今天的正文. 假设现在有一数据集,如下: import pandas as pdname = ['bob', 'mike','lisa','jay','alen','book ...
- python pandas检验一列中是否只有一个值
主要用到的工具类: def has_single_value(series):begin = series[0]for value in series:if begin != value:return ...
- python: 找到dataframe某列中含有特定字段字符串的行 遍历dataframe 函数返回为空 找到特定单元格
题目描述: 6.) Proving Afzal Wrong We have detoured from the original aim of this question for long enoug ...
最新文章
- ubuntu重启+sublime快捷键
- 强制结束后台作业(SAP SM37 SM35 SM50)
- 计算机组装学位,《计算机组装与维护》虚拟实验界面设计与制作学位论文 .doc...
- php 文件保存函数,PHP文件函数
- Keras中文文档:图像预处理ImageDataGenerator 类详细学习记录
- 【OpenGL 实验一】图元的生成+区域填充
- thinkphp5拼接数组查询条件
- pr2020视频剪辑出现闪烁抖动
- python求解中位数、均值、众数
- HDU6070(线段树)
- Android中setPositiveButton和setNegativeButton
- 测试工作中比较好用的几款对比工具
- 转载:一位顶级黑客编写的最强反编译器
- XPS如何在线批量转换成PDF
- 「ML 实践篇」模型训练
- 百度有钱联盟邀请码有效期48小时
- 毕业论文管理系统的设计与实现
- 学业情绪量表数据的基本处理与SPSS分析思路
- lombok链式编程
- Java面试题收集(三)