python数据分列_Python pandas 数据无法正常分列
在数据处理时,有时需要对数据进行分列,类似于Excel里面的分列功能,这个在pandas里面也可以实现,下面就来详细介绍相关的方法及注意点,前提是你已经对pandas有一定的了解
导入数据
这里介绍的是从Excel导入数据,当然也可以从其他文件导入、数据库查询后导入等,为了弄清楚里面的细节,本教程从Excel导入数据
import pandas as pd
import numpy as np
data=pd.read_excel('split.xlsx')
查看原始数据及各列数据类型,可以看到指标、选项都是object类型,其中选项列没有缺失值
原始数据.png
对选项列进行分列
对导入的原始数据进行分列,这里运用的是pandas.Series.str.split方法,可以理解为把Series作为字符串进行分列操作,分列都是对字符串进行操作的
split_data=data['选项'].str.split(':',expand=True) #需要添加expand=True,使分列后的数据扩展为一个数据框
split_data
原始数据分列.png
可以明显看到分列后的数据,第1、5、6索引行全是缺失值,对比上面的原始数据,这些都是只有一个数字,难道分列方法split对只有一个数字不能分列吗?其实则并不然,实际的原因请往下看
寻找原因
查看Excel里面的数据寻找原因,发现选项所在列,单个数字在Excel单元格是数字,其他的都是文本,因Excel里面数字一般都是在单元格里面都是靠右对齐,而文本都是靠左对齐
Excel数据.png
但是pandas导入数据后,已经查看了选项列为object类型,难道判断的数据类型有问题?请继续往下看
强制转换数据类型,再次分列
data['选项']=data['选项'].astype('str')
#data['选项']=data['选项'].astype('object') #这两个代码都可以转换
split_data=data['选项'].str.split(':',expand=True)
split_data
数据类型转换后再分列.png
可以看到已经成功进行分列了,
说明pandas读取的数据,判断出来的数据类型并不一定是这一列所有数据的真实类型,而是能概括所有类型的一个较大的类型(兼容所有类型),并没有强制转换为同一个数据类型,比如选项列,里面有数值型、字符串型,那么较大的一个类型是object,pandas及认为该列数据类型是object
合并数据
split_data.columns=['s_1','s_2','s_3','s_4']
data.join(split_data) #join比较方便,根据索引直接对两个表进行链接,而merge需要设置链接时的字段
成功分列后数据.png
分列时注意事项
1.导入数据后一定要检查数据类型,不要急着去处理
2.分列前检查该列数据类型,确保该列数据类型都是字符串类型,或者object类型,当数据量很大的时候这个很容易出错
pandas里面数据类型对照
数据类型.jpg
作者:多66
python数据分列_Python pandas 数据无法正常分列相关推荐
- python dataframe函数_python pandas中DataFrame类型数据操作函数的方法
这篇文章主要介绍了关于python pandas中DataFrame类型数据操作函数的方法,有着一定的参考价值,现在分享给大家,有需要的朋友可以参考一下 python数据分析工具pandas中Data ...
- python抓取数据包_python抓数据包
广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 前言:数据科学越来越火了,网页是数据很大的一个来源. 最近很多人问怎么抓网页数据 ...
- python数据预处理_Python数据分析——数据预处理的方法
前言 1. 关于数据集 数据来源:日月光华老师的<Python数据分析从入门到机器学习>的 lianjia 数据. 数据概况: cjtaoshu:成交套数 mendian:门店 cjzon ...
- python读取dat数据anaconda_基于python的大数据分析-pandas数据读取(代码实战)
我们常见的数据存储格式无非就是csv.excel.txt以及数据库等形式. 数据读取 在pandas中可以使用一些函数完成数据的读取.比如read_csv.read_excel.read_table. ...
- python提取数据段_python提取数据段 python数据分析
如何在python中用slice分段取数据? 执行以下操作:>> a=range(6)>> a[0, 1, 2, 3, 4,5]>& ...
- python颜色表_Python:数据可视化,必须注意的30个小技巧
原标题:Python:数据可视化,必须注意的30个小技巧 优秀的数据可视化图表只是罗列.总结数据吗?当然不是!数据可视化其真正的价值是设计出可以被读者轻松理解的数据展示,因此在设计过程中,每一个选择, ...
- python 仪表盘实现_Python实现数据可视化看如何监控你的爬虫状态【推荐】
今天主要是来说一下怎么可视化来监控你的爬虫的状态. 相信大家在跑爬虫的过程中,也会好奇自己养的爬虫一分钟可以爬多少页面,多大的数据量,当然查询的方式多种多样.今天我来讲一种可视化的方法. 关于爬虫数据 ...
- python效率计算公式_Python: Pandas运算的效率探讨以及如何选择高效的运算方式
本文就Pandas的运行效率作一个对比的测试,来探讨用哪些方式,会使得运行效率较好. 测试环境如下: windows 7, 64位 python 3.5 pandas 0.19.2 numpy 1.1 ...
- python panda用法_Python Pandas用法入门
简介 首先pandas是基于numpy进行开发的. Pandas 的主要数据结构是 Series(一维数据)与 DataFrame(二维数据),这两种数据结构足以处理金融.统计.社会科学.工程等领域里 ...
最新文章
- hadoop完全分布式
- 一种新的url定向技术-使用@与/?
- [转]12篇学通C#网络编程——第二篇 HTTP应用编程(上)
- 在IntelliJ IDEA中添加repository模板
- MySQL数据库主从同步的3种一致性方案实现,及优劣比较
- 在Linux下开发多语言软件: Hello GetText!
- 信息学奥赛一本通(1104:计算书费)
- laydate日期插件使用
- Boost Graph Library 快速入门
- clock多少合适 core_修改Core Clock(核心频率)和Memory Clock(显存频率)
- 笨方法学习python--46--python项目骨架
- KafKa - 集群模式搭建
- Nginx代理百度地图离线瓦片
- 华师计算机前沿讲座课程论文,17春华师《教育技术前沿讲座》在线作业
- 处理RCV_TRANSACTIONS_INTERFACE的数据
- 联发科天玑 9200 旗舰芯片,有哪些亮点和不足
- 终于给自己买了台电脑
- Vue3源码阅读指南——计算属性(effectcomputed)
- xampp v3.2.2 php版本,xampp 3.2.2下载
- 基于Android Studio实现的学生蹭课APP
热门文章
- 是地价决定房价还是房价决定地价
- kubekey搭建K8s集群与kubeSphere容器云管理平台实战
- gcc与cmake、qmake与make、ninja
- 将windows 8安装到U盘随身带!
- Windos系统使用webdav协议将阿里云盘挂载在本地,并实现Notability等支持webdav协议软件的自动备份
- 3dsMax---二维图形[描图]
- 极限中0除以常数_考研数学极限重难点讲解003期【无穷小量和无穷大量】
- 3.4 jest使用pug
- 苹果终端date命令_mac终端常用命令
- 《论文阅读》Efficient LiDAR Odometry for Autonomous Driving