在数据处理时,有时需要对数据进行分列,类似于Excel里面的分列功能,这个在pandas里面也可以实现,下面就来详细介绍相关的方法及注意点,前提是你已经对pandas有一定的了解

导入数据

这里介绍的是从Excel导入数据,当然也可以从其他文件导入、数据库查询后导入等,为了弄清楚里面的细节,本教程从Excel导入数据

import pandas as pd

import numpy as np

data=pd.read_excel('split.xlsx')

查看原始数据及各列数据类型,可以看到指标、选项都是object类型,其中选项列没有缺失值

原始数据.png

对选项列进行分列

对导入的原始数据进行分列,这里运用的是pandas.Series.str.split方法,可以理解为把Series作为字符串进行分列操作,分列都是对字符串进行操作的

split_data=data['选项'].str.split(':',expand=True) #需要添加expand=True,使分列后的数据扩展为一个数据框

split_data

原始数据分列.png

可以明显看到分列后的数据,第1、5、6索引行全是缺失值,对比上面的原始数据,这些都是只有一个数字,难道分列方法split对只有一个数字不能分列吗?其实则并不然,实际的原因请往下看

寻找原因

查看Excel里面的数据寻找原因,发现选项所在列,单个数字在Excel单元格是数字,其他的都是文本,因Excel里面数字一般都是在单元格里面都是靠右对齐,而文本都是靠左对齐

Excel数据.png

但是pandas导入数据后,已经查看了选项列为object类型,难道判断的数据类型有问题?请继续往下看

强制转换数据类型,再次分列

data['选项']=data['选项'].astype('str')

#data['选项']=data['选项'].astype('object') #这两个代码都可以转换

split_data=data['选项'].str.split(':',expand=True)

split_data

数据类型转换后再分列.png

可以看到已经成功进行分列了,

说明pandas读取的数据,判断出来的数据类型并不一定是这一列所有数据的真实类型,而是能概括所有类型的一个较大的类型(兼容所有类型),并没有强制转换为同一个数据类型,比如选项列,里面有数值型、字符串型,那么较大的一个类型是object,pandas及认为该列数据类型是object

合并数据

split_data.columns=['s_1','s_2','s_3','s_4']

data.join(split_data) #join比较方便,根据索引直接对两个表进行链接,而merge需要设置链接时的字段

成功分列后数据.png

分列时注意事项

1.导入数据后一定要检查数据类型,不要急着去处理

2.分列前检查该列数据类型,确保该列数据类型都是字符串类型,或者object类型,当数据量很大的时候这个很容易出错

pandas里面数据类型对照

数据类型.jpg

作者:多66

python数据分列_Python pandas 数据无法正常分列相关推荐

  1. python dataframe函数_python pandas中DataFrame类型数据操作函数的方法

    这篇文章主要介绍了关于python pandas中DataFrame类型数据操作函数的方法,有着一定的参考价值,现在分享给大家,有需要的朋友可以参考一下 python数据分析工具pandas中Data ...

  2. python抓取数据包_python抓数据包

    广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 前言:数据科学越来越火了,网页是数据很大的一个来源. 最近很多人问怎么抓网页数据 ...

  3. python数据预处理_Python数据分析——数据预处理的方法

    前言 1. 关于数据集 数据来源:日月光华老师的<Python数据分析从入门到机器学习>的 lianjia 数据. 数据概况: cjtaoshu:成交套数 mendian:门店 cjzon ...

  4. python读取dat数据anaconda_基于python的大数据分析-pandas数据读取(代码实战)

    我们常见的数据存储格式无非就是csv.excel.txt以及数据库等形式. 数据读取 在pandas中可以使用一些函数完成数据的读取.比如read_csv.read_excel.read_table. ...

  5. python提取数据段_python提取数据段 python数据分析

    如何在python中用slice分段取数据? 执行以下操作:&gt&gt a=range(6)&gt&gt a[0, 1, 2, 3, 4,5]&gt& ...

  6. python颜色表_Python:数据可视化,必须注意的30个小技巧

    原标题:Python:数据可视化,必须注意的30个小技巧 优秀的数据可视化图表只是罗列.总结数据吗?当然不是!数据可视化其真正的价值是设计出可以被读者轻松理解的数据展示,因此在设计过程中,每一个选择, ...

  7. python 仪表盘实现_Python实现数据可视化看如何监控你的爬虫状态【推荐】

    今天主要是来说一下怎么可视化来监控你的爬虫的状态. 相信大家在跑爬虫的过程中,也会好奇自己养的爬虫一分钟可以爬多少页面,多大的数据量,当然查询的方式多种多样.今天我来讲一种可视化的方法. 关于爬虫数据 ...

  8. python效率计算公式_Python: Pandas运算的效率探讨以及如何选择高效的运算方式

    本文就Pandas的运行效率作一个对比的测试,来探讨用哪些方式,会使得运行效率较好. 测试环境如下: windows 7, 64位 python 3.5 pandas 0.19.2 numpy 1.1 ...

  9. python panda用法_Python Pandas用法入门

    简介 首先pandas是基于numpy进行开发的. Pandas 的主要数据结构是 Series(一维数据)与 DataFrame(二维数据),这两种数据结构足以处理金融.统计.社会科学.工程等领域里 ...

最新文章

  1. hadoop完全分布式
  2. 一种新的url定向技术-使用@与/?
  3. [转]12篇学通C#网络编程——第二篇 HTTP应用编程(上)
  4. 在IntelliJ IDEA中添加repository模板
  5. MySQL数据库主从同步的3种一致性方案实现,及优劣比较
  6. 在Linux下开发多语言软件: Hello GetText!
  7. 信息学奥赛一本通(1104:计算书费)
  8. laydate日期插件使用
  9. Boost Graph Library 快速入门
  10. clock多少合适 core_修改Core Clock(核心频率)和Memory Clock(显存频率)
  11. 笨方法学习python--46--python项目骨架
  12. KafKa - 集群模式搭建
  13. Nginx代理百度地图离线瓦片
  14. 华师计算机前沿讲座课程论文,17春华师《教育技术前沿讲座》在线作业
  15. 处理RCV_TRANSACTIONS_INTERFACE的数据
  16. 联发科天玑 9200 旗舰芯片,有哪些亮点和不足
  17. 终于给自己买了台电脑
  18. Vue3源码阅读指南——计算属性(effectcomputed)
  19. xampp v3.2.2 php版本,xampp 3.2.2下载
  20. 基于Android Studio实现的学生蹭课APP

热门文章

  1. 是地价决定房价还是房价决定地价
  2. kubekey搭建K8s集群与kubeSphere容器云管理平台实战
  3. gcc与cmake、qmake与make、ninja
  4. 将windows 8安装到U盘随身带!
  5. Windos系统使用webdav协议将阿里云盘挂载在本地,并实现Notability等支持webdav协议软件的自动备份
  6. 3dsMax---二维图形[描图]
  7. 极限中0除以常数_考研数学极限重难点讲解003期【无穷小量和无穷大量】
  8. 3.4 jest使用pug
  9. 苹果终端date命令_mac终端常用命令
  10. 《论文阅读》Efficient LiDAR Odometry for Autonomous Driving