1、格式错误数据

数据格式错误的单元格可能使分析数据变得困难,甚至不可能。

要解决此问题,有两个选择:删除行,或将列中的所有单元格转换为相同格式。

2、转换成正确的格式

在我们的Data Frame中,我们有两个格式错误的单元格。看看第22行和第26行,'Date'列应该是一个表示日期的字符串:Duration Date Pulse Maxpulse Calories

0 60 '2020/12/01' 110 130 409.1

1 60 '2020/12/02' 117 145 479.0

2 60 '2020/12/03' 103 135 340.0

3 45 '2020/12/04' 109 175 282.4

4 45 '2020/12/05' 117 148 406.0

5 60 '2020/12/06' 102 127 300.0

6 60 '2020/12/07' 110 136 374.0

7 450 '2020/12/08' 104 134 253.3

8 30 '2020/12/09' 109 133 195.1

9 60 '2020/12/10' 98 124 269.0

10 60 '2020/12/11' 103 147 329.3

11 60 '2020/12/12' 100 120 250.7

12 60 '2020/12/12' 100 120 250.7

13 60 '2020/12/13' 106 128 345.3

14 60 '2020/12/14' 104 132 379.3

15 60 '2020/12/15' 98 123 275.0

16 60 '2020/12/16' 98 120 215.2

17 60 '2020/12/17' 100 120 300.0

18 45 '2020/12/18' 90 112 NaN

19 60 '2020/12/19' 103 123 323.0

20 45 '2020/12/20' 97 125 243.0

21 60 '2020/12/21' 108 131 364.2

22 45 NaN 100 119 282.0

23 60 '2020/12/23' 130 101 300.0

24 45 '2020/12/24' 105 132 246.0

25 60 '2020/12/25' 102 126 334.5

26 60 20201226 100 120 250.0

27 60 '2020/12/27' 92 118 241.0

28 60 '2020/12/28' 103 132 NaN

29 60 '2020/12/29' 100 132 280.0

30 60 '2020/12/30' 102 129 380.3

31 60 '2020/12/31' 92 115 243.0

让我们尝试将'Date'列中的所有单元格都转换为日期。

Pandas为此有一个to_datetime()方法:

例如:

转换为日期:import pandas as pd

df = pd.read_csv('data.csv')

df['Date'] = pd.to_datetime(df['Date'])

print(df.to_string())

Result:Duration Date Pulse Maxpulse Calories

0 60 '2020/12/01' 110 130 409.1

1 60 '2020/12/02' 117 145 479.0

2 60 '2020/12/03' 103 135 340.0

3 45 '2020/12/04' 109 175 282.4

4 45 '2020/12/05' 117 148 406.0

5 60 '2020/12/06' 102 127 300.0

6 60 '2020/12/07' 110 136 374.0

7 450 '2020/12/08' 104 134 253.3

8 30 '2020/12/09' 109 133 195.1

9 60 '2020/12/10' 98 124 269.0

10 60 '2020/12/11' 103 147 329.3

11 60 '2020/12/12' 100 120 250.7

12 60 '2020/12/12' 100 120 250.7

13 60 '2020/12/13' 106 128 345.3

14 60 '2020/12/14' 104 132 379.3

15 60 '2020/12/15' 98 123 275.0

16 60 '2020/12/16' 98 120 215.2

17 60 '2020/12/17' 100 120 300.0

18 45 '2020/12/18' 90 112 NaN

19 60 '2020/12/19' 103 123 323.0

20 45 '2020/12/20' 97 125 243.0

21 60 '2020/12/21' 108 131 364.2

22 45 NaT 100 119 282.0

23 60 '2020/12/23' 130 101 300.0

24 45 '2020/12/24' 105 132 246.0

25 60 '2020/12/25' 102 126 334.5

26 60 '2020/12/26' 100 120 250.0

27 60 '2020/12/27' 92 118 241.0

28 60 '2020/12/28' 103 132 NaN

29 60 '2020/12/29' 100 132 280.0

30 60 '2020/12/30' 102 129 380.3

31 60 '2020/12/31' 92 115 243.0

正如从结果中看到的,第26行中的日期是固定的,但是第22行中的空日期得到了一个NaT(不是时间)值,换句话说,是一个空值。处理空值的一种方法是简单地删除整个行。

3、删除行

上面示例中转换的结果为我们提供了一个NaT值,可以将其作为NULL值进行处理,我们可以通过使用

dropna()方法。

例如:

删除"Date"列中值为NULL的行:df.dropna(subset=['Date'], inplace = True)

csv格式清洗与转换python123,Python Pandas 清理错误格式数据相关推荐

  1. csv格式清洗与转换python_实例详解Python中 CSV格式清洗与转换

    Python中 CSV格式清洗与转换的实例代码 题目: CSV格式清洗与转换 描述 附件是一个CSV格式文件,提取数据进行如下格式转换:‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬ ...

  2. Python123 CSV格式清洗与转换

    Python123 CSV格式清洗与转换 题目描述 原始代码 简化代码 题目描述 附件是一个CSV格式文件,提取数据进行如下格式转换:‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪ ...

  3. 第7周 CSV格式清洗与转换

    CSV格式清洗与转换 描述 附件是一个CSV格式文件,提取数据进行如下格式转换:‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬ ...

  4. 【图片格式转换】python实现批量图片格式转换:emf、jpeg等转为png

    [图片格式转换]python批量进行图片格式转换emf.jpeg等转为png 文章目录 [图片格式转换]python批量进行图片格式转换emf.jpeg等转为png 1. 代码 2. 效果 3. 总结 ...

  5. pythoncsv格式清洗与转换_数据预处理-清洗转换

    当数据质量校验完成后,针对有问题的数据要进行的是数据清洗和转换,另外还包括对正常数据的转换.数据清洗的主要作用包括:纠正错误.删除重复项.统一规格.修正逻辑.转换构造和数据压缩. 1. 纠正错误 错误 ...

  6. python | Pandas库导入Excel数据(xlsx格式文件)函数:read_excel()

    导入csv格式文件 python | Pandas库导入csv格式文件函数:read_excel()https://mp.csdn.net/mp_blog/creation/editor/123951 ...

  7. python收入波动告警分析_使用Python/Pandas分析告警日志数据

    作者:吕磊 文章来自微信公众号:平台人生 Python Python是一种面向对象的解释型程序设计语言.作为一种脚本语言,Python在运行性能上相对C/C++等编译型语言有一定不足,但Python语 ...

  8. python pandas处理excel 统计数据_pandas数据分析输出excel产生文本形式存储的百分比数据,如何处理?...

    Apple iPhone 11 (A2223) 128GB 黑色 移动联通电信4G手机 双卡双待 4999元包邮 去购买 > 关键词: python.pandas.to_excel.文本形式存储 ...

  9. python pandas处理excel 统计数据_python使用pandas处理excel数据

    使用Python Pandas库读取excel文件(.xlsx, .xls). 使用pandas的 read_excel()方法来读取excel数据,可以读取第一个sheet,指定的sheet,多个s ...

最新文章

  1. Leetcode 279 完美平方数
  2. 使用npm安装一些包失败了的看过来(npm国内镜像介绍)
  3. LightOJ 1336. Sigma Function
  4. 云服务器如何链接本地打印机_如何在服务器上安装网络打印机
  5. linux压缩到最小命令,Linux压缩打包命令
  6. GDELT数据库入门与了解(码字中...)
  7. win10安装Dreamweaver cc 2019报无法写入注册表的错误
  8. 椭圆曲线上的加密算法——MV(Menezes-Vanstone)算法的具体实现
  9. Python的三元运算符
  10. [607]appium根据屏幕大小滑动界面|通过坐标定位元素
  11. 趣图:公司里来了一个程序员鼓励师
  12. 极客时间专栏内容的个人分析
  13. 数字孪生3D可视化技术重构和模拟再现工业建筑真实场景
  14. 【VBScript】MsgBox()函数
  15. Windows Server CA证书颁发机构续订
  16. 好的决策是怎么产生的
  17. 一晚上写出来的游戏 苹果也会推荐!
  18. 电力电子技术(14)——整流电路的有源逆变工作状态
  19. 2014中国CRM与商业IT展览会(上交会专题)
  20. 从零搭建Linux服务器以及部署Web项目指南

热门文章

  1. css3 下边框缓缓划过_CSS3 框大小
  2. markdown 入门1--标题目录代码图片
  3. Python 中拼音库 PyPinyin 的用法,没错见名知意它就是用来翻译汉字的
  4. Python使用pyexecjs代码案例解析
  5. 多进程服务器(python 版)
  6. python 学习手册重点
  7. Python安装第三方库的3种方法
  8. 使用 jQuery Mobile 与 HTML5 开发 Web App —— jQuery Mobile 默认配置与事件基础
  9. C#中Invoke 和 BeginInvoke 的区别
  10. android图片异步加载解决步骤