今天遇到的问题是,要将一份csv数据读入dataframe,但某些列中含有NA值。对于这些列来说,NA应该作为一个有意义的level,而不是缺失值,但read_csv函数会自动将类似的缺失值理解为缺失值并变为NaN。
看pandas文档中read_csv函数中这两个参数的描述,默认会将’-1.#IND’, ‘1.#QNAN’, ‘1.#IND’, ‘-1.#QNAN’, ‘#N/A N/A’,’#N/A’, ‘N/A’, ‘NA’, ‘#NA’, ‘NULL’, ‘NaN’, ‘-NaN’, ‘nan’, ‘-nan’, ''转换为NaN,且na_values参数还支持定义另外的应处理为缺失值的值。

值得注意的是keep_default_na参数,这个参数的作用是决定要不要保留默认应该转换的缺失值列表,将这个参数设为False之后同时不定义na_values参数,就可以在读取文件时不将任何值转换为缺失值NaN。
例:

import pandas as pd
df = pd.read_csv('train.csv', keep_default_na=False)

pandas中read_csv的缺失值处理相关推荐

  1. pandas中read_csv的缺失值处理方式

    今天遇到的问题是,要将一份csv数据读入dataframe,但某些列中含有NA值.对于这些列来说,NA应该作为一个有意义的level,而不是缺失值,但read_csv函数会自动将类似的缺失值理解为缺失 ...

  2. pandas用众数填充缺失值_7步搞定数据清洗-Python数据清洗指南

    脏数据就是在物理上临时存在过,但在逻辑上不存在的数据. 数据清洗是整个数据分析过程的第一步,就像做一道菜之前需要先择菜洗菜一样.数据分析师经常需要花费大量的时间来清洗数据或者转换格式,这个工作甚至会占 ...

  3. pandas用众数填充缺失值_缺而不失——pandas中常见缺失值处理方法

    缺失值的处理是一件艺术活,最高的境界应该是缺而不失.pandas中提供了非常丰富的工具来对缺失值进行处理.这里主要是对常用方法的简要介绍. 注:不同地区和软件对缺失值的表示方法不同,在用pandas读 ...

  4. pandas使用dropna函数删除dataframe中全是缺失值的数据列(drop columns with all missing values in dataframe)

    pandas使用dropna函数删除dataframe中全是缺失值的数据列(drop columns with all missing values in dataframe) 目录

  5. pandas将列表list插入到dataframe的单元格中、pandas使用read_csv函数读取文件并设置保留数值的前置0( leading zeroes)

    pandas将列表list插入到dataframe的单元格中.pandas使用read_csv函数读取文件并设置保留数值的前置0( leading zeroes) 目录

  6. pandas使用read_csv函数读取文件并解析日期数据列(parse dates)、pandas使用read_csv函数读取文件并将缺失值转化为空字符串

    pandas使用read_csv函数读取文件并解析日期数据列(parse dates).pandas使用read_csv函数读取文件并将缺失值转化为空字符串 目录

  7. pandas使用dropna函数删除dataframe中列非缺失值的个数小于某一阈值的数据列

    pandas使用dropna函数删除dataframe中列非缺失值的个数小于某一阈值的数据列(drop columns with non missing values less than a thre ...

  8. pandas使用dropna函数删除dataframe中所有包含缺失值的数据行(drop rows which contain missing vlaues in dataframe)

    pandas使用dropna函数删除dataframe中所有包含缺失值的数据行(drop rows which contain missing vlaues in dataframe) 目录

  9. pandas使用dropna函数计算返回dataframe中不包含缺失值的行索引列表list(index of rows without missing values in dataframe)

    pandas使用dropna函数计算返回dataframe中不包含缺失值的行索引列表list(index of rows without missing values in dataframe) 目录

  10. pandas使用isna函数和any函数判断dataframe中的每一个数据列中是否包含缺失值

    pandas使用isna函数和any函数判断dataframe中的每一个数据列中是否包含缺失值(check if column contains any missing values in dataf ...

最新文章

  1. Solr 中遇到的问题
  2. spring 配置声明式事务 疯狂JAVA
  3. linux mysql odbc驱动安装_mysql odb驱动_Mysql的odbc driver安装配置(Linux)
  4. Java工程师必备技能
  5. xlib/x11:创建一个监测键盘事件的窗口-4-箭头控制窗口移动
  6. Visual Stdio 注册表相关路径
  7. PHP获取指定月的前N个月数据
  8. FIRST集和 FOLLOW集的计算
  9. 连手机热点宿主机无法连上VMvare linux Centos
  10. 【自然语言处理概述】文本词频分析
  11. [3DsMAX]建模软件的分享
  12. 信息学奥赛一本通-1042
  13. 广积粮筑高墙缓称王[写给求职的刚毕业的]
  14. python微信好友分析_基于python实现微信好友数据分析(简单)
  15. IIS支持APK文件下载的方法
  16. EEG情感分析综述(三)
  17. 华为交换机STP生成树协议
  18. 环网柜高压开关柜局放局部放电及温度在线监测的方案及报价格预算(供开关成套从业者参考学习研究)
  19. 计算机教室使用 灭火器,实验室灭火器的种类和使用方法
  20. Javascript使用三大家族和事件来DIY动画效果相关笔记(五)

热门文章

  1. Windows7下安装redmine-3.4.6
  2. JavaScriptjQuery.函数
  3. UGUI实现摇杆(模仿太极熊猫)
  4. Linux下进行源码安装时如何避免找不到那些使用--prefix指定目录安装的依赖
  5. WinForm软件开机自动启动详细方法
  6. Phalanger 【Php on .net】
  7. VC++的Unicode编程(经典之作,交流传薪)
  8. 如何让C/S应用支持多端(PC、Android、iOS)同时登录?
  9. 关于go语言的测试相关内容笔记
  10. 【bzoj 2461】[BeiJing2011]符环(高维dp+记忆化搜索)