今天遇到的问题是,要将一份csv数据读入dataframe,但某些列中含有NA值。对于这些列来说,NA应该作为一个有意义的level,而不是缺失值,但read_csv函数会自动将类似的缺失值理解为缺失值并变为NaN。

看pandas文档中read_csv函数中这两个参数的描述,默认会将’-1.#IND’, ‘1.#QNAN’, ‘1.#IND’, ‘-1.#QNAN’, ‘#N/A N/A’,’#N/A’, ‘N/A’, ‘NA’, ‘#NA’, ‘NULL’, ‘NaN’, ‘-NaN’, ‘nan’, ‘-nan’, ''转换为NaN,且na_values参数还支持定义另外的应处理为缺失值的值。

值得注意的是keep_default_na参数,这个参数的作用是决定要不要保留默认应该转换的缺失值列表,将这个参数设为False之后同时不定义na_values参数,就可以在读取文件时不将任何值转换为缺失值NaN。

import pandas as pd
df = pd.read_csv('train.csv', keep_default_na=False)

pandas中read_csv的缺失值处理方式相关推荐

  1. 【Python基础】在pandas中利用hdf5高效存储数据

    1 简介 HDF5(Hierarchical Data Formal)是用于存储大规模数值数据的较为理想的存储格式. 其文件后缀名为h5,存储读取速度非常快,且可在文件内部按照明确的层次存储数据,同一 ...

  2. pandas用众数填充缺失值_7步搞定数据清洗-Python数据清洗指南

    脏数据就是在物理上临时存在过,但在逻辑上不存在的数据. 数据清洗是整个数据分析过程的第一步,就像做一道菜之前需要先择菜洗菜一样.数据分析师经常需要花费大量的时间来清洗数据或者转换格式,这个工作甚至会占 ...

  3. Python应用实战-在pandas中利用hdf5高效存储数据

    1 简介 HDF5(Hierarchical Data Formal)是用于存储大规模数值数据的较为理想的存储格式. 其文件后缀名为h5,存储读取速度非常快,且可在文件内部按照明确的层次存储数据,同一 ...

  4. pandas 中处理日期相减问题

    pandas 中处理日期相减问题. 假设 有这样 一个需求, 我获取了一组日期是某个人的通话日期, 我想计算出 这段时间里面, 没有通话的天数, 以及 连续3天以上没有通话的次数 #!/usr/bin ...

  5. pandas中的concat操作

    文章目录 前言 一.表结构相同,首尾合并 二.横向表连接 三.交叉合并 总结 前言 本文将介绍pandas中concat的数据合并方式,包括首位合并.横向表合并和交叉合并 一.表结构相同,首尾合并 # ...

  6. pandas用众数填充缺失值_缺而不失——pandas中常见缺失值处理方法

    缺失值的处理是一件艺术活,最高的境界应该是缺而不失.pandas中提供了非常丰富的工具来对缺失值进行处理.这里主要是对常用方法的简要介绍. 注:不同地区和软件对缺失值的表示方法不同,在用pandas读 ...

  7. pandas用众数填充缺失值_sklearn中的数据预处理和特征工程

    小伙伴们大家好~o()ブ,我是菜菜,我的开发环境是Jupyter lab,所用的库和版本大家参考: Python 3.7.1(你的版本至少要3.4以上 Scikit-learn 0.20.0 (你的版 ...

  8. pandas中DataFrame的ix,loc,iloc索引方式的异同

    pandas中DataFrame的ix,loc,iloc索引方式的异同 1.loc: 按照标签索引,范围包括start和end 2.iloc: 在位置上进行索引,不包括end 3.ix: 先在inde ...

  9. pandas使用dropna函数删除dataframe中全是缺失值的数据列(drop columns with all missing values in dataframe)

    pandas使用dropna函数删除dataframe中全是缺失值的数据列(drop columns with all missing values in dataframe) 目录

最新文章

  1. 正视CSS 08】巅峰对武之float你为什么要坍塌我的元素!!!
  2. 利用angular4和nodejs-express构建一个简单的网站(九)—用户登录
  3. 自己启动spark集群的实验记录
  4. 论文排版怕翻车?这个排版神器是时候用起来了!
  5. 洛谷 P1313 计算系数
  6. html5中如何自动跳转页面,实现HTML5上滑跳转页面的两种方法
  7. Could not open ServletContext resource [/WEB-INF/applicationContext.xml]”解决方案
  8. js类似matlab_JavaScript与MATLAB的计算性能差异对比研究
  9. SQL Server 阻止了对组件 'Ad Hoc Distributed Queries' 的 STATEM...
  10. Cesium:获取某个entity的位置属性 Cartesian3
  11. nuxt解决首屏加载慢问题_为什么Nuxt.js创建服务器端渲染的应用程序更有优势?...
  12. 自动驾驶 5-2 使用 PID 进行纵向速度控制 Longitudinal Speed Control with PID
  13. ArcGIS实验教程——实验四十三:ArcGIS栅格重分类(Reclass)案例详解
  14. C++洛谷题解(6)
  15. oracle 统计每天新增订单数量
  16. 5-22近期工作总结、下一步工作安排及技术知识
  17. 关于tomcat启动报错Error deploying web application directory [C:\......]出现的其中一种问题解决:
  18. 当一个女生说她要减肥的时候
  19. 腾讯新游侍魂上线,侍魂:胧月传说安卓模拟器电脑版详细教程
  20. 中国高纯铝市场供需与发展前景研究报告(2022版)

热门文章

  1. springboot 项目将本地引用打进jar包
  2. Java进阶篇(五)——Java的I/O技术
  3. 实用 | 从Apache Kafka到Apache Spark安全读取数据
  4. openresty url重写
  5. redis界面管理工具phpRedisAdmin 安装
  6. The Text Splitting (将字符串分成若干份,每份长度为p或q)
  7. Juce源代码分析(一)Juce的优势
  8. linux下如何查看文件大小 快速找到最大文件的方法
  9. 每个人眼中都有一个哈姆雷特
  10. 使用群集保障SQL Server 2005的高可用性(2)