作为统计的一员,用python来对数据做语出这一步骤是必需的,所以接下来就来总结一下python数据预处理的步骤吧,这里就不放数据了,直接上代码,代码后都有解释,有错误的尽管提出来哈。下面是流程图:

一、数据预览

import pandas as pd

import numpy as np

data=pd.read_csv('path',sep=',' ,header = 0,encoding='gbk',usecols=['col1','col2','col3'])#导入数据,把path改成文件路径;数据中有中文的话,就用encoding='gbk',没有中文的话就用encoding='utf-8';usecols是可以让我们选择哪几列

data.head()#查看前五行

data.info()#查看各字段的信息,其中包含行数、是否为空、字符类型

data.shape#查看数据集行列分布,几行几列

data.describe()#查看数据的描述性统计,其中包括总数、均值、标准方差、最小最大、第一四分位数、中位数

预览完数据后要检查是否有重复值。

d=0

for i in train.duplicated():

if i !=False:

d+=1

print("d:",d)

二、数据清洗

2.1 缺失值处理

data.isnull()#元素级别的判断,把对应的所

python 处理行列数据集数据_数据预处理(python)相关推荐

  1. 乐高ev3 读取外部数据_数据就是新乐高

    乐高ev3 读取外部数据 When I was a kid, I used to love playing with Lego. My brother and I built almost all k ...

  2. python异常值替换为缺失值_数据预处理之异常值(python)

    除了缺失值外,异常值也是数据中常有的噪音,但并非异常值都需要被处理,异常值出现的原因有很多,结合实际业务,他们往往可以被分为"真异常"和"假异常". 有时特定业 ...

  3. 数据增强 数据集扩充_数据扩充的抽象总结

    数据增强 数据集扩充 班级分配不均衡的创新解决方案 (A Creative Solution to Imbalanced Class Distribution) Imbalanced class di ...

  4. python3 array为什么不能放不同类型的数据_小白入门Python数据科学全教程lt;一gt;...

    前言 本文讲解了从零开始学习Python数据科学的全过程,涵盖各种工具和方法 你将会学习到如何使用python做基本的数据分析 你还可以了解机器学习算法的原理和使用 说明 先说一段题外话.我是一名数据 ...

  5. python 删除特定行数据_怎么用 Python 做数据分析实例

    01 生成数据表 第一部分是生成数据表,常见的生成方法有两种,第一种是导入外部数据,第二种是直接写入数据. Excel 中的文件菜单中提供了获取外部数据的功能,支持数据库和文本文件和页面的多种数据源导 ...

  6. python 处理大量数据_如何用python处理大量数据

    一般来说,用pandas处理小于100兆的数据,性能不是问题.当用pandas来处理100兆至几个G的数据时,将会比较耗时,同时会导致程序因内存不足而运行失败. 当然,像Spark这类的工具能够胜任处 ...

  7. 如何用python爬微博数据_怎样用python爬新浪微博大V所有数据?

    最近为了做事件分析写了一些微博的爬虫,两个大V总共爬了超70W的微博数据. 官方提供的api有爬取数量上限2000,想爬取的数据大了就不够用了... 果断撸起袖子自己动手!先简单说一下我的思路: 一. ...

  8. 用python爬微博数据_怎样用python爬新浪微博大V所有数据?

    最近为了做事件分析写了一些微博的爬虫,两个大V总共爬了超70W的微博数据. 官方提供的api有爬取数量上限2000,想爬取的数据大了就不够用了... 果断撸起袖子自己动手!先简单说一下我的思路: 一. ...

  9. linux中python如何调用matlab的数据_?如何在Python中加入多个数据帧?

    全文共2235字,预计学习时长7分钟 来源:Pexels 初学Python编程的人,面临的是各种未知的挑战. 下面是一个几乎让所有更有抱负的数据科学家都感到意外的场景: 你正在处理一个从多个源收集数据 ...

  10. 学习率和数据集规模_数据集和数据

    学习率和数据集规模 Often the words data and dataset are used interchangeably due to the understanding the wor ...

最新文章

  1. LPMS_IMU在TX2上使用
  2. TLS实现代码段加密
  3. 哈夫曼编码(Huffman)Java实现代码
  4. Entity Framework Core介绍(1)
  5. numpy安装_Python进阶之NumPy快速入门(一)
  6. 第四届HTML5峰会 - 上海站
  7. Cas单点登录配置数据查询用户
  8. 如何用 JavaScript+Canvas 开发一款超级烧脑小游戏?
  9. linux初始化驱动程序,linux驱动程序什么时间初始化
  10. 组合数学 —— 常用组合公式
  11. 泽勒的一致性,计算一周的星期几
  12. USRP X310使用的准备工作--Linux进行FPGA image烧录
  13. 运用腾讯云实现QQ语音通话
  14. 豆瓣电影评论爬取+情感分析+词云
  15. 单点登录 ( 踢人模式 )
  16. 如何检索IDC研究报告?
  17. android相册管理系统下载安装,云象相册管理
  18. uniapp switch开关插件带文字/icon图标 功能实现
  19. WASP: Win10+Apache+SQLServer+PHP
  20. html自定义字体demo,21.8.自定义字体

热门文章

  1. 若你是这五大姓,说不定万里长城为你而建,霍去病打的是你的祖先
  2. 香港科技大学(广州)信息枢纽手册
  3. Unity实现游戏中坦克运动控制(一)
  4. 教程:Python Open3d 完成 ICP 点云配准
  5. A3Mall 会员管理模块下测试用例编写
  6. linux代码段 java_java代码可以导致linux中的分段错误吗?
  7. 【Bootstrap学习笔记】12.轮播插件
  8. 关于ISE ILA和VIO的使用
  9. 算法-动态规划2图问题-TSP问题
  10. Revit二开 批量链接模型