数据分析——数据处理
数据处理步骤
1.数据清洗
1)处理缺失值
①查看
df.info():查看数据基本信息
②查找
df.isna():查找DataFrame对象缺失值,缺失数据用True表示,False表示不缺失
df[‘列索引’].isna():指定列查找缺失值
Series.isna():查找Series对象缺失值
③删除
df.dropna():删除两大对象中含有缺失的数据(行)
df.dropna(subset=[‘列索引’]):删除指定列缺失的行
④填充
fillna()方法给缺失值填充数据
df[‘列索引’]=df[‘列索引’].fillna(‘补充数据’)
2)处理重复值
①查找
df.duplicated():查找DataFrame对象重复值,返回Series对象,重复为True,不重复为False
②查看
df[df.duplicated()]:列表索引查看数据(重复数据)
③删除
df.drop_duplicates():删除重复行
3)处理异常值
df.describe():描述性统计,返回以下结果
函数 | 含义 |
---|---|
count | 频数统计 |
mean | 平均值 |
std | 标准差 |
min | 最小值 |
max | 最大值 |
median | 中位数 |
计算机系统里:e+n代表的是10的n次方
布尔索引:对数据进行筛选:eg:df[年龄]>0
4)转换日期数据
pd.to_datatime(arg,format)
arg:pd[‘列索引’]=要转化的数据
format:format=’%Y-%m-%d’,占位匹配符在‘Y’,‘m’,'d’之前。Y大写,m和d小写
2.数据整理
提取时间信息:
Series.dt.year:提取年
Series.dt.month:提取月
Series.dt.day:提取日
添加新列:
df[‘colname’]=Series
3.数据写入
df.to_csv(path,encoding),index=False:将整理好的数据写入CSV文件中,index表示取消写入行索引
path为文件路劲(相对路径\绝对路径)
encoding为编码格式
4.离群值(outliers)
1)通过业务/领域知识,统计指标、数据可视化(描述性统计)识别离群值。
2)不可条件反射般剔除
3)数据丢失/录入或记录错误导致
知识点:集中趋势指标,离散趋势指标,双称正态分布且数据连续,偏态分布,类别数据(CDA考试知识点已列出来)
数据分析——数据处理相关推荐
- ML之FE:利用【数据分析+数据处理】算法对国内某平台上海2020年6月份房价数据集【12+1】进行特征工程处理(史上最完整,建议收藏)
ML之FE:利用[数据分析+数据处理]算法对国内某平台上海2020年6月份房价数据集[12+1]进行特征工程处理(史上最完整,建议收藏) 目录 利用[数据分析+数据处理]算法对链家房价数据集[12+1 ...
- 数据分析---数据处理工具pandas(二)
文章目录 数据分析---数据处理工具pandas(二) 一.Pandas数据结构Dataframe:基本概念及创建 1.DataFrame简介 2.创建Dataframe (1)方法一:由数组/lis ...
- python 数据分析--数据处理工具Pandas(2)
数据处理模块--Pandas 4. Pandas处理字符串和日期数据 5. Pandas 数据清洗 5.1 重复观测处理 5.2 缺失值处理 5.2.1 删除法 5.2.2 替换法 5.3 异常值处理 ...
- 互联网业务数据分析- 数据处理
本文简单介绍互联网业务数据分析中的数据处理,主要包括excel的数据格式化.数据清洗步骤以及数据的二次处理,此外,还简单介绍了数据如何进行快如呈现以及一些市面上较为好用的数据可视化工具.
- 基于python的大数据分析-数据处理(代码实战)
接着上篇继续.数据获取之后并不能直接分析或使用,因为里面有很多无效的垃圾数据,所以必须要经过处理才可以.数据处理的主要内容包括数据清洗.数据抽取.数据交换和数据计算等. 数据清洗 数据清洗是数据价值链 ...
- 【数学建模暑期培训】Matlab数据分析 数据处理 数据挖掘
文章目录 数据预处理任务 数据集成 数据变换 数据清洗 数据规约 主要处理函数 数据预处理任务 数据清洗:去掉数据中的噪声,纠正不一致 数据集成:将多个数据源合并成一致的数据存储,构成一个完整的数据集 ...
- ML之FE:对爬取的某平台二手房数据进行数据分析以及特征工程处理
ML之FE:对爬取的某平台二手房数据进行数据分析以及特征工程处理 目录 对爬取的某平台二手房数据进行数据分析以及特征工程处理 1.定义数据集 2.特征工程(数据分析+数据处理) 对爬取的某平台二手房数 ...
- nginx+flume网络流量日志实时数据分析实战
文章目录 nginx+flume网络流量日志实时数据分析实战 网络流量日志数据分析-概述 网络流量日志数据分析-数据处理流程 网络流量日志数据分析-数据采集 网站日志文件 启动nginx服务器: 刷新 ...
- 数据分析调研报告_CodingPark编程公园
文章结构速览 关系梳理 数据挖掘:从海量数据中找到隐藏的规则,数据分析:待分析的目标比较明确 数据分析更侧重业务,一般分析的目标比较明确,重点在观察数据,得出结论: 数据挖掘更侧重技术,利用统计学/机 ...
最新文章
- 机器学习(2)特征提取1 -- 字典特征提取
- python中处理日期和时间的标准模块是-Python time模块参考手册
- Servlet中转发和重定向的路径问题以及表单提交路径问题
- QT线程使用收集示例
- linux内核同步机制相关收集
- Moblin MID开发学习笔记 - application launcher安装过程
- PHP在不同页面间传递Json数据示例代码
- 7 orm 有批量更新_2020.12.24更新公告
- 关于精英版stm32从模板工程移植RTT Spi驱动打开后编译不过的处理办法
- 【Pre-Training】超细节的 BERT/Transformer 知识点
- 空格在科技类文章中对阅读体验的影响
- 「ubuntu」在Ubuntu Server 16.04 LTS下安装VMware Tools(转)
- [CI、CD入门]maven打包可执行程序之微服务-服务提供者篇
- Linux 系统日常巡检脚本
- Java不停的gc_java – 我的应用程序不断运行Full GC!
- 小白白红队初成长(4)文件的面纱
- Json数据的对比工具,对比库(含js在线对比工具,.net 的jsondiffer包)
- 尼古拉·特斯拉,到底有多神?
- ACL 2021 Question Answering
- timeGetTime函数用法