数据分析与挖掘理论-数据探索
数据探索
- 一般而言,数据探索是样本数据集采集到后的第一步。
- 指的是通过检验数据集的数据质量、图表绘制、特征量计算等常见手段,对样本数据集的结构和规律进行分析的过程。
- 常见的数据探索角度分为数据质量分析和数据特征分析。
数据质量分析
- 数据挖掘的重要组成,数据预处理的前提,数据挖掘分析结论的有效性和准确性的基础。
- 主要任务:分析脏数据。(缺失值,异常值,不一致值,重复值)
- 缺失值
- 出现原因
- 无法获取信息
- 遗漏信息
- 属性值不存在
- 分析方法
- 统计分析
- 解决方法
- 删除缺失值记录
- 可能值插补
- 不做处理
- 出现原因
- 异常值
- 出现原因
- 获取的数据问题
- 分析方法
- 统计量分析(最大值最小值圈定范围)
- 正态分布分析
- 箱型图分析
- 出现原因
- 一致性分析
- 出现原因
- 数据来源问题
- 分析方法
- 比对
- 出现原因
- 缺失值
数据特征分析
- 质量分析的下一步。
- 通过图表、特征量进行特征分析。
- 分布分析
- 揭示数据的分布特征和分布类型
- 定量数据分布分析
- 分组合理
- 直方图
- 定性数据分布分析
- 饼图
- 条形图
- 对比分析
- 绝对数比较
- 相对数比较
- 统计量分析
- 集中趋势度量
- 离中趋势度量
- 周期性分析
- 周期性时序图
- 贡献度分析
- 80比例提升
- 相关性分析
- 散点图
- 散点图矩阵
- 相关系数
- Pearson相关系数
- Spearman秩相关系数
- 判定系数
- 分布分析
- 通过图表、特征量进行特征分析。
关于数据探索库函数的使用,可以参考我的博客
- 我的博客
关于数据探索测试脚本的使用,可以参考我的Github
- 我的GitHub
数据分析与挖掘理论-数据探索相关推荐
- 数据分析与挖掘理论-数据预处理
数据预处理 一般而言,数据分析和数据挖掘领域的处理的数据都是海量的数据,这样的数据难免会出现问题. 数据预处理占到数据挖掘工作的60%,这是最重要也是最核心的领域, 分为数据清洗.数据集成.数据变换和 ...
- 数据分析与挖掘理论-常用算法对比(纯理论较枯燥)
常见数据挖掘算法分析 概述 一般认为,数据挖掘领域所使用的方法均属于机器学习算法.深度学习算法和数据挖掘算法. 一般认为,数据挖掘领域的问题主要有分类.回归.聚类.推荐.图像识别.预测. 一般认为,数 ...
- 数据分析与挖掘理论-概述
数据分析与挖掘 个人理解 数据分析和数据挖掘是最近几年才出现的一个名词,其归根到底的目的就是经过一系列手段处理数据(集)得到一个适合的建模数据,利用建模数据建立模型分析挖掘已有数据的隐含价值. 一般步 ...
- 【数据分析与挖掘】数据分析学习及跟课学习 | csdn_Part 02 数据结构基础
依旧是整理笔记的一天,纸质笔记为了简便很多东西没有完全写上,一些小练习也没跟上,再进行练习的时候好像有点问题.尽量打字熟悉吧,并且对于这方面知识可以以专业角度去深挖,不要仅限于分析的理论层面.另外数据 ...
- 【数据分析与挖掘】数据分析学习及实践记录 | part 03-matplotlib常用统计图
开新坑啦!之前都是晚上七点以后开始学习,今天上午把matplotlib中文显示的问题解决,就开始刷课了.第三部分开启. 老规矩,先上图 01绘制散点图 开篇老师上手一个一周天气的练习. 我跟着标注的数 ...
- 第一章数据分析与挖掘概述
前言 马云曾说"中国正迎来从IT时代到DT时代的变革",DT就是大数据时代.随着移动互联网的发展,人们越来越感受到技术所带来的便捷,同时企业也将搜集到越来越多与用户相关的数据,包括 ...
- 视频教程-Python数据分析与挖掘-Python
Python数据分析与挖掘 浙江工商大学统计学硕士,数据分析师,曾担任唯品会大数据部担任数据分析师一职,负责支付环节的数据分析业务.曾与联想.亨氏.网鱼网咖等企业合作多个企业级项目. 刘顺祥 ¥99. ...
- Python数据分析与挖掘实战_张良均
一.Python数据分析工具 二.数据探索 一.对数据的质量分析 异常值的分析: 1. 简单的统计量分析:查看最大最小值是否在合理范围 2.3δ原则,在正态分布下异常值被定义为一组定值与平均值的距离超 ...
- 数据分析与挖掘-python常用数据探索函数
在python中,主要两个库用于数据探索,一个是Pandas(用于数据分析,这可能是数据分析领域最强的python库),另一个是Matplotlib(用于数据可视化,绘制图表,起源于MATLAB). ...
最新文章
- 关于git bush 中不能复制黏贴的问题
- shell中判断控制语句 if case
- python花萼长度表_Python 数据分析答疑 5:Pandas入门
- 一个黑魔法,竟能让Python支持方法重载
- KNN(K-Nearest Neighbor)分类算法原理
- python可以用来整理表格吗_Python将多份excel表格整理成一份表格
- 没有写入hosts文件权限
- .net core razor ajax,.NET CORE Razor Pages Ajax 调用 C# 方法
- python当输入0时结束_python输入-1时结束-女性时尚流行美容健康娱乐mv-ida网
- Java并发(三)——线程池
- java collection 常用类_分析Collection常用的实现类
- app安全渗透测试详细方法流程
- 关于亿图图示缩放锁定1%的问题
- C语言运算符的优先级与结合性
- ESP32 优化笔记(一)内存优化
- 单片机外部RAM如何用C 语言访问,C51中访问外部RAM的方法
- proc文件系统介绍
- littlefs系列:重要的数据结构
- 微服务架构与单体架构的区别
- 迅搜 php,安装、升级 - 权威指南 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎