数据探索

  • 一般而言,数据探索是样本数据集采集到后的第一步。
  • 指的是通过检验数据集的数据质量、图表绘制、特征量计算等常见手段,对样本数据集的结构和规律进行分析的过程。
  • 常见的数据探索角度分为数据质量分析和数据特征分析。

数据质量分析

  • 数据挖掘的重要组成,数据预处理的前提,数据挖掘分析结论的有效性和准确性的基础。
  • 主要任务:分析脏数据。(缺失值,异常值,不一致值,重复值)
    • 缺失值

      • 出现原因

        • 无法获取信息
        • 遗漏信息
        • 属性值不存在
      • 分析方法
        • 统计分析
      • 解决方法
        • 删除缺失值记录
        • 可能值插补
        • 不做处理
    • 异常值
      • 出现原因

        • 获取的数据问题
      • 分析方法
        • 统计量分析(最大值最小值圈定范围)
        • 正态分布分析
        • 箱型图分析
    • 一致性分析
      • 出现原因

        • 数据来源问题
      • 分析方法
        • 比对

数据特征分析

  • 质量分析的下一步。

    • 通过图表、特征量进行特征分析。

      • 分布分析

        • 揭示数据的分布特征和分布类型
        • 定量数据分布分析
          • 分组合理
          • 直方图
        • 定性数据分布分析
          • 饼图
          • 条形图
      • 对比分析
        • 绝对数比较
        • 相对数比较
      • 统计量分析
        • 集中趋势度量
        • 离中趋势度量
      • 周期性分析
        • 周期性时序图
      • 贡献度分析
        • 80比例提升
      • 相关性分析
        • 散点图
        • 散点图矩阵
        • 相关系数
          • Pearson相关系数
          • Spearman秩相关系数
          • 判定系数

关于数据探索库函数的使用,可以参考我的博客

  • 我的博客

关于数据探索测试脚本的使用,可以参考我的Github

  • 我的GitHub

数据分析与挖掘理论-数据探索相关推荐

  1. 数据分析与挖掘理论-数据预处理

    数据预处理 一般而言,数据分析和数据挖掘领域的处理的数据都是海量的数据,这样的数据难免会出现问题. 数据预处理占到数据挖掘工作的60%,这是最重要也是最核心的领域, 分为数据清洗.数据集成.数据变换和 ...

  2. 数据分析与挖掘理论-常用算法对比(纯理论较枯燥)

    常见数据挖掘算法分析 概述 一般认为,数据挖掘领域所使用的方法均属于机器学习算法.深度学习算法和数据挖掘算法. 一般认为,数据挖掘领域的问题主要有分类.回归.聚类.推荐.图像识别.预测. 一般认为,数 ...

  3. 数据分析与挖掘理论-概述

    数据分析与挖掘 个人理解 数据分析和数据挖掘是最近几年才出现的一个名词,其归根到底的目的就是经过一系列手段处理数据(集)得到一个适合的建模数据,利用建模数据建立模型分析挖掘已有数据的隐含价值. 一般步 ...

  4. 【数据分析与挖掘】数据分析学习及跟课学习 | csdn_Part 02 数据结构基础

    依旧是整理笔记的一天,纸质笔记为了简便很多东西没有完全写上,一些小练习也没跟上,再进行练习的时候好像有点问题.尽量打字熟悉吧,并且对于这方面知识可以以专业角度去深挖,不要仅限于分析的理论层面.另外数据 ...

  5. 【数据分析与挖掘】数据分析学习及实践记录 | part 03-matplotlib常用统计图

    开新坑啦!之前都是晚上七点以后开始学习,今天上午把matplotlib中文显示的问题解决,就开始刷课了.第三部分开启. 老规矩,先上图 01绘制散点图 开篇老师上手一个一周天气的练习. 我跟着标注的数 ...

  6. 第一章数据分析与挖掘概述

    前言 马云曾说"中国正迎来从IT时代到DT时代的变革",DT就是大数据时代.随着移动互联网的发展,人们越来越感受到技术所带来的便捷,同时企业也将搜集到越来越多与用户相关的数据,包括 ...

  7. 视频教程-Python数据分析与挖掘-Python

    Python数据分析与挖掘 浙江工商大学统计学硕士,数据分析师,曾担任唯品会大数据部担任数据分析师一职,负责支付环节的数据分析业务.曾与联想.亨氏.网鱼网咖等企业合作多个企业级项目. 刘顺祥 ¥99. ...

  8. Python数据分析与挖掘实战_张良均

    一.Python数据分析工具 二.数据探索 一.对数据的质量分析 异常值的分析: 1. 简单的统计量分析:查看最大最小值是否在合理范围 2.3δ原则,在正态分布下异常值被定义为一组定值与平均值的距离超 ...

  9. 数据分析与挖掘-python常用数据探索函数

    在python中,主要两个库用于数据探索,一个是Pandas(用于数据分析,这可能是数据分析领域最强的python库),另一个是Matplotlib(用于数据可视化,绘制图表,起源于MATLAB). ...

最新文章

  1. 关于git bush 中不能复制黏贴的问题
  2. shell中判断控制语句 if case
  3. python花萼长度表_Python 数据分析答疑 5:Pandas入门
  4. 一个黑魔法,竟能让Python支持方法重载
  5. KNN(K-Nearest Neighbor)分类算法原理
  6. python可以用来整理表格吗_Python将多份excel表格整理成一份表格
  7. 没有写入hosts文件权限
  8. .net core razor ajax,.NET CORE Razor Pages Ajax 调用 C# 方法
  9. python当输入0时结束_python输入-1时结束-女性时尚流行美容健康娱乐mv-ida网
  10. Java并发(三)——线程池
  11. java collection 常用类_分析Collection常用的实现类
  12. app安全渗透测试详细方法流程
  13. 关于亿图图示缩放锁定1%的问题
  14. C语言运算符的优先级与结合性
  15. ESP32 优化笔记(一)内存优化
  16. 单片机外部RAM如何用C 语言访问,C51中访问外部RAM的方法
  17. proc文件系统介绍
  18. littlefs系列:重要的数据结构
  19. 微服务架构与单体架构的区别
  20. 迅搜 php,安装、升级 - 权威指南 - 迅搜(xunsearch) - 开源免费中文全文搜索引擎

热门文章

  1. QuorumPeerConfig.parse
  2. Spring 中常用的设计模式对比
  3. 缓存redis的使用方案
  4. 数据库-日期计算-获取年月日
  5. opengl 日地月运动模型_MaskFusion: 多运动目标实时识别、跟踪和重建
  6. 斐波那契数列python递归 0、1、1、2、3_python实现斐波那契数列的多种方式
  7. SpringBoot项目使用微服务后在Service窗口启动应用后不显示端口号
  8. 【图文详解】JDK1.8的安装与环境变量配置(win10)
  9. LInux--进程间通信
  10. Servlet的第一个程序HelloWorld