文章目录

  • 一、探索性数据分析EDA
  • 二、数据分析图表的选择

一、探索性数据分析EDA

探索性数据分析(Exploratory Data Analysis,简称EDA),指对数据分析的过程中尽量不加入先验假设,而是通过作图表和统计等方式来探索数据结构和规律。
在EDA中你可以构思各种各样的假设,并通过数据分析去寻找相应的反馈,以此迭代来寻找到数据集中分布的规律。在探索的过程中会随着不断的深入对数据理解更加深刻。
EDA的流程如下:提出问题;筛选、清洗数据;分析数据;构建模型;得出结论。
EDA的过程与数据挖掘的流程不谋而合,特征是否起作用需要具体的分析和验证。从数据本身出发去寻找合适的特征。
在数据竞赛中,使用EDA完成数据分析的过程如下:

  1. 读取并分析数据质量;
  2. 探索性分析每个变量:
    变量是什么类型;
    变量是否有缺失值;
    变量是否有异常值;
    变量是否有重复值;
    变量是否均匀;
    变量是否需要转换;
  3. 探索性分析变量与target标签的关系:
    变量与标签是否存在相关性;
    变量与标签是否存在业务逻辑;
  4. 探索性分析变量之间的关系:
    1)连续型变量与连续型变量;
    可视化:散点图、相关性热力图;皮尔逊系数;互信息;
    2)离散变量与离散变量;
    可视化:柱状图、饼图、分组表;卡方检验;
    3)检查变量之间的正态性;直方图;箱线图;Quantile-Quantile (QQ图);

根据EDA我们可以得出以下结论:变量是否需要筛选、替换和清洗;变量是否需要转换;变量之间是否需要交叉;变量是否需要采样;

二、数据分析图表的选择

可视化目的:比较/趋势/组成/联系/分布;
可视化变量类型:数值/日期/类别/经纬度;
可视化维度:分布/趋势;

探索性数据分析EDA及数据分析图表的选择相关推荐

  1. Kaggle知识点:数据分析EDA

    Kaggle知识点 数据分析 在现有数据竞赛和数据领域中数据分析是重要组成部分,且数据分析与具体的业务背景和业务逻辑联系紧密.数据分析是发现数据规律的有效方法,也是验证思路的有效方法. 本文将以Kag ...

  2. Python探索性数据分析(EDA)统计数据和建模

    探索性数据分析(EDA) 在统计学中,探索性数据分析是一种分析数据集以总结其主要特征的方法,通常使用统计图形和其他数据可视化方法. 可以使用或不使用统计模型,但主要是 EDA 用于查看数据可以告诉我们 ...

  3. 数据挖掘:探索性数据分析(EDA)(补充)

    数据挖掘:探索性数据分析(EDA)(补充) 在上一篇文章数据挖掘:探索性数据分析(EDA)中,已经讨论了一些探索性分析的方法,但去敏数据的处理方式和一些多元统计的方法没有做介绍.本篇文章主要讲这两方面 ...

  4. 数据挖掘:探索性数据分析(EDA)

    数据挖掘:探索性数据分析(EDA) 一.什么是探索性数据分析 EDA (Exploratory Data Analysis),即对数据进行探索性的分析.充分了解数据,为之后的数据清洗和特征工程等提供想 ...

  5. python进行探索性数据分析EDA(Exploratory Data Analysis)分析

    python进行探索性数据分析EDA(Exploratory Data Analysis)分析 show holy respect to python community, for there ded ...

  6. 【ML】探索性数据分析 (EDA)

    简介 探索性数据分析 (EDA) 以了解我们数据集的信号和细微差别.这是一个循环过程,可以在我们开发过程的各个阶段(标记之前/之后.预处理等)完成,具体取决于问题的定义程度.例如,如果我们不确定如何标 ...

  7. 【Python基础】安利3个Python数据分析EDA神器!

    来源:Python数据科学 作者:东哥起飞 EDA是数据分析必须的过程,用来查看变量统计特征,可以此为基础尝试做特征工程.东哥这次分享3个EDA神器,其实之前每一个都分享过,这次把这三个工具包汇总到一 ...

  8. python数量推荐_太香了,墙裂推荐3个Python数据分析EDA神器!

    作者:东哥起飞 EDA是数据分析必须的过程,用来查看变量统计特征,可以此为基础尝试做特征工程.东哥这次分享3个EDA神器,其实之前每一个都分享过,这次把这三个工具包汇总到一起来介绍. 1. Panda ...

  9. NumPy 秘籍中文第二版:十二、使用 NumPy 进行探索性和预测性数据分析

    原文:NumPy Cookbook - Second Edition 协议:CC BY-NC-SA 4.0 译者:飞龙 在本章中,我们涵盖以下秘籍: 探索气压 探索日常气压范围 研究年度气压平均值 分 ...

最新文章

  1. C++类的静态成员详细讲解
  2. WordPress Editorial Calendar插件权限安全绕过漏洞
  3. mysql_5.6.21_安装使用说明
  4. vue mui html不解析,记下Vue中使用Mui.js踩到的坑
  5. 华为重磅反击,鸿蒙来了!
  6. F2812 DSP程序运行在片内RAM和FLASH的区别
  7. Android实现ListView异步加载图片总结
  8. python矩阵乘法算法_纯python进行矩阵的相乘运算的方法示例
  9. RMBP下eclipse支持高清
  10. Atitit.每周末总结 于每周一计划日程表 流程表 v8
  11. 更改配置本地host地址
  12. 戴尔u盘安装linux系统,戴尔服务器操作系统安装 Centos 系统安装详解教程。
  13. 《计算机网络 第7版》第9章 无线局域网的物理层和MAC层
  14. Unity——RectTransform详解
  15. 美团饿了么外卖CPS项目怎么做?简单推广每天躺赚(附源码和搭建教程)
  16. 「详解」imgaug 图像增强方法
  17. RocketMQ入门及部署
  18. 程序出现错误如何解决
  19. 敏捷画卷:中国软件史的精彩侧影
  20. 华硕路由器固件 虚拟服务器,华硕路由器开启设置虚拟服务器

热门文章

  1. 1000瓶药水,1瓶有毒药,几只小白鼠能够找出毒药
  2. bootstrap-daterangepicker插件运用
  3. selenium-05-常见问题
  4. RHadoop和CDH整合实例(三)- RHive
  5. date format 精辟讲解
  6. 使用数据库恢复专家,修复数据库
  7. MySQL5.7 常用系统表大全
  8. 对于新生代农民工,你有什么想说的?
  9. Linux中,文件创建的时间是怎么保存的?
  10. 高通8X25Q wifi BT 调试文档