2020-03-24打卡——Task2:数据的探索性分析(EDA)

用pandas_profiling生成数据报告:用pandas_profiling生成一个较为全面的可视化和数据报告(较为简单、方便) 最终打开html文件即可:
import pandas_profiling
pfr = pandas_profiling.ProfileReport(Train_data)
pfr.to_file("./example.html")

variables: 100%
29/29 [1:32:29<00:00, 191.38s/it]

correlations [recoded]: 100%
6/6 [01:06<00:00, 11.12s/it]

interactions [continuous]: 100%
529/529 [03:46<00:00, 2.33it/s]

table: 100%
1/1 [00:04<00:00, 4.68s/it]

missing [matrix]: 100%
2/2 [00:04<00:00, 2.14s/it]

warnings [correlations]: 100%
3/3 [00:00<00:00, 26.83it/s]

package: 100%
1/1 [00:00<00:00, 3.27it/s]

build report structure: 100%
1/1 [00:27<00:00, 27.01s/it]










打卡——Task2“EDA”探索数据分析经验总结

所给出的EDA步骤为广为普遍的步骤,在实际的不管是工程还是比赛过程中,这只是最开始的一步,也是最基本的一步。

接下来一般要结合模型的效果以及特征工程等来分析数据的实际建模情况,根据自己的一些理解,查阅文献,对实际问题做出判断和深入的理解。

最后不断进行EDA与数据处理和挖掘,来到达更好的数据结构和分布以及较为强势相关的特征

数据探索在机器学习中我们一般称为EDA(Exploratory Data Analysis):

是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。

数据探索有利于我们发现数据的一些特性,数据之间的关联性,对于后续的特征构建是很有帮助的。

对于数据的初步分析(直接查看数据,或.sum(), .mean(),.descirbe()等统计函数)可以从:样本数量,训练集数量,是否有时间特征,是否是时许问题,特征所表示的含义(非匿名特征),特征类型(字符类似,int,float,time),特征的缺失情况(注意缺失的在数据中的表现形式,有些是空的有些是”NAN”符号等),特征的均值方差情况。

分析记录某些特征值缺失占比30%以上样本的缺失处理,有助于后续的模型验证和调节,分析特征应该是填充(填充方式是什么,均值填充,0填充,众数填充等),还是舍去,还是先做样本分类用不同的特征模型去预测。

对于异常值做专门的分析,分析特征异常的label是否为异常值(或者偏离均值较远或者事特殊符号),异常值是否应该剔除,还是用正常值填充,是记录异常,还是机器本身异常等。

对于Label做专门的分析,分析标签的分布情况等。

进步分析可以通过对特征作图,特征和label联合做图(统计图,离散图),直观了解特征的分布情况,通过这一步也可以发现数据之中的一些异常值等,通过箱型图分析一些特征值的偏离情况,对于特征和特征联合作图,对于特征和label联合作图,分析其中的一些关联性。

参考文献

https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12281978.0.0.6802593a7ZAMVe&postId=95457

2020-03-24打卡——Task2:数据的探索性分析(EDA)相关推荐

  1. 数据的探索性分析(EDA)

    数据的探索性分析(EDA) 1.EDA要做些什么 2.fork from Datawhale 零基础入门数据挖掘-Task2 数据分析 个人收获 (1)要养成看数据集的head()以及shape的习惯 ...

  2. 零基础数据挖掘入门系列(二) - 数据的探索性(EDA)分析

    思维导图:零基础入门数据挖掘的学习路径 1. 写在前面 零基础入门数据挖掘是记录自己在Datawhale举办的数据挖掘专题学习中的所学和所想, 该系列笔记使用理论结合实践的方式,整理数据挖掘相关知识, ...

  3. 二手车交易价格预测:数据的探索性分析

    二手车交易价格预测:数据的探索性分析 1.EDA目标 EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用. 当了解了数据集之后我们下 ...

  4. 竞赛入门-数据探索性分析(EDA)

    竞赛入门-数据探索性分析 总览 数据科学库 Numpy Scipy Pandas 可视化库 matplotlib seaborn missingno库 载入数据 数据总揽 数据检测 缺失值检测 异常值 ...

  5. 【沃顿商学院学习笔记】商业基础——Operation Management:03运营管理活动中流程数据的详细分析

    运营管理的学习笔记--流程数据分析 流程数据分析内容从律特法则(Little's Low)说起,然后围绕库存周转率Inventory Turn.持有库存成本及其五个原因进行分析.最后对比分析了存货生产 ...

  6. 数据探索性分析(EDA)——异常值处理

    0 引言 前面有一篇文章介绍单变量分析时,我们提到需要对数据的异常值进行处理,异常值指的是远远偏离整个样本总体的观测值,异常值的存在会降低数据的正态性以及模型的拟合能力等等.异常值的检测主要用箱型图. ...

  7. 数据预处理以及探索性分析(EDA)

    1.根据某个列进行groupby,判断是否存在重复列. # Count the unique variables (if we got different weight values, # for e ...

  8. 2012~2020年期货全品种TICK数据共享更新至2020.7.24

    VNPY官网 http://www.vnpy.cn 2020.6.10~2020.7.24 期货全市场行情数据 链接:https://pan.baidu.com/s/1AUIMnJFH1SmIdngA ...

  9. python实现二手汽车价格预测(一)初始数据探索性分析

    python实现二手汽车价格预测(一)初始数据探索性分析 零基础入门数据挖掘的 EDA-数据探索性分析 部分,带你来了解数据,熟悉数据,和数据做朋友. 一.EDA目标 EDA的价值主要在于熟悉数据集, ...

最新文章

  1. 文字加减前后缀lisp_华为笔试题---仿LISP算法
  2. Intel汇编语言程序设计学习-第三章 汇编语言基础-上
  3. linux无法打开共享对象文件或目录,linux - libmodbus.so.5:无法打开共享对象文件:没有这样的文件或目录 - 堆栈内存溢出...
  4. H264解码器源码(Android 1.6 版和QT都可以调用)
  5. AI 云原生浅谈:好未来 AI 中台实践
  6. 常见的注册界面实现的效果
  7. 谈谈Android 6.0运行时权限理解
  8. 【数学基础】特征值,特征向量与SVD奇异值分解
  9. 地区选择控件的制作(仿中华英才网地区选择控件)
  10. paip.提升开发效率---事件化V0829
  11. 动易sitefactory 3.0 模板标签系统
  12. 深圳神州行今日起单向收费 零月租成套餐亮点
  13. 扑克洗牌java_java扑克牌洗牌发牌问题
  14. zuul+ribbon实现负载均衡
  15. STEAM账号被盗(绑定QQ邮箱)的找回方法以及背后操作原理解析
  16. [华硕路由器官方设置]ASUS RT-AC86U官方设置
  17. 传统巨头抢占区块链场景高地 医疗、汽车、金融成为热门赛道
  18. android微信逆向工程,iOS逆向 - 微信自动添加好友
  19. 统计文章字数和全站总字数
  20. UnrealEd3视图导航及常用快捷键

热门文章

  1. android防丢器设计,蓝牙防丢器 安卓代码和附带说明
  2. Logging Operator - 优雅的云原生日志管理方案 (一)
  3. hit_os_lab2 操作系统启动
  4. 75页政务大数据资源平台建设解决方案(附下载).pptx
  5. Flutter(二十一)——dio库
  6. Animal()动物类,关于多态的练习
  7. python爬虫实战,爬取洛杉矶上千房源!
  8. Liunx编译PCL遇到的Eigen问题
  9. JAVA的内存溢出和内存泄漏
  10. raid配置ssd为缓存_SSD并不可怕 设置不当掉速毁盘才可怕