在完成竞赛和数据挖掘的过程中,数据分析一直是非常耗时的一个环节,但也是必要的一个环节。

能否使用一个工具代替人来完成数据分析的过程呢,现有的AutoEDA工具可以一定程度上完成上述过程。本文将盘点常见的AutoEDA工具,欢迎收藏转发。

Pandas Profiling

https://pandas-profiling.github.io/pandas-profiling/docs/master/index.html

Pandas Profiling是款比较成熟的工具,可以直接传入DataFrame即可完成分析过程,将结果展示为HTML格式,同时分析功能也比较强大。

  • 功能:字段类型分析、变量分布分析、相关性分析、缺失值分析、重复行分析

  • 耗时:较少

AutoViz

https://github.com/AutoViML/AutoViz

AutoViz是款美观的数据分析工具,在进行可视化的同时将结果保存为图片格式。

  • 功能:相关性分析、数值变量箱线图、数值变量分布图

  • 耗时:较多

Dataprep

https://dataprep.ai/

Dataprep是款比较灵活也比较强大的工具,也是笔者最喜欢的。它可以指定列进行分析,同时也可以在Notebook中进行交互式分析。

  • 功能:字段类型分析、变量分布分析、相关性分析、缺失值分析、交互式分析。

  • 耗时:较多

SweetViz

https://github.com/fbdesignpro/sweetviz

SweetViz是款强大的数据分析工具,可以很好的分析训练集和测试集,以及目标标签与特征之间的关系。

  • 功能:数据集对比分析、字段类型分析、变量分布分析、目标变量分析

  • 耗时:中等

D-Tale

https://github.com/man-group/dtale

D-Tale是款功能最为强大的数据分析工具,对单变量的分析过程支持比较好。

  • 功能:字段类型分析、变量分布分析、相关性分析、缺失值分析、交互式分析。

  • 耗时:中等

往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载黄海广老师《机器学习课程》视频课黄海广老师《机器学习课程》711页完整版课件

本站qq群955171419,加入微信群请扫码:

【数据竞赛】盘点Kaggle中常见的AutoEDA工具库相关推荐

  1. 【机器学习】盘点Kaggle中常见的AutoML工具库及用法

    在日常的Kaggle比赛和工作中,经常会遇到AutoML工具.本文总结了常见的AutoML库,可供大家选择. LightAutoML 项目链接:https://github.com/sberbank- ...

  2. 盘点数据挖掘中常见的5种 AutoEDA 工具

    大家好,我们都知道在数据挖掘的过程中,数据探索性分析一直是非常耗时的一个环节,但也是绕不开的一个环节. 我们能否使用一些自动化工具代替人来完成数据分析的过程呢,现有一些成熟的 AutoEDA 工具可以 ...

  3. 【数据竞赛】Kaggle竞赛如何保证线上线下一致性?

    作者: 尘沙樱落.杰少.新峰.谢嘉嘉.DOTA.有夕 验证策略设计 这是一个系列篇,后续我们会按照我们第一章中的框架进行更新,因为大家平时都较忙,不会定期更新,如有兴趣欢迎长期关注我们的公众号,如有任 ...

  4. 大数据竞赛平台——Kaggle 入门

    大数据竞赛平台--Kaggle 入门篇 这篇文章适合那些刚接触Kaggle.想尽快熟悉Kaggle并且独立完成一个竞赛项目的网友,对于已经在Kaggle上参赛过的网友来说,大可不必耗费时间阅读本文.本 ...

  5. 【数据竞赛】Kaggle实战之特征工程篇-20大文本特征(下)

    作者:尘沙杰少.樱落.新峰.DOTA.谢嘉嘉 特征工程--文本特征下半篇! 前 言 这是一个系列篇,后续我们会按照我们第一章中的框架进行更新,因为大家平时都较忙,不会定期更新,如有兴趣欢迎长期关注我们 ...

  6. 【数据竞赛】Kaggle实战之特征工程篇-20大文本特征(上)

    作者:尘沙杰少.樱落.新峰.DOTA.谢嘉嘉 特征工程--文本特征上半篇! 前 言 这是一个系列篇,后续我们会按照我们第一章中的框架进行更新,因为大家平时都较忙,不会定期更新,如有兴趣欢迎长期关注我们 ...

  7. 【数据竞赛】Kaggle实战之单类别变量特征工程总结!

    作者:尘沙杰少.樱落.新峰.DOTA.谢嘉嘉 特征工程--类别变量完结篇! 前 言 这是一个系列篇,后续我们会按照我们第一章中的框架进行更新,因为大家平时都较忙,不会定期更新,如有兴趣欢迎长期关注我们 ...

  8. 【数据竞赛】kaggle竞赛宝典-样本组织篇!

    作者: 尘沙杰少.樱落.谢嘉嘉.DOTA.有夕 样本筛选.样本组织之样本组织部分 这是一个系列篇,后续我们会按照我们第一章中的框架进行更新,因为大家平时都较忙,不会定期更新,如有兴趣欢迎长期关注我们的 ...

  9. 【数据竞赛】Kaggle神技:一项堪比Dropout的NN训练技巧!

    ↑↑↑关注后"星标"kaggle竞赛宝典 kaggle竞赛宝典 作者:杰少 Swap Noise: 一种论文中所没有的NN神技 01 背景 本文介绍一种论文中所没有,但是却效果极佳 ...

最新文章

  1. java8学习之Lambda表达式深入与流初步
  2. /dev/mapper/VolGroup00-LogVol00 100% 如何处理
  3. java 根据类名示例化类_Java即时类| EpochSecond()方法的示例
  4. 微信小程序运行的底层逻辑
  5. 2019牛客暑期多校训练营(第二场)-D Kth Minimum Clique
  6. 动态规划:最长上升子序列(二分算法 nlogn)
  7. Response常用方法
  8. 免费下载需付费的qq音乐/各种音乐
  9. JEECG代码生成器(GUI)的使用
  10. 微信支付——后台对接
  11. 适合Python新手的爬虫练习:网易LOFTER图片爬虫(二)
  12. 红皮书数据库的学习总结
  13. uniapp踩坑(五):监听手机物理返回键和滑动返回事件
  14. 什么是庖丁解牛的思维?
  15. 【PMP】PMBOK 笔记 第7章 项目成本管理
  16. 在家用手机兼职稳定收入,三种实战方法
  17. 微信小游戏——贪吃蛇
  18. ASP.NET Core 托管和部署(一)【Kestrel】
  19. nginx的负载均衡模块详解
  20. 如何查看eclipse的版本(Photon/Oxygen/Neon等)

热门文章

  1. 安装rabbitMQ delayed-messaged
  2. windows消息处理机制
  3. POJ--2488 A Knight's Journeyb
  4. 树莓派-语音聊天机器人+语音控制引脚电平高低
  5. MAVEN_OPTS=-Xms128m -Xmx512m
  6. poj3216 Prime Path(BFS)
  7. 【整洁之道】如何写出更整洁的代码(上)
  8. JS 之 数据类型转换
  9. 独立式键盘的编程方法 按键的去抖动原理和基本方法
  10. Android自定义Shape