大家好,我们都知道在数据挖掘的过程中,数据探索性分析一直是非常耗时的一个环节,但也是绕不开的一个环节。

我们能否使用一些自动化工具代替人来完成数据分析的过程呢,现有一些成熟的 AutoEDA 工具可以一定程度上完成上述过程。本文中,我将盘点常见的 AutoEDA 工具,欢迎收藏学习,喜欢点赞支持,文末提供技术交流群,欢迎畅聊。

1、Pandas Profiling

https://pandas-profiling.github.io/pandas-profiling/docs/master/index.html

Pandas Profiling是款比较成熟的工具,可以直接传入DataFrame即可完成分析过程,将结果展示为HTML格式,同时分析功能也比较强大。

  • 功能:字段类型分析、变量分布分析、相关性分析、缺失值分析、重复行分析

  • 耗时:较少

2、AutoViz

https://github.com/AutoViML/AutoViz

AutoViz是款美观的数据分析工具,在进行可视化的同时将结果保存为图片格式。

  • 功能:相关性分析、数值变量箱线图、数值变量分布图

  • 耗时:较多

3、Dataprep

https://dataprep.ai/

Dataprep是款比较灵活也比较强大的工具,也是笔者最喜欢的。它可以指定列进行分析,同时也可以在Notebook中进行交互式分析。

  • 功能:字段类型分析、变量分布分析、相关性分析、缺失值分析、交互式分析。

  • 耗时:较多

4、SweetViz

https://github.com/fbdesignpro/sweetviz

SweetViz是款强大的数据分析工具,可以很好的分析训练集和测试集,以及目标标签与特征之间的关系。

  • 功能:数据集对比分析、字段类型分析、变量分布分析、目标变量分析

  • 耗时:中等

5、D-Tale

https://github.com/man-group/dtale

D-Tale是款功能最为强大的数据分析工具,对单变量的分析过程支持比较好。

  • 功能:字段类型分析、变量分布分析、相关性分析、缺失值分析、交互式分析。

  • 耗时:中等


技术交流

欢迎转载、收藏、有所收获点赞支持一下!

目前开通了技术交流群,群友已超过2000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友

  • 方式①、发送如下图片至微信,长按识别,后台回复:加群;
  • 方式②、添加微信号:dkl88191,备注:来自CSDN
  • 方式③、微信搜索公众号:Python学习与数据挖掘,后台回复:加群

盘点数据挖掘中常见的5种 AutoEDA 工具相关推荐

  1. zhlan--Python中常见的几种格式化输出

    >>>Python中常见的几种格式化输出 # 字符串格式化:name = input('请输入你的名字:')sex = input('请输入你的性别:')print('欢迎你'+na ...

  2. python中常见的几种错误

    python中常见的几种错误: 1.end前面一定加逗号 2.命令输入错误 3.冒号中英文切换 4.命令缩进错误 5.等于号要双等于,否则一个等于号是赋值 6.命令之间正确搭配

  3. Git工作流中常见的三种分支策略:GitFlow、GitHubFlow和GitLabFlow

    摘要:聊一聊Git中的工作流--分支策略. 本文分享自华为云社区<Git工作流中常见的三种分支策略:GitFlow.GitHubFlow以及GitLabFlow>,原文作者:敏捷的小智. ...

  4. 分布式事务中常见的三种解决方案

    分布式事务中常见的三种解决方案 目录 一.分布式事务前奏 二.柔性事务解决方案架构 (一).基于可靠消息的最终一致性方案概述 (二).TCC事务补偿型方案 (三).最大努力通知型 三.基于可靠消息的最 ...

  5. 虚拟化中常见的三种硬盘模式

    虚拟化中常见的三种硬盘模式 1.厚置备延迟置零: 默认的创建格式,创建过程中为虚拟磁盘分配所需空间.创建时不会擦除物理设备上保留的任何数据,没有置零操作,当有IO操作时,需要等待清零操作完成后才能完成 ...

  6. 对Java中常见的四种I/O模型理解

    对Java中常见的四种I/O模型理解 1.1 知识科普 1.1.1 同步阻塞I/O(Blocking I/O) 1.1.1.1 阻塞与非阻塞 1.1.1.2 同步与异步 1.1.1.3 同步阻塞I/O ...

  7. Java中常见的几种任务调度框架对比

    Java 任务调度框架对比 一. 概述 二. 对比 三. 参考 一. 概述 本文准备Java中常见的几种任务调度框架进行对比,其中包括Quartz.Elastic Job以及xxl-job. 二. 对 ...

  8. PCBA加工中常见的两种焊接方式详解

    PCBA加工中常见的两种焊接方式详解 PCBA加工,两种常见的焊接方式就是回流焊和波峰焊,与手动焊接技术相比,自动焊接技术具有减少人为因素的影响.提高效率.降低成本.提高质量等优势,在PCBA加工中, ...

  9. 手把手教你用plotly绘制excel中常见的8种图表

    最近不是在学习plotly嘛,为了方便理解,我们这里取excel绘图中常见的16种图表为例,分两期演示这些基础图表怎么用plotly进行绘制! 第一部分:柱状图.条形图.折线图.面积图.饼图与圆环图. ...

最新文章

  1. Analysis and Design Overview
  2. 今天看到的如何做个坏男人的招数
  3. C#强化系列文章三:实验分析C#中三种计时器使用异同点
  4. maven + bat 实现快速编译打包模块代码
  5. Exynos4412 Uboot 编译工具 —— 交叉工具链 arm-linux-gcc 的安装
  6. 前端学习(2254)team怎么接受到pr
  7. 北京大兴国际机场官微追星蔡徐坤,网友大怒,官方道歉...
  8. Hive数据分析实战
  9. Prototype使用$F()函数
  10. 手机版豆丁书房下载的文档在哪儿
  11. Day15_20180503_链家二手房信息案例分析
  12. 并发编程 CAS算法
  13. 网络编程学习笔记之TCP_01(帅帅老师讲堂)
  14. 大神论坛 利用活跃变量分析来去掉vmp的大部分垃圾指令
  15. Flixel横板游戏制作教程(三)— AddingWeapons
  16. eBPF系列学习(4)了解libbpf、CO-RE (Compile Once – Run Everywhe) | 使用go开发ebpf程序(云原生利器cilium ebpf )
  17. 巴菲特斥资290亿抄底,台积电跌成“白菜价”?
  18. 浅谈Object.assign
  19. 寻找AR中的Big Difference - v3.0 | AR指南
  20. 活跃用户的测算方法与用户黏性指数的提出

热门文章

  1. iphone忘记锁屏密码解决办法
  2. 捷信消费金融十年:巨轮转向,海阔天空
  3. 常用的40引脚的RGB屏介绍
  4. HDOJ 动态规划总结
  5. aegisub32汉化_Aegisub中文版(aegisub字幕特效)V3.2.3 免费版
  6. Dockerfile实践指南之COPY vs ADD
  7. leetcode_36.有效的数独
  8. Table表格的一些记录
  9. 5-06特征变换代码
  10. etc/hosts.allow和/etc/hosts.deny详解