在继上一次给大家推荐了两个数据分析工具之后:

推荐2个十分好用的pandas数据探索分析神器!

今天小编继续来给大家介绍一款用于做EDA(探索性数据分析)的利器,并且可以自动生成代码,帮助大家极大节省工作时间与提升工作效率的利器,叫做Bamboolib。

大家可以将其理解为是PandasGUI扩展工具,所具备的功能有

  • 查看DataFrame数据集与Series数据集

  • 过滤数据

  • 数据的统计分析

  • 绘制交互式图表

  • 文本数据的操作

  • 数据清洗与类型转换

  • 合并数据集

安装模块

在使用之前,我们先需要通过pip install进行该模块的安装

pip install bamboolib

同时因为我们要在Jupyter Notebook以及JupyterLab上面用到该工具,因此还要安装额外的插件

# Jupyter Notebook extensions
python -m bamboolib install_nbextensions# JupyterLab extensions
python -m bamboolib install_labextensions

查看DataFrame数据集

在上面的步骤全都完成之后,我们开始简单的来尝试使用一下bamboolib,导入我们需要用到的模块

import bamboolib as bam
import pandas as pd

读取数据

df = pd.read_excel(io="supermarkt_sales.xlsx",engine="openpyxl",sheet_name="Sales",skiprows=3,usecols="B:R",nrows=1000,
)df

会弹出如下所示的界面,

我们先来简单介绍一下界面上的各个按钮,

  • Explore DataFrame:对数据集进行探索性分析的按钮

  • Create plot: 绘制交互性图表的按钮

  • Search Transformations:包含对数据集进行各项操作

  • Update: 过滤出指定的列

  • Export: 可以将处理完的数据集以及代码导出

我们点击Explore DataFrame按钮来对数据先来一个大致的印象

我们看到会对数据集有一个大致的介绍,例如数据集是有1000行、18列,然后每一列的数据类型、每一列有多少的唯一值和缺失值我们都可以直观的看到

要是我们想要查看有着连续型变量的特征,它们之间的相关性,可以点击Correlation Matrix按钮

过滤数据

要是我们想要指定某一列数据的话,点击下拉框,选中select or drop columns

或者我们想要删掉某一列的话,也是相类似的操作

当然我们如果想要根据特定的条件来过滤出某些数据的话,则是选中filter rows按钮,然后我们给出特定的条件,在Bamboolib模块当中有多种方式来过滤数据,有has valuescontainsstartswithendswith等等,类似于Pandas模块当中对于文本数据处理的方法,例如我们想要挑选出“省份”这一列当中的“浙江省”的数据,就这么来做

我们还能够对每行的数据进行排列,点击下拉框选中sort rows,例如我们以“毛利率”的大小来排序,并且是降序排序,就这么来做

要是我们想要对某一列的列名进行重命名,点击rename columns

数据的清洗与类型转换

我们能够改变数据集当中某一列的数据类型,点击选中change column data dtype

对于缺失值的情况,我们既可以选择去除掉这些缺失值,点击选中drop missing values或者是drop columns with missing values

当然可以将这些缺失值替代为其他特定的值,无论是平均值或者是众数等等,点击选中find and replace missing values

数据的统计分析

我们可以通过bamboolib模块来对数据进行统计分析,例如计算数值的变化(percent change),我们在下拉框中找到percent change的选项,然后对指定的列计算当中数值的变化百分比

我们还能够进行累乘/累加的操作,我们在下拉框中选中cumulative product或者是cumulative sum

另外我们还能进行分组统计的计算操作,选中下拉框当中的group by and aggregate按钮,例如我们以“省份”来分组,计算“总收入”的平均值,可以这么来操作

合并数据集

要是我们想要进行合并数据集的操作,在下拉框选中join/merge dataframes选项,当中有四种合并的方式,分别是inner joinleft joinright joinouter join,然后我们选择合并的

文本数据的操作

我们还能对数据集当中的文本数据进行各种操作,包括对英文字母大小写的转换,就用convert to lowercase/convert to uppercase

如果我们需要对字符串当中的空格做一个处理,我们在下拉框当中选中Remove leading and trailing whitespaces

而要是我们需要对字符串做一个分割,就在下拉框中选中split text column

绘制交互式的图表

我们同时还能够通过该模块来绘制交互式的图表,我们点击“create plot”按钮,我们能看到在图表类型当中有直方图、柱状图、折线图、饼图等十来种,我们来绘制当中的一种

我们在X轴上指定的是“省份”的数据,然后根据不同的商品类型配上不同的颜色,而从绘制出来的结果中能够看到来自“北京”的顾客“食品饮料”购买的比较多,而来“浙江”的顾客“服装服饰”购买的比较多

当然除了直方图之外,还有其他很多种图表可以通过该模块来绘制,这里由于篇幅有限,小编就不一一给大家演示。

各位伙伴们好,詹帅本帅搭建了一个个人博客和小程序,汇集各种干货和资源,也方便大家阅读,感兴趣的小伙伴请移步小程序体验一下哦!(欢迎提建议)

推荐阅读

牛逼!Python常用数据类型的基本操作(长文系列第①篇)

牛逼!Python的判断、循环和各种表达式(长文系列第②篇)

牛逼!Python函数和文件操作(长文系列第③篇)

牛逼!Python错误、异常和模块(长文系列第④篇)

安利一个超好用的Pandas数据挖掘分析神器相关推荐

  1. 2000字精华总结,安利一个超好用的Pandas数据挖掘分析神器

    在继上一次给大家推荐了两个数据分析工具之后: 推荐2个十分好用的pandas数据探索分析神器! 今天小编继续来给大家介绍一款用于做EDA(探索性数据分析)的利器,并且可以自动生成代码,帮助大家极大节省 ...

  2. 安利一个超好用的 Pandas 数据挖掘分析神器

    作者 |欣一 来源 |Python爱好者集中营 今天小编继续来给大家介绍一款用于做EDA(探索性数据分析)的利器,并且可以自动生成代码,帮助大家极大节省工作时间与提升工作效率的利器,叫做Bambool ...

  3. 【Python】安利一个超好用的Pandas数据挖掘分析神器

    今天小编继续来给大家介绍一款用于做EDA(探索性数据分析)的利器,并且可以自动生成代码,帮助大家极大节省工作时间与提升工作效率的利器,叫做Bamboolib. 大家可以将其理解为是Pandas的GUI ...

  4. 2000字精华总结,安利一个超好用的 Python 数据分析神器

    大家好,今天我来给大家介绍一款用于做EDA(探索性数据分析)的利器,并且可以自动生成代码,帮助大家极大节省工作时间与提升工作效率的利器. 这款神器就是 Bamboolib,可以将其理解为Pandas的 ...

  5. 安利一个超好用的录屏工具,收藏必备! - 网课、游戏、录音等免费录制

    2023 年,视频将占所有互联网流量的82% !过去十年来,视频作为一种通信和娱乐媒体的发展迅猛增长,这不足为奇.通过 视频平台 上有趣的旅行视频博客,我们对视频的兴趣似乎永无止境. 但是,视频不仅仅 ...

  6. 安利一个超牛的资源网站,国庆看片就用它了

    点击上方"GitHubPorn",选择"星标"公众号 重磅干货,第一时间送达 来自公众号:扩展迷EXTFANS 作者:okay 国庆8天长假,你们有什么计划吗? ...

  7. Pandas 数据挖掘 分析

    限于博客的内容以及阅读体验,一篇博客不能写尽所有的 Pandas 内容,也不现实,因此分篇撰写 Pandas 内容以及其他常用 Python库的解析,有兴趣的小伙伴可以关注 Python Libary ...

  8. 一个超详细的 Python 入门爬虫实战案例

    本文转自公众号:超哥的杂货铺 写在前面:本文从北京公交路线数据的获取和预处理入手,记录使用python中requests库获取数据,pandas库预处理数据的过程.文章在保证按照一定处理逻辑的前提下, ...

  9. 一个超牛的东东:专门删除牛皮文件和文件夹

    一个超牛的东东:专门删除牛皮文件和文件夹 电脑中有一些不知为何删除不掉的文件和文件夹,无论用什么超级粉碎机都无法清除. 在网上看到的一个方法可以帮忙 注意:使用时请小心, 建立非常简单: 新建文本文档 ...

最新文章

  1. linux下必看的60个命令
  2. ASP.NET 设计模式中依赖倒置原则
  3. TypeScript入门教程 之 for ... of 与 for ... in
  4. 华为云数据库GaussDB(for Cassandra)揭秘第二期:内存异常增长的排查经历
  5. 14.6.4 Configuring the Memory Allocator for InnoDB 配置InnoDB 内存分配器
  6. 哎呀!可能有弹出式窗口拦截器生成Gmail无法打开该网页。如果您使用弹出式窗口拦截器,请将其关闭以便打开窗口。...
  7. 装机员Ghost一键备份还原使用方法(硬盘装系统)
  8. 目标跟踪 SiamRPN++(SiamRPN++:Evolution of Siamese Visual Tracking with Very Deep Networks)
  9. google地图图标 google map图库资源
  10. iApp裕v3语言认识us与ug
  11. Veritas NetBackup8.1.1安装
  12. 一文搞定hive之insert into 和 insert overwrite与数据分区
  13. SQL判断字段中是否存在数字、汉字、字母、英文
  14. 济南铺设全球首条高速光伏公路
  15. 通过自动驾驶+物联网解决道路拥堵的方案建议(以虎门大桥为例)
  16. 忆阻器课题 读书笔记(一)
  17. 服务器上运行Geant4例子XQuartz的问题
  18. 关于大数据技术的演讲_百度大数据技术开放平台再度亮相
  19. MYSQL 知己知彼百战百胜 从MYSQL 8.019 说起
  20. 大前端 - 泛客户端开发 - UniAPP项目实战

热门文章

  1. 数据库系统优化--业务逻辑设计优化
  2. python算法与数据结构-冒泡排序算法
  3. sysbench安装和使用(亲测)
  4. PHP经典算法 (转载)
  5. python聚类dbscan案例经纬度_用DBSCAN聚类经纬度坐标
  6. wifi共享大师电脑版_手机也能给电脑上网!WiFi热点已经out了,蓝牙USB线也能共享网络...
  7. table切换数据 vue_Vue 知识整合贴 ( 超干货,适合收藏)
  8. 广西大学计算机专业研究生录取分数线,广西大学电子信息(专硕)专业考研录取分数线-研究生分数线-历年分数线...
  9. php 字段验证类库,PHP验证类库常用数据安全验证
  10. mybatis 默认参数名#{0}、#{arg0}、#{param1},以及@Param