2000字精华总结,安利一个超好用的 Python 数据分析神器
大家好,今天我来给大家介绍一款用于做EDA(探索性数据分析)的利器,并且可以自动生成代码,帮助大家极大节省工作时间与提升工作效率的利器。
这款神器就是 Bamboolib,可以将其理解为Pandas
的GUI
扩展工具,喜欢记得关注、收藏、点赞。
【注】完整版代码、数据、技术交流文末获取。
它具备如下功能:
查看DataFrame数据集与Series数据集
过滤数据
数据的统计分析
绘制交互式图表
文本数据的操作
数据清洗与类型转换
合并数据集
安装模块
在使用之前,我们先需要通过pip install
进行该模块的安装
pip install bamboolib
同时因为我们要在Jupyter Notebook
以及JupyterLab
上面用到该工具,因此还要安装额外的插件
# Jupyter Notebook extensions
python -m bamboolib install_nbextensions# JupyterLab extensions
python -m bamboolib install_labextensions
查看DataFrame数据集
在上面的步骤全都完成之后,我们开始简单的来尝试使用一下bamboolib
,导入我们需要用到的模块
import bamboolib as bam
import pandas as pd
读取数据
df = pd.read_excel(io="supermarkt_sales.xlsx",engine="openpyxl",sheet_name="Sales",skiprows=3,usecols="B:R",nrows=1000,
)df
会弹出如下所示的界面,
我们先来简单介绍一下界面上的各个按钮,
Explore DataFrame:对数据集进行探索性分析的按钮
Create plot: 绘制交互性图表的按钮
Search Transformations:包含对数据集进行各项操作
Update: 过滤出指定的列
Export: 可以将处理完的数据集以及代码导出
我们点击Explore DataFrame
按钮来对数据先来一个大致的印象
我们看到会对数据集有一个大致的介绍,例如数据集是有1000行、18列,然后每一列的数据类型、每一列有多少的唯一值和缺失值我们都可以直观的看到
要是我们想要查看有着连续型变量的特征,它们之间的相关性,可以点击Correlation Matrix
按钮
过滤数据
要是我们想要指定某一列数据的话,点击下拉框,选中select or drop columns
,
或者我们想要删掉某一列的话,也是相类似的操作
当然我们如果想要根据特定的条件来过滤出某些数据的话,则是选中filter rows
按钮,然后我们给出特定的条件,在Bamboolib
模块当中有多种方式来过滤数据,有has values
、contains
、startswith
、endswith
等等,类似于Pandas
模块当中对于文本数据处理的方法,例如我们想要挑选出“省份”这一列当中的“浙江省”的数据,就这么来做
我们还能够对每行的数据进行排列,点击下拉框选中sort rows
,例如我们以“毛利率”的大小来排序,并且是降序排序,就这么来做
要是我们想要对某一列的列名进行重命名,点击rename columns
数据的清洗与类型转换
我们能够改变数据集当中某一列的数据类型,点击选中change column data dtype
对于缺失值的情况,我们既可以选择去除掉这些缺失值,点击选中drop missing values
或者是drop columns with missing values
当然可以将这些缺失值替代为其他特定的值,无论是平均值或者是众数等等,点击选中find and replace missing values
数据的统计分析
我们可以通过bamboolib
模块来对数据进行统计分析,例如计算数值的变化(percent change),我们在下拉框中找到percent change
的选项,然后对指定的列计算当中数值的变化百分比
我们还能够进行累乘/累加的操作,我们在下拉框中选中cumulative product
或者是cumulative sum
另外我们还能进行分组统计的计算操作,选中下拉框当中的group by and aggregate
按钮,例如我们以“省份”来分组,计算“总收入”的平均值,可以这么来操作
合并数据集
要是我们想要进行合并数据集的操作,在下拉框选中join/merge dataframes
选项,当中有四种合并的方式,分别是inner join
、left join
、right join
和outer join
,然后我们选择合并的
文本数据的操作
我们还能对数据集当中的文本数据进行各种操作,包括对英文字母大小写的转换,就用convert to lowercase
/convert to uppercase
如果我们需要对字符串当中的空格做一个处理,我们在下拉框当中选中Remove leading and trailing whitespaces
而要是我们需要对字符串做一个分割,就在下拉框中选中split text column
绘制交互式的图表
我们同时还能够通过该模块来绘制交互式的图表,我们点击“create plot”按钮,我们能看到在图表类型当中有直方图、柱状图、折线图、饼图等十来种,我们来绘制当中的一种
我们在X轴上指定的是“省份”的数据,然后根据不同的商品类型配上不同的颜色,而从绘制出来的结果中能够看到来自“北京”的顾客“食品饮料”购买的比较多,而来“浙江”的顾客“服装服饰”购买的比较多
当然除了直方图之外,还有其他很多种图表可以通过该模块来绘制,这里由于篇幅有限,小编就不一一给大家演示。
推荐文章
李宏毅《机器学习》国语课程(2022)来了
有人把吴恩达老师的机器学习和深度学习做成了中文版
上瘾了,最近又给公司撸了一个可视化大屏(附源码)
如此优雅,4款 Python 自动数据分析神器真香啊
梳理半月有余,精心准备了17张知识思维导图,这次要讲清统计学
香的很,整理了20份可视化大屏模板
技术交流
完整代码、数据获取,可以找我来要
技术交流、求职内推、干货汇总、与 3000+来自阿里、北大、清华、中科院、CMU、腾讯、百度等名校名企开发者互动交流~
目前开通了技术交流群,群友已超过3000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友
- 方式①、发送如下图片至微信,长按识别,后台回复:加群;
- 方式②、添加微信号:dkl88191,备注:来自CSDN
- 方式③、微信搜索公众号:Python学习与数据挖掘,后台回复:加群
2000字精华总结,安利一个超好用的 Python 数据分析神器相关推荐
- python数据分析六个环节_安利6个珍藏的Python数据分析神器
作者:东哥起飞 出品:Python数据科学 用Python处理数据大家都不陌生了,属常规操作,但常规之下还是也有些暗藏技巧的,本篇东哥分享6个好玩高效的操作,帮助大家提高效率. 一.Pandas Pr ...
- 真香!安利 6 个 Python 数据分析神器
Python数据挖掘与文本分析&Stata应用能力提升与实证前沿云特训 Python部分明天(6月29日-7月2日)开始上课,感兴趣的童鞋抓紧哦 用Python处理数据大家都不陌生了,属常规操 ...
- 2000字精华总结,安利一个超好用的Pandas数据挖掘分析神器
在继上一次给大家推荐了两个数据分析工具之后: 推荐2个十分好用的pandas数据探索分析神器! 今天小编继续来给大家介绍一款用于做EDA(探索性数据分析)的利器,并且可以自动生成代码,帮助大家极大节省 ...
- 安利一个超好用的录屏工具,收藏必备! - 网课、游戏、录音等免费录制
2023 年,视频将占所有互联网流量的82% !过去十年来,视频作为一种通信和娱乐媒体的发展迅猛增长,这不足为奇.通过 视频平台 上有趣的旅行视频博客,我们对视频的兴趣似乎永无止境. 但是,视频不仅仅 ...
- 安利一个超牛的资源网站,国庆看片就用它了
点击上方"GitHubPorn",选择"星标"公众号 重磅干货,第一时间送达 来自公众号:扩展迷EXTFANS 作者:okay 国庆8天长假,你们有什么计划吗? ...
- 安利一个超好用的 Pandas 数据挖掘分析神器
作者 |欣一 来源 |Python爱好者集中营 今天小编继续来给大家介绍一款用于做EDA(探索性数据分析)的利器,并且可以自动生成代码,帮助大家极大节省工作时间与提升工作效率的利器,叫做Bambool ...
- 【Python】安利一个超好用的Pandas数据挖掘分析神器
今天小编继续来给大家介绍一款用于做EDA(探索性数据分析)的利器,并且可以自动生成代码,帮助大家极大节省工作时间与提升工作效率的利器,叫做Bamboolib. 大家可以将其理解为是Pandas的GUI ...
- 安利一个超好用的Pandas数据挖掘分析神器
在继上一次给大家推荐了两个数据分析工具之后: 推荐2个十分好用的pandas数据探索分析神器! 今天小编继续来给大家介绍一款用于做EDA(探索性数据分析)的利器,并且可以自动生成代码,帮助大家极大节省 ...
- 【2000字精华】15道APP测试面试题分享,助攻你的面试
最新文章
- Rocksdb 利用recycle_log_file_num 重用wal-log文件
- C#将16位二进制转换为有符号数
- 转:Yaf 路由协议
- 查看apk的签名信息和签名文件的信息
- C++结构名、联合名、枚举名都是类型名
- 理解SQL SERVER中的分区表
- linux从Mac下载文件,如何将命令的输出保存到Bash中的文件(也称为Linux和macOS终端) | MOS86...
- Vue的computed(计算属性)使用实例之TodoList
- Mysql 性能优化——必胜之道
- JSON Editor Online
- 通过读取原始星历文件数据推算GPS卫星位置坐标
- android 仿新浪微博转发 评论悬浮框的功能
- 【龙芯1c库】封装模拟I2C接口和使用示例
- VMwareWorkstation虚拟机安装Linux系统
- HDU - 3003 - Pupu(快速幂)
- Python基础教学_3 Turtle 海龟画图 三叶草
- Flutter WidgetBuilder Builder
- 倪健中会长应邀出席首届世界数贸易博览会致辞:把杭州打造成全球数字贸易元宇宙之都
- 10月28日 迅雷白金会员vip账号分享 91freevip 22:00更新
- 新的国际货币IPhone?比黄金更值钱?