分享一个不错的数据分析实战案例【全程附图】EXCEL
大家早上好,本人姓吴,如果觉得文章写得还行的话也可以叫我吴老师。欢迎大家跟我一起走进数据分析的世界,一起学习!
感兴趣的朋友可以关注我或者我的数据分析专栏,里面有许多优质的文章跟大家分享哦。
完整数据及操作记录数据的下载链接放在文末。
目录
- 项目简介
- 1 数据理解
- 2 数据清洗
- 3 确定思路
- 4 分析过程
- 4.1 年龄
- 4.2 失信状况default
- 4.3 个人资产balance
- 4.4 housing&loan
- 4.5 上次营销结果poutcome
- 5 总结
项目简介
利用最近一次的营销活动的信息,分析什么对推销结果的影响最大,如何确定银行定期产品推销中最具价值的客户。
PS: 这是最初上传到UCI机器学习库的经典营销银行数据集,该数据集提供了有关金融机构营销活动的信息,但在本篇博客当中我们仅会用到EXCEL进行数据分析,使用机器学习进行分析我们留到之后再介绍。
1 数据理解
字段名 | 理解 |
---|---|
age | 年龄(数值) |
job | 职业(分类:admin, bluecollar, entrepreneur, housemaid, management, retired, self-employed, services,student, technician, unemployed, unknown) |
marital | 婚姻状况(分类:divorced, married, single, unknown) |
education | 学历(分类:primary, secondary, tertiary and unknown) |
default | 失信状况(分类:yes, no) |
balance | 资产余额(数值) |
housing | 房屋贷款(分类:yes, no, unknown) |
loan | 个人贷款(分类:yes, no, unknown) |
contact | 联系方式(分类:cellular, telephone) |
day | 最后一次电话营销的日期(数值:月份中的哪一天) |
month | 最后一次电话营销的月份(分类:jan, feb, mar, apr,…,nov, dev) |
duration | 通话时长(数值:以秒为单位,0的话最终输出结果必然是0) |
campaign | 联系次数(数值:此活动中联系该客户的次数) |
pdays | 距上次联系完客户后的天数(数值:999代表未联系过该客户) |
previous | 这次活动前与这位客户联系的次数(数值) |
poutcome | 上次营销的结果(分类:yes, no, unknown) |
deposit | 定期存款(分类:yes, no)客户是否已购买定期存款 |
2 数据清洗
此次数据除了部分未知数据(unknown),其它暂不需要清洗。
3 确定思路
首先这个balance,我不太确定具体指什么,目前推测应该是客户存放在银行的资金(负数应该代表欠了银行钱吧哈哈),总不可能是代表这个人的个人全部资产吧(银行得不到这方面的信息),所以暂时留着。
然后这个day和month,如果说有年份的话还能将其分为周一周二等,但是没有,数据集出处也没有明确标注是哪一年,所以如果用来分析的话可能也只能按月来分析,但按以往的经验和数据量的大小来看,应该用处不大。
至于duration的话,因为当duration为0时结果必然是失败的,说明这个数据的记录应该是银行人员在营销完记录下的,而现实中你无法在营销前就得到该数据,所以这个数据没有用。
那么接下来我们如何下手呢?
首先我们可以将数据分为两种类型:
1、客户的个人信息
2、营销人员与客户的联系信息
那么接下来我们可以按照这两种数据提出几个问题:
1、用户的个人信息是否对结果有着明显的影响(哪些属性影响大)?
2、营销人员的行为是否对结果有着明显的影响(哪些属性影响大)?
4 分析过程
4.1 年龄
此时我们探究年龄与结果是否有明显的影响。
首先我们可以查看以下数据集中的年龄统计分布情况:
可以发现共有11162名最小值为18,最大值为95,最小值为18。我们可以按照我们的认知,将客户分为几个不同年龄阶段。
分组的话主要是用到了VLOOKUP函数进行分组。
此时得到分组后,我们可以生成数据透视表来查看情况。
从图当中我们可以明显的看到在老年人群体中最终购买了定期存款的比例最大,为80.2%,而其他群体最终的结果并没有明显的差距。
4.2 失信状况default
有失信记录的在结果上没有什么差别,无失信记录的最终购买的比例低于没有购买的,但是数据量较小,不能作为参考。
4.3 个人资产balance
同年龄一样,balance是数值型,因而最好先将其分组。
这里我主要采用箱型图来查看balance数据的分布,以便后续进行分组。
可以看到的是数据主要是集中在0-2000之间,有少部分低于该区间,然后有部分大于该区间。
按下图进行分组:
结果如下:
这里主要可以发现的是负资产的客户最终购买的可能性较低,而资产较高的客户购买的可能性稍微大些。
4.4 housing&loan
接下来的房屋贷款和个人贷款,这个我打算放在一起进行分析。
具体如下:
可以看到无房贷和无个人贷款的客户最终购买的可能性最大,为59.65%。其余的只要有任何一个贷款购买的可能性就比较低。
4.5 上次营销结果poutcome
同理,生成透视图查看一下:
(包括这次在内,当生成透视图时发现有部分数据(如unknown、other)是我们不想要的,记得筛选掉)
从图中我们可以明显发现,上次营销成功的客户这次购买的可能性也极大。
5 总结
结论:从上述结果我们可以发现,老年人且上次营销成功的群体最有可能购买产品,而有贷款且低资产的用户购买的可能性会很小。
PS: 这次没有其他过多的因素考量,如产品实际的业务情况、数据具体来源等,而我主要也是利用自己以往的经验来选取数据进行分析,没有做过多的分析比较。
代码下载链接,有需要的请自行提取,不想hua前的朋友,可评论同我说,我会回复你,但可能会比较慢。祝好!
https://download.csdn.net/download/qq_44186838/86799994
推荐关注的专栏
分享一个不错的数据分析实战案例【全程附图】EXCEL相关推荐
- 每日分享,一个不错的数据分析实战案例【数据分析可视化】MySQL+Python
大家早上好,本人姓吴,如果觉得文章写得还行的话也可以叫我吴老师.欢迎大家跟我一起走进数据分析的世界,一起学习! 感兴趣的朋友可以关注我或者我的数据分析专栏,里面有许多优质的文章跟大家分享哦. 目录 项 ...
- python朋友圈点赞统计_Python数据分析实战案例:统计分析微信朋友圈数据(附实操视频)...
原标题:Python数据分析实战案例:统计分析微信朋友圈数据(附实操视频) 本文内容将通过一个具体实例讲解将朋友圈数据导出为JSON文件的方法,并介绍使用Python统计分析JSON数据的过程. 注: ...
- Pandas数据分析实战案例之青春有你2(获取人物名称与头像)
Pandas数据分析实战案例之青春有你2 看前须知:如果有需要借鉴的地方的话,可以把 导出数据 和 下载图片 的地址改掉.除此以外,可能定义函数的时候里面的 获取资料地址有误 ,会显示404,在文章末 ...
- 分享一个不错的Windows软件——Fliqlo
今天给大家分享一个不错的Windows软件:Fliqlo,下面有软件的安装包,可以直接获取. Fliqlo是一个十分强大的桌面动态时钟屏保工具,提供带动态翻页效果的数字时钟屏保,想要与众不同的桌面,这 ...
- 分享一个不错的Windows软件
小伙伴们好啊!大家都买到想买的货了吗? 早上起来看推送的新闻,天猫交易额一小时突破了1000亿,果然大家都很诚实,说不买又都乖乖的熬到12点去买东西. 我之前写过一篇双十一的文章<你不会天真的以 ...
- Python数据分析实战-提取DataFrame(Excel)某列(字段)最全操作(附源码和实现效果)
实现功能: Python数据分析实战-提取DataFrame(Excel)某列(字段)最全操作,代码演示了单列提取和多列提取两种情况,其中单列提取有返回series格式和dataframe两种情况,在 ...
- 分享一个超nice的数据分析实战案例, “手把手”教学,收藏等于学会
大家早上好,本人姓吴,如果觉得文章写得还行的话也可以叫我吴老师.欢迎大家跟我一起走进数据分析的世界,一起学习! 感兴趣的朋友可以关注我或者我的数据分析专栏,里面有许多优质的文章跟大家分享哦. 今天给大 ...
- 数据分析人必看,分享一个完整的数据分析流程
想入门数据分析应该怎么学?新手做数据分析有哪些好用的工具?会用 Excel 但是做分析总是没思路怎么办?做数据分析有哪些方法...... 以上这些问题,相信各位想入门数据分析的小伙伴们或多或少都会遇到 ...
- 盘点一个Python自动化办公实战案例
点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 阳和不散穷途恨,霄汉长怀捧日心. ...
- Python 数据分析实战案例:基于电商销售数据的 RFM 模型构建
目录 1.背景 2.分析目标 3.数据准备 4.数据清洗 4.1 查看是否含有缺失值 4.2 查看是否有异常值 4.3 数据整理 5.具体目标分析 5.1 分析每年销售额的增长率 5.2 各个地区分店 ...
最新文章
- 【Pandas库】(1) Series的创建方法
- Dlib简介及在windows7 vs2013编译过程
- win7的IE缓存,临时文件,cookies和历史记录
- 一文读懂5G:颠覆生活资费天价?
- [ARM异常]-同步异常产生和返回(svc/hyc/smc/eret)
- (转)Cairngorm初学者入门教程 第四节--通过 Model Locator 控制管理 Views
- way.js - 轻量级、持久化的双向绑定JS库
- php怎么实现简单的mvc框架,php实现简单的MVC框架实例
- MATLAB中unwrap函数
- AcWing 802. 区间和
- Juniper设备管理
- Unity实现2D小游戏
- 代码不规范,亲人两行泪——DTO
- 不管你信不信,这就是程序员996的真实内幕!
- Android车载蓝牙相关开发4:蓝牙电话操作器BluetoothHeadsetClient
- 大班线描机器人_大班线描画-有趣的巨人
- 解析v-if和v-show的区别和使用场景
- nacos最新版本下载
- 动手实现简易PHP一句话连接工具——FruitKnife
- matlab中内置D-STATCOM模型