kaggle实战:基于超市消费数据的用户个性化分析案例
大家好,今天给大家分享一篇 kaggle 数据集的新文章:基于一份超市消费数据集的用户个性化分析以及用户分群的实现。
更多详细内容参考原数据集地址:
https://www.kaggle.com/code/sonalisingh1411/customer-personality-analysis-segmentation/data?select=marketing_campaign.csv
主要内容
本文的主要内容:
数据和字段的基本信息
缺失值分析与处理
从4个方面来具体探索字段信息
时间字段的处理
双变量分析
相关性分析
用户分群与可视化
缺失值情况:
技术提升
本文由技术群粉丝分享,项目源码、数据、技术交流提升,均可加交流群获取,群友已超过2000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友
方式①、添加微信号:dkl88191,备注:来自CSDN +研究方向
方式②、微信搜索公众号:Python学习与数据挖掘,后台回复:加群
字段含义
主要是涉及到4个方面的字段:人、商品、促销、地点
PEOPLE
ID: Customer’s unique identifier.
Year_Birth: Customer’s birth year.
Education: Customer’s education level.
Marital_Status: Customer’s marital status.
Income: Customer’s yearly household income.
Kidhome: Number of children in customer’s household.
Teenhome: Number of teenagers in customer’s household.
Dt_Customer: Date of customer’s enrollment with the company.
Recency: Number of days since customer’s last purchase.
Complain: 1 if customer complained in the last 2 years, 0 otherwise.
PRODUCTS
MntWines: Amount spent on wine in last 2 years.
MntFruits: Amount spent on fruits in last 2 years.
MntMeatProducts: Amount spent on meat in last 2 years.
MntFishProducts: Amount spent on fish in last 2 years.
MntSweetProducts: Amount spent on sweets in last 2 years.
MntGoldProds: Amount spent on gold in last 2 years.
PROMOTION
NumDealsPurchases: Number of purchases made with a discount.
AcceptedCmp1: 1 if customer accepted the offer in the 1st campaign, 0 otherwise.
AcceptedCmp2: 1 if customer accepted the offer in the 2nd campaign, 0 otherwise.
AcceptedCmp3: 1 if customer accepted the offer in the 3rd campaign, 0 otherwise.
AcceptedCmp4: 1 if customer accepted the offer in the 4th campaign, 0 otherwise.
AcceptedCmp5: 1 if customer accepted the offer in the 5th campaign, 0 otherwise.
Response: 1 if customer accepted the offer in the last campaign, 0 otherwise.
PLACE
NumWebPurchases: Number of purchases made through the company’s web site.
NumCatalogPurchases: Number of purchases made using a catalogue.
NumStorePurchases: Number of purchases made directly in stores.
NumWebVisitsMonth: Number of visits to company’s web site in the last month.
双变量分析
相关性
分群结果
plt.figure(figsize= (15,8))
plt.scatter(X[y == 0, 0], X[y == 0, 1], s = 25, c = 'mediumblue', label = 'one')
plt.scatter(X[y == 1, 0], X[y == 1, 1], s = 25, c = 'turquoise', label = 'two')
plt.scatter(X[y == 2, 0], X[y == 2, 1], s = 25, c = 'red', label = 'three')
plt.scatter(X[y == 3, 0], X[y == 3, 1], s = 25, c = 'green', label = 'four')
plt.scatter(X[y == 4, 0], X[y == 4, 1], s = 25, c = 'yellow', label = 'five') plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s = 55, c = 'black', label = 'Centroids') plt.title('Clusters of customers',fontsize = 20)
plt.xlabel('Income',fontsize = 15)
plt.ylabel('Expenses',fontsize = 15) plt.legend(fontsize = 15)
plt.show()
kaggle实战:基于超市消费数据的用户个性化分析案例相关推荐
- Kaggle基于黑色星期五交易数据的用户画像分析---PYTHON
这里写自定义目录标题 Kaggle基于黑色星期五交易数据的用户画像分析---PYTHON 1 前言 2 研究目的 3 数据说明与处理 3.1数据来源和说明 3.2数据预处理 3.2.1查看数据详情 3 ...
- 数据分析与挖掘实战-基于基站定位数据的商圈分析
基于基站定位数据的商圈分析 背景 随着个人手机终端的普及,出行群体中手机拥有率和使用率已经达到相当高的比例,手机移动网络也基本上实现了城乡空间区域的全覆盖.根据手机信号在真实地理空间上的覆盖情况,将手 ...
- 《Python数据分析与挖掘实战》第14章——基于基站定位数据的商圈分析(层次聚类)
本文是基于<Python数据分析与挖掘实战>的实战第14章<基于基站定位数据的商圈分析>做的分析. 1 挖掘背景及目标 从某通信运营商提供的特定接口解析得到用户的定位数据.利用 ...
- 《Spark商业案例与性能调优实战100课》第6课:商业案例之通过Spark SQL实现大数据电影用户行为分析
<Spark商业案例与性能调优实战100课>第6课:商业案例之通过Spark SQL实现大数据电影用户行为分析 package com.dt.spark.sparksqlimport or ...
- 基于基站定位数据的商圈分析
基于基站定位数据的商圈分析 目录 基于基站定位数据的商圈分析 实验介绍 实验背景 实验目标 实验分析方法与过程 分析流程 数据抽取分析 数据抽取 数据分析 数据预处理 数据规约 数据变换 模型构建-- ...
- MPB:亚热带生态所谭支良组-基于微生物成分数据的差异zOTU分析流程
为进一步提高<微生物组实验手册>稿件质量,本项目新增大众评审环节.文章在通过同行评审后,采用公众号推送方式分享全文,任何人均可在线提交修改意见.公众号格式显示略有问题,建议电脑端点击文末阅 ...
- 腾讯QQ大数据:用户增长分析——用户流失预警
1,前言:针对用户增长分析这个课题,本文主要从用户防流失的角度,阐述如何基于QQ社交网络数据构建用户流失预警模型,找出高潜流失用户,用于定向开展运营激活,从而有效控制用户流失风险,提升大盘用户的留存率 ...
- 基于电商数据的用户行为分析之需求分析
电商用户行为分析需求分析说明书 项目名称: 电商用户行为分析 修订时间: 2021-05-28 修订版本: 1.0 一.引言 1.目的 通过编写需求分析文档,对基于电商数据的用户行为分析系统进行介绍, ...
- 基于Spark的网上商城用户行为分析
基于Spark的网上商城用户行为分析 一.业务场景 二.数据集说明 三.操作步骤 阶段一.启动HDFS.Spark集群服务和zeppelin服务器 阶段二.准备案例中用到的数据集 阶段三.对数据集进行 ...
最新文章
- Linux的unlink
- c++ 在multimap中查找关键字的程序举例
- LeetCode 26. 删除排序数组中的重复项
- 加州出台严格无人车路测新政:要求各公司尽快申请部署许可
- 新颖训练方法——用迭代投影算法训练神经网络
- Python-银行卡号生成(符合校验规范)
- 51单片机波特率计算c语言,8051单片机波特率计算公式(配套C语言例程
- linux 默认网关自动消失,route add default gw 添加默认网关,重起后消失
- matlab中参数估计,关于matlab的参数估计
- 运动世界校园破解刷跑步数据
- selenium自动化爬取Boss直聘职位数据 按照热门城市
- java毕业设计教学辅助系统mybatis+源码+调试部署+系统+数据库+lw
- 三维设计SolidWorks
- trim用法php,trim()用法
- 03 为什么 React 16 要更改组件的生命周期?(下)
- 安科瑞厂家至直销 母线监控装置AMB100-A 独立辅助电流供电
- 我不是英雄:是他干掉了WannaCry的域名开关
- 为什么BAT干不掉海康威视?——关于人工智能的思考
- 11.29 电驴设置对话框形式的实现中遇到的问题
- 国内高通量基因测序公司成立 时间表