大家好,今天给大家分享一篇 kaggle 数据集的新文章:基于一份超市消费数据集的用户个性化分析以及用户分群的实现。

更多详细内容参考原数据集地址:

https://www.kaggle.com/code/sonalisingh1411/customer-personality-analysis-segmentation/data?select=marketing_campaign.csv

主要内容

本文的主要内容:

  • 数据和字段的基本信息

  • 缺失值分析与处理

  • 从4个方面来具体探索字段信息

  • 时间字段的处理

  • 双变量分析

  • 相关性分析

  • 用户分群与可视化

缺失值情况:

技术提升

本文由技术群粉丝分享,项目源码、数据、技术交流提升,均可加交流群获取,群友已超过2000人,添加时最好的备注方式为:来源+兴趣方向,方便找到志同道合的朋友

方式①、添加微信号:dkl88191,备注:来自CSDN +研究方向
方式②、微信搜索公众号:Python学习与数据挖掘,后台回复:加群

字段含义

主要是涉及到4个方面的字段:人、商品、促销、地点

PEOPLE

  1. ID: Customer’s unique identifier.

  2. Year_Birth: Customer’s birth year.

  3. Education: Customer’s education level.

  4. Marital_Status: Customer’s marital status.

  5. Income: Customer’s yearly household income.

  6. Kidhome: Number of children in customer’s household.

  7. Teenhome: Number of teenagers in customer’s household.

  8. Dt_Customer: Date of customer’s enrollment with the company.

  9. Recency: Number of days since customer’s last purchase.

  10. Complain: 1 if customer complained in the last 2 years, 0 otherwise.

PRODUCTS

  1. MntWines: Amount spent on wine in last 2 years.

  2. MntFruits: Amount spent on fruits in last 2 years.

  3. MntMeatProducts: Amount spent on meat in last 2 years.

  4. MntFishProducts: Amount spent on fish in last 2 years.

  5. MntSweetProducts: Amount spent on sweets in last 2 years.

  6. MntGoldProds: Amount spent on gold in last 2 years.

PROMOTION

  1. NumDealsPurchases: Number of purchases made with a discount.

  2. AcceptedCmp1: 1 if customer accepted the offer in the 1st campaign, 0 otherwise.

  3. AcceptedCmp2: 1 if customer accepted the offer in the 2nd campaign, 0 otherwise.

  4. AcceptedCmp3: 1 if customer accepted the offer in the 3rd campaign, 0 otherwise.

  5. AcceptedCmp4: 1 if customer accepted the offer in the 4th campaign, 0 otherwise.

  6. AcceptedCmp5: 1 if customer accepted the offer in the 5th campaign, 0 otherwise.

  7. Response: 1 if customer accepted the offer in the last campaign, 0 otherwise.

PLACE

  1. NumWebPurchases: Number of purchases made through the company’s web site.

  2. NumCatalogPurchases: Number of purchases made using a catalogue.

  3. NumStorePurchases: Number of purchases made directly in stores.

  4. NumWebVisitsMonth: Number of visits to company’s web site in the last month.

双变量分析

相关性

分群结果

plt.figure(figsize= (15,8))
plt.scatter(X[y == 0, 0], X[y == 0, 1],   s = 25, c = 'mediumblue',   label = 'one')
plt.scatter(X[y == 1, 0], X[y == 1, 1],   s = 25, c = 'turquoise',   label = 'two')
plt.scatter(X[y == 2, 0], X[y == 2, 1],   s = 25, c = 'red',   label = 'three')
plt.scatter(X[y == 3, 0], X[y == 3, 1],   s = 25, c = 'green',   label = 'four')
plt.scatter(X[y == 4, 0], X[y == 4, 1],   s = 25, c = 'yellow',   label = 'five')  plt.scatter(kmeans.cluster_centers_[:, 0],  kmeans.cluster_centers_[:, 1],   s = 55, c = 'black',   label = 'Centroids')  plt.title('Clusters of customers',fontsize = 20)
plt.xlabel('Income',fontsize = 15)
plt.ylabel('Expenses',fontsize = 15)  plt.legend(fontsize = 15)
plt.show()

kaggle实战:基于超市消费数据的用户个性化分析案例相关推荐

  1. Kaggle基于黑色星期五交易数据的用户画像分析---PYTHON

    这里写自定义目录标题 Kaggle基于黑色星期五交易数据的用户画像分析---PYTHON 1 前言 2 研究目的 3 数据说明与处理 3.1数据来源和说明 3.2数据预处理 3.2.1查看数据详情 3 ...

  2. 数据分析与挖掘实战-基于基站定位数据的商圈分析

    基于基站定位数据的商圈分析 背景 随着个人手机终端的普及,出行群体中手机拥有率和使用率已经达到相当高的比例,手机移动网络也基本上实现了城乡空间区域的全覆盖.根据手机信号在真实地理空间上的覆盖情况,将手 ...

  3. 《Python数据分析与挖掘实战》第14章——基于基站定位数据的商圈分析(层次聚类)

    本文是基于<Python数据分析与挖掘实战>的实战第14章<基于基站定位数据的商圈分析>做的分析. 1 挖掘背景及目标 从某通信运营商提供的特定接口解析得到用户的定位数据.利用 ...

  4. 《Spark商业案例与性能调优实战100课》第6课:商业案例之通过Spark SQL实现大数据电影用户行为分析

    <Spark商业案例与性能调优实战100课>第6课:商业案例之通过Spark SQL实现大数据电影用户行为分析 package com.dt.spark.sparksqlimport or ...

  5. 基于基站定位数据的商圈分析

    基于基站定位数据的商圈分析 目录 基于基站定位数据的商圈分析 实验介绍 实验背景 实验目标 实验分析方法与过程 分析流程 数据抽取分析 数据抽取 数据分析 数据预处理 数据规约 数据变换 模型构建-- ...

  6. MPB:亚热带生态所谭支良组-基于微生物成分数据的差异zOTU分析流程

    为进一步提高<微生物组实验手册>稿件质量,本项目新增大众评审环节.文章在通过同行评审后,采用公众号推送方式分享全文,任何人均可在线提交修改意见.公众号格式显示略有问题,建议电脑端点击文末阅 ...

  7. 腾讯QQ大数据:用户增长分析——用户流失预警

    1,前言:针对用户增长分析这个课题,本文主要从用户防流失的角度,阐述如何基于QQ社交网络数据构建用户流失预警模型,找出高潜流失用户,用于定向开展运营激活,从而有效控制用户流失风险,提升大盘用户的留存率 ...

  8. 基于电商数据的用户行为分析之需求分析

    电商用户行为分析需求分析说明书 项目名称: 电商用户行为分析 修订时间: 2021-05-28 修订版本: 1.0 一.引言 1.目的 通过编写需求分析文档,对基于电商数据的用户行为分析系统进行介绍, ...

  9. 基于Spark的网上商城用户行为分析

    基于Spark的网上商城用户行为分析 一.业务场景 二.数据集说明 三.操作步骤 阶段一.启动HDFS.Spark集群服务和zeppelin服务器 阶段二.准备案例中用到的数据集 阶段三.对数据集进行 ...

最新文章

  1. Linux的unlink
  2. c++ 在multimap中查找关键字的程序举例
  3. LeetCode 26. 删除排序数组中的重复项
  4. 加州出台严格无人车路测新政:要求各公司尽快申请部署许可
  5. 新颖训练方法——用迭代投影算法训练神经网络
  6. Python-银行卡号生成(符合校验规范)
  7. 51单片机波特率计算c语言,8051单片机波特率计算公式(配套C语言例程
  8. linux 默认网关自动消失,route add default gw 添加默认网关,重起后消失
  9. matlab中参数估计,关于matlab的参数估计
  10. 运动世界校园破解刷跑步数据
  11. selenium自动化爬取Boss直聘职位数据 按照热门城市
  12. java毕业设计教学辅助系统mybatis+源码+调试部署+系统+数据库+lw
  13. 三维设计SolidWorks
  14. trim用法php,trim()用法
  15. 03 为什么 React 16 要更改组件的生命周期?(下)
  16. 安科瑞厂家至直销 母线监控装置AMB100-A 独立辅助电流供电
  17. 我不是英雄:是他干掉了WannaCry的域名开关
  18. 为什么BAT干不掉海康威视?——关于人工智能的思考
  19. 11.29 电驴设置对话框形式的实现中遇到的问题
  20. 国内高通量基因测序公司成立 时间表

热门文章

  1. 小白C语言——分离数位
  2. slf4j logger
  3. java为什么要用引用,关于java:为什么要为对象使用超类引用?
  4. 如何简单修改Android的so文件
  5. phontomjs webPage模块方法
  6. 最快的公共dns服务器_如何使用Google公共DNS服务器?
  7. 只有程序员才懂的幽默(转)
  8. python写我爱你_Python初体验之我爱你
  9. 四叶草社交平台——十天冲刺(8)
  10. spring cloud stream kafka 处理消息