
介绍 (Introduction)

The goal of this analysis was to identify different user groups based on the deals they have availed, using a discount app, in order to re-target them with offers similar to ones they have availed in the past.


Machine learning algorithm K-means was used to identify user segments based on their purchase behavior. Here is a 3-D illustration of what algorithm extracted.

机器学习算法K-means用于根据用户细分的购买行为识别用户细分。 这是所提取算法的3D图。

3D image of clusters produced by K-Means, by Muffaddal

术语: (Terminologies:)

Before going deeper into the analysis, let’s define some keywords being used.


Deal Avail: When user avails discount using app.Spent: Discounted price user pays while buying an item.Saved: Amount user saved through the app.Brands: Vendors for which discounts are being offered such as Pizza Hut, GreenODeals: Discounts offered to users on different outlets and brands.

交易无效:当用户使用应用程序享受折扣时。 已用:用户在购买商品时支付的折扣价。 已保存:通过应用保存的用户数量。 品牌:为其提供折扣的供应商,例如必胜客,GreenO 交易:为不同商店和品牌的用户提供折扣。

分析 (Analysis)

资料集 (Data sets)

The behavior data set was extracted from Mixpanel using JQL. Following was used for this analysis

使用JQL从Mixpanel提取行为数据集。 以下用于此分析

Mixpanel Data Set, by Muffaddal

userId: unique id of usersaveAmount: amount saved by user on deal availspentAmount: amount spent by user on deal availbrandName: brand for which deal was availedcount: number of deals availed by user

userId:用户的唯一ID saveAmount :用户在交易有效时所节省的金额costAmount :用户在交易有效时所消耗的金额brandName :已进行交易的品牌 :用户所进行的交易数量

Using the above data set averageSpentAmount, averageSavedAmount and dealAvailCount was calculated for each user as seen below

使用上面的数据集,为每个用户计算了averageSpentAmountaverageSavedAmountdealAvailCount ,如下所示

Average Deal Availed Data set, by Muffaddal

Machine Learning — K-means ClusteringThe first step of the k-mean algorithm was to find an optimal number of clusters for segmentation. There are a number of methods out there for this purpose, one of which is the elbow method using within-cluster sum square (wcss).

机器学习-K均值聚类 k均值算法的第一步是找到用于分割的最佳聚类数。 为此,存在许多方法,其中一种是使用簇内和平方(wcss)的肘方法。

WCSS for up-to 10 clusters, by Muffaddal

Based on the elbow method, 4, 5, and 6 clusters were used to explore the segments and 4 clusters were picked as best for the given data set.


R code for K-Means clustering

I would recommend these courses on Data camp and Coursera if you want to learn more about user clustering and user segmentation.

如果您想了解有关用户集群和用户细分的更多信息, 我将在 数据营 Coursera 上推荐这些课程

K均值提取了哪些细分? (What Segments K-means extracted?)

Following were average stats of four identified segments:


Average stats of each segment
Segments Characteristics
Graphical Representation of Segments Characteristics, by Muffaddal

Users in segment 1 and 2 were high paying users with segment 1 users also had saved equally high per deal(probably availed buy 1 get 1 offers). However, the number of deals availed by these users were less than 2 (i.e. 1.3 and 1.4 respectively).

第1段和第2段的用户是高薪用户,第1段的用户每笔交易也节省了同样高的费用(可能使用“买一送一”的优惠)。 但是,这些用户获得的交易数量少于2(即分别为1.3和1.4)。

On the other hand, segment 3 and segment 4 users spent less and hence, saved less as well. However, segment 4 users had the greatest deal availed per user ratio (on average more than 9 deals availed by each user) in all 4 segments. It was the most converted cohort of users.

另一方面,第3段和第4段的用户花费较少,因此节省的也较少。 但是,在所有4个细分受众群中,细分受众群4用户的每位用户交易比例最高(平均每位用户超过9笔交易)。 这是转化率最高的用户群体。

每个细分市场中的用户总数和交易数量是多少? (What were the total number of users and the number of deals availed in each segment?)

Here is the total number of users and deals each segment users had availed.


Number of users in segments, by Muffaddal
Number of deals availed, by Muffaddal

57% of users belonged to segment 3 and only 3% of users were from the most converted segment (i.e segment 4).


总体用户支出是多少? (What were overall users spending?)

Here is the spread of spending by each segment


Spending of users in each segment, by Muffaddal

Some of the users from segment 4 had high spending (yellow dots in segment 4) similar to segment 1 and 2 but segment 3 (which comprise of 57% of the users) didn't go for high spending deals and/or brands at all.


每个细分市场用户偏好的品牌类型? (Type of brand each segment users preferred?)

Let’s look at what type of brand these segment users avail to understand any distinction in them.


Brands users availed, by Muffaddal

Segment 1 users had availed mix of burger, pizza and fun time, Segment 2 users had availed pizza and segment 3 users had preferred burgers. While Segment 4 users (most converted users) preferred juices and other types of brands.

第1部分用户使用了汉堡,比萨饼和娱乐时间,第2部分用户使用了比萨饼,第3部分用户则选择了汉堡。 而第4类用户(转化最多的用户)则更喜欢果汁和其他类型的品牌。

每个细分市场都有哪些品牌? (What brands each segment availed?.)

Here are the top 10 brands these segmented users had availed.


Top 10 Brands Availed by Each Segments, by Muffaddal

Looking at the brands we can comprehend what type of brand and deals these segment users would prefer. Segment 1 & 2 users (high paying users) had availed premium brands such as Sajjad, kababi, Charcoal, California, etc while segment 3 and 4 (low paying users) had mostly opted in for medium to low tier brands.

通过查看品牌,我们可以了解哪些类型的品牌以及这些细分用户希望的交易。 第1段和第2段用户(高收入用户)曾使用过Sajjad,kababi,木炭,加利福尼亚等高级品牌,而第3段和第4段(低收入用户)则大多选择了中低档品牌。

如何运用这些结果? (How these results can be employed?)

Based on different user segments we can:


1- Targeted Ads Personalize ads for each segment would increase the conversion rate as users are more likely to convert on specific brands and offers. So, for example, show Sajjad’s ads to users with higher-paying power then to users with low paying power.

1-定位广告 每个细分受众群的个性化广告将提高转化率,因为用户更有可能转化为特定品牌和优惠。 因此,例如,向高支付能力的用户展示Sajjad的广告,然后向低支付能力的用户展示。

2- In-app RecommendationsOptimize the app to recommend deals and discounts within the app that each segment users would be more interested in.


摘要 (Summary)

To sum up, with data and proper efforts we were able to identify interesting information about users and their liking and were able to strategies how to engage users more based on their preferences.


翻译自: https://towardsdatascience.com/user-segmentation-based-on-purchase-history-490c57402d53




  • swap最大值和平均值_SWAP:Softmax加权平均池
  • pytorch卷积可视化_使用Pytorch可视化卷积神经网络
  • u-net语义分割_使用U-Net的语义分割
  • 地理空间数据
  • 嵌入式系统分类及其应用场景_词嵌入及其应用简介
  • hotelling变换_基于Hotelling-T²的偏最小二乘(PLS)中的变量选择
  • 命名实体识别 实体抽取_您的公司为什么要关心命名实体的识别
  • 机器学习 异常值检测_异常值是否会破坏您的机器学习预测? 寻找最佳解决方案
  • yolov3算法优点缺点_优点缺点
  • 主成分分析具体解释_主成分分析-现在用您自己的术语解释
  • netflix 数据科学家_数据科学和机器学习在Netflix中的应用
  • python画交互式地图_使用Python构建交互式地图-入门指南
  • 大疆 机器学习 实习生_我们的数据科学机器人实习生
  • ai人工智能的本质和未来_人工智能的未来在于模型压缩
  • tableau使用_使用Tableau探索墨尔本房地产市场
  • 谷歌云请更正这张卡片的信息_如何识别和更正Google Analytics(分析)报告中的(未设置)值
  • 科技情报研究所工资_我们所说的情报是什么?
  • 手语识别_使用深度学习进行手语识别
  • 数据科学的5种基本的面向业务的批判性思维技能
  • 大数据技术 学习之旅_数据-数据科学之旅的起点
  • 编写分段函数子函数_编写自己的函数
  • 打破学习的玻璃墙_打破Google背后的创新深度学习
  • 向量 矩阵 张量_张量,矩阵和向量有什么区别?
  • monk js_使用Monk AI进行手语分类
  • 辍学的名人_辍学效果如此出色的5个观点
  • 强化学习-动态规划_强化学习-第5部分
  • 查看-增强会话_会话式人工智能-关键技术和挑战-第2部分
  • 我从未看过荒原写作背景_您从未听说过的最佳数据科学认证
  • nlp算法文本向量化_NLP中的标记化算法概述
  • 数据科学与大数据排名思考题_排名前5位的数据科学课程


  1. python爬取微博用户正文_基于Python的新浪微博用户信息爬取与分析

    基于 Python 的新浪微博用户信息爬取与分析 邓文萍 [摘 要] 摘要:本文设计并实现了一个微博用户信息爬取与分析系统 , 利用 Cookie 实现了用户的模拟登录 , 使用 Python 语言的 ...

  2. video 微信 标签层级过高_基于大数据的用户标签体系建设思路和应用

    在大数据时代,数据在呈现出海量化.多样化和价值化变化的同时,也改变了传统IT行业的市场竞争环境.营销策略和服务模式.如何在ZB级的海量数据中获取并筛选有价值的信息,是对IT企业的一大挑战,通过构建客户 ...

  3. 大数据 客户标签体系_基于大数据的用户标签体系建设思路和应用

    如何设计一个完善的用户标签体系?怎么打标签?打哪些标签?谁来打?怎么使用用户标签创建商业价值? 在大数据时代,数据在呈现出海量化.多样化和价值化变化的同时,也改变了传统IT行业的市场竞争环境.营销策略 ...

  4. 大数据标签获取处理步骤_基于大数据的用户深层标签挖掘方法与流程

    本发明涉及大数据应用技术领域,尤其涉及一种基于大数据的用户深层标签挖掘方法. 背景技术: 用户画像建立的过程就是添加相应的标签,在数据挖掘领域称为标签化.标签是通过对用户信息分析而得到的高度精炼的特征 ...

  5. 大数据 客户标签体系_基于大数据的用户标签体系建设思路

    如何在ZB级的海量数据中获取并筛选有价值的信息,是对IT企业的一大挑战.通过构建客户标签,支撑精准营销服务,是应对上述挑战的有效解决方案. 但是怎么设计一个完善的用户标签体系?怎么打标签?打哪些标签? ...

  6. kmeans聚类算法_基于K-means聚类的用户用电行为分析

    大数据时代,通过简单的仪表监测家庭.工厂等地的实时用电量后,可以通过聚类算法对用户用电特征进行聚类,这有利于: 1.将用电行为类似的用户进行聚合,以便用电公司提供更合理的套餐服务: 2.根据不同类型的 ...

  7. java象棋游戏用户特点_基于Java Swing的《中国象棋》游戏的设计与实现

    60 开发经验 3基金项目: 江西省自然科学基金资助项目(编号: 0411046); 江西省高性能计算技术重点实验室资助基金项目(No. JXHC20052003) ). 基于 Java Swing ...

  8. 基于ssm的用户管理系统_基于SSM的高校学生实习管理系统

    前言:本文描述了基于SSM的高校学生实习管理系统的实战项目,分析了该项目的功能需求以及最终呈现的效果 基于SSM的高校学生实习管理系统应完成如下功能: 1. 用户角色划分 本系统主要用户有四类:实习企 ...

  9. [SpringSecurity]web权限方案_用户授权_基于权限访问控制_基于角色访问控制_hasAuthority和hasAnyAuthority_hasRole和hasAnyRole

    基于角色或权限进行访问控制 hasAuthority 方法 如果当前的主体具有指定的权限,则返回 true,否则返回 false 在配置类设置当前访问地址有哪些 @Overrideprotected ...


  1. ServiceStack 项目实例 001 建立项目结构
  2. Window下git生成SSH Key以及格式转换
  3. mysql用if判断关联的表_mysql表连接,子查询以及if判断
  4. 90题细品吴恩达《机器学习》,感受被刷题支配的恐惧
  5. Web开发的历史发展技术演变
  6. 以色列网络安全初创企业Cronus获350万美元A轮融资
  7. leetcode刷题笔记(3)(python)
  8. python beautifulsoup4_【python+beautifulsoup4】Beautifulsoup4
  9. bzoj 1622: [Usaco2008 Open]Word Power 名字的能量
  10. iOS Xcode7.2 is Not on Any Development Teams
  11. 【python入门到实践1】简介和环境搭建
  12. Atitit mybatis prblm n solu v1 u55 目录 1.1. 加载任意文职cfg 1 1.2. 根据dburl获取factory 1 1.3. Load any mapper
  13. Arduino通过usbasp编程器烧录程序或者bootloaders时出现以下错误解决方法
  14. Itil 故障管理流程关键知识
  15. Raspberry pi设置Samba
  16. 谓词函数和谓词函数对象_称为形容词的函数
  17. Win7激活后添加grub引导Linux最简单方法
  18. Python爬取网上车市[http://www.cheshi.com/]的数据
  19. 三维模型的简化算法研究(任务书+lunwen+外文翻译+源码+查重报告)
  20. python判断两数互质_hide handkerchief(判断两数是否互质)


  1. oracle查看和替换含不可见字符(空白)
  2. 基于mysql的主从复制之Mycat简单配置和高可用
  3. extjs 页面打开时表格自动加载后台传来的json数据
  4. 数据库迁移 编码问题
  5. 计算机变革时代:虚拟化和云计算
  6. ASP.NET Google Maps Javascript API V3 实战基础篇一获取和设置事件处理程序中的属性...
  7. [转]Velocity脚本摘要
  8. 微型计算机技术第三版第三章答案,第3章微机组装技术作业(答案)
  9. android程序大牛,冲向大牛之安卓:学习界面怎么在程序中画出来
  10. Simple Polygon Embedding CodeForces - 1354C1(计算几何)