技术作者:小小明

理论修订:才哥

原文链接:https://blog.csdn.net/as604049322/article/details/116505941

文章目录

  • 同期群分析
    • 同期群分析概念
    • 数据读取
    • 分析方向
    • 数据预处理
    • 同期群分析
      • 从留存率角度进行同期群分析
      • 从人均付款金额角度进行同期群分析
      • 从人均购买次数角度进行同期群分析
    • 每月总体付费情况
    • 将结果导出网页或截图
    • 整体完整代码

同期群分析

同期群分析概念

同期群(Cohort)的字面意思(有共同特点或举止类同的)一群人,比如不同性别,不同年龄。

在《精益数据分析》中的第2章 创业的记分牌 中介绍了三种分析方法(市场细分、同期群分析以及A/B测试),其中关于同期群分析的讨论可以帮助我们快速了解它的应用场景。

同期群分析:比较的是相似群体随时间的变化。

产品会随着你的开发和测试而不断迭代,这就导致在产品发布第一周就加入的用户和后来才加入的用户有着不同的体验。比如,每个用户都会经历一个生命周期:从免费试用,到付费使用,最后停止使用。同时,在这期间里,你还在不停地对商业模式进行调整。于是,在产品上线第一个月就“吃螃蟹”的用户势必与四个月后才加入的用户有着不同的上手体验。这对用户流失率会有什么影响?我们用同期群分析来寻找答案。

每一组用户构成一个同期群,参与整个试验过程。通过比较不同的同期群,你可以获知:从总体上看,关键指标的表现是否越来越好了。

结合到用户分析层面,比如不同月份获取的用户,不同渠道新增用户,具备不同特征的用户(比如微信里每天至少和10个以上朋友微信的用户)。

同期群分析(Cohort Analysis),将这些具有不同特征的人群进行对比分析,以发现他们在时间维度下的行为差异。

因此,同期群分析主要用于以下2点:

  • 对比 不同 同期群群体同一体验周期的数据指标,验证产品迭代优化的效果
  • 对比 同一 同期群群体不同体验周期(生命周期)的数据指标,发现长线体验的问题

我们在进行同期群分析的时候,大致可以划分为2个流程:确定同期群分组逻辑和确定同期群分析的关键数据指标

关于分组逻辑,需要遵循以下2个准则:

  • 具有相似行为特征的群体
  • 具有相同时间周期的群体

例如:

  1. 按获客月份(按周甚至按天分组)
  2. 按获客渠道
  3. 按照用户完成的特定行为,比如用户访问网站的次数或者购买次数来分类。

关于关键数据指标,需要是基于时间维度下的比如留存、营收、自传播系数等等。

下面是以留存率作为指标的案例示例:

下面是某电商的运营数据,我们将以该数据演示用python进行同期群分析。

同期群分析案例详解:

数据是某电商用户付费日志,日志字段包含日期、付费金额和用户id,已脱敏处理。

数据读取

import pandas as pddf = pd.read_csv('日志.csv', encoding="gb18030")
df.head()

分析方向

分组逻辑:

这里只按照用户的初始购买月份进行分组,如果日志包含的分类字段更多(比如 渠道、性别或者年龄等),可以考虑更多种分组逻辑。

关键数据指标:

针对此份数据,至少有3个数据指标可以进行分析:

  1. 留存率
  2. 人均付款金额
  3. 人均购买次数

数据预处理

因为我们是按照月份进行分组,所以需要先将日期重采样为月份:

df['购买月份'] = pd.to_datetime(df.日期).dt.to_period("M")
df.head()

计算每个用户在每个月的付费总额:

order = df.groupby(["uid", "购买月份"], as_index=False).agg(月付费总额=("付费金额","sum"),月付费次数=("uid","count"),
)
order.head()

计算每个用户的首单购买月份作为同期群分组,并将其对应到原始数据上:

order["首单月份"] = order.groupby("uid")['购买月份'].transform("min")
order.head()

计算每条购买记录的时间与首单购买时间的月份差,并重置月份差标签:

order["标签"] = (order.购买月份-order.首单月份).apply(lambda x:"同期群人数" if x.n==0 else f"+{x.n}月")
order.head()

两个月份均为时期类型,相减后得到object类型的列,而该列每个元素的类型是pandas._libs.tslibs.offsets.MonthEnd

MonthEnd类型具有属性n能返回具体差值整数。

同期群分析

前面我们说了至少有3个数据指标可以进行分析:

  1. 留存率
  2. 人均付款金额
  3. 人均购买次数

从留存率角度进行同期群分析

通过数据透视表可以一次性计算所需的数据:

cohort_number = order.pivot_table(index="首单月份", columns="标签",values="uid", aggfunc="count",fill_value=0).rename_axis(columns="留存率")
cohort_number

注意:rename_axis(columns=None)用于删除列标签的轴名称。rename_axis(columns=“留存率”)则设置轴名称为留存率。

将 本月新增 列移动到第一列:

cohort_number.insert(0, "同期群人数", cohort_number.pop("同期群人数"))
cohort_number

具体过程是先通过pop删除该列,然后插入到0位置,并命名为指定的列名。

在本次的分析中,留存率的具体计算方式为:+N月留存率=+N月付款用户数/首月付款用户数

cohort_number.iloc[:, 1:] = cohort_number.iloc[:, 1:].divide(cohort_number.本月新增, axis=0)
cohort_number

以百分比形式显示,并设置颜色:

out1 = (cohort_number.style.format("{:.2%}", subset=cohort_number.columns[1:]).bar(subset="同期群人数", color="green").background_gradient("Reds", subset=cohort_number.columns[1:], high=1, axis=None))
out1

至此计算完毕。

从人均付款金额角度进行同期群分析

要从从人均付款金额角度考虑,需要考虑同期群基期这个整体。具体计算方式是先计算各月的付款总额,然后除以基期的总人数:

cohort_amount = order.pivot_table(index="首单月份", columns="标签",values="月付费总额", aggfunc="sum",fill_value=0).rename_axis(columns="人均付款金额")
cohort_amount.insert(0, "首月人均付费", cohort_amount.pop("同期群人数"))
cohort_amount.insert(0, "同期群人数", cohort_number.同期群人数)
cohort_amount.iloc[:, 1:] = cohort_amount.iloc[:, 1:].divide(cohort_amount.同期群人数, axis=0)
out2 = (cohort_amount.style.format("{:.2f}", subset=cohort_amount.columns[1:]).background_gradient("Reds", subset=cohort_amount.columns[1:], axis=None).bar(subset="同期群人数", color="green"))
out2

可以看到,12月份的同期群首月新用户人均消费为703.43元,然后逐月递减,到+4月后这些用户人均消费仅11.41元。而随着版本的迭代发展,新增用户的首月消费并没有较大提升,且接下来的消费趋势反而不如12月份。由此可见产品的发展受到了一定的瓶颈,需要思考增长营收的出路了。

一般来说, 通过同期群分析可以比较好指导我们后续更深入细致的数据分析,为产品优化提供参考。

从人均购买次数角度进行同期群分析

依然按照上面一样的套路:

cohort_count = order.pivot_table(index="首单月份", columns="标签",values="月付费次数", aggfunc="sum",fill_value=0).rename_axis(columns="人均购买次数")
cohort_count.insert(0, "首月人均频次", cohort_count.pop("同期群人数"))
cohort_count.insert(0, "同期群人数", cohort_number.同期群人数)
cohort_count.iloc[:, 1:] = cohort_count.iloc[:,1:].divide(cohort_count.同期群人数, axis=0)
out3 = (cohort_count.style.format("{:.2f}", subset=cohort_count.columns[1:]).background_gradient("Reds", subset=cohort_count.columns[1:], axis=None).bar(subset="同期群人数", color="green"))
out3

可以得到类似上述一致的结论。

每月总体付费情况

下面我们看看每个月的总体消费情况:

order.groupby("购买月份").agg(付费人数=("uid", "count"),人均付款金额=("月付费总额", "mean"),月付费总额=("月付费总额", "sum")
)

可以看到总体付费人数和付费金额都在逐月下降。

将结果导出网页或截图

对于Styler类型,我们可以调用render方法转化为网页源代码,通过以下方式即可将其导入到一个网页文件中:

with open("out.html", "w") as f:f.write(out1.render())f.write(out2.render())f.write(out3.render())

如果你的电脑安装了谷歌游览器,还可以安装dataframe_image,将这个表格导出为图片。

安装:pip install dataframe_image

import dataframe_image as dfidfi.export(obj=out1, filename='留存率.jpg')
dfi.export(obj=out2, filename='人均付款金额.jpg')
dfi.export(obj=out3, filename='人均购买次数.jpg')

dfi.export的参数:

  • obj : 被导出的Datafream对象

  • filename : 文件保存位置

  • fontsize : 字体大小

  • max_rows : 最大行数

  • max_cols : 最大列数

  • table_conversion : 使用谷歌游览器或原生’matplotlib’, 只要写非’chrome’的值就会使用原生’matplotlib’

  • chrome_path : 指定谷歌游览器位置

整体完整代码

import pandas as pd
import dataframe_image as dfidf = pd.read_csv('日志.csv', encoding="gb18030")
df['购买月份'] = pd.to_datetime(df.日期).dt.to_period("M")
order = df.groupby(["uid", "购买月份"], as_index=False).agg(月付费总额=("付费金额", "sum"),月付费次数=("uid", "count"),
)
order["首单月份"] = order.groupby("uid")['购买月份'].transform("min")
order["标签"] = (order.购买月份-order.首单月份).apply(lambda x: "同期群人数" if x.n == 0 else f"+{x.n}月")
cohort_number = order.pivot_table(index="首单月份", columns="标签",values="uid", aggfunc="count",fill_value=0).rename_axis(columns="留存率")
cohort_number.insert(0, "同期群人数", cohort_number.pop("同期群人数"))
cohort_number.iloc[:, 1:] = cohort_number.iloc[:,1:].divide(cohort_number.同期群人数, axis=0)
out1 = (cohort_number.style.format("{:.2%}", subset=cohort_number.columns[1:]).bar(subset="同期群人数", color="green").background_gradient("Reds", subset=cohort_number.columns[1:], high=1, axis=None))
cohort_amount = order.pivot_table(index="首单月份", columns="标签",values="月付费总额", aggfunc="sum",fill_value=0).rename_axis(columns="人均付款金额")
cohort_amount.insert(0, "首月人均付费", cohort_amount.pop("同期群人数"))
cohort_amount.insert(0, "同期群人数", cohort_number.同期群人数)
cohort_amount.iloc[:, 1:] = cohort_amount.iloc[:, 1:].divide(cohort_amount.同期群人数, axis=0)
out2 = (cohort_amount.style.format("{:.2f}", subset=cohort_amount.columns[1:]).background_gradient("Reds", subset=cohort_amount.columns[1:], axis=None).bar(subset="同期群人数", color="green"))
cohort_count = order.pivot_table(index="首单月份", columns="标签",values="月付费次数", aggfunc="sum",fill_value=0).rename_axis(columns="人均购买次数")
cohort_count.insert(0, "首月人均频次", cohort_count.pop("同期群人数"))
cohort_count.insert(0, "同期群人数", cohort_number.同期群人数)
cohort_count.iloc[:, 1:] = cohort_count.iloc[:,1:].divide(cohort_count.同期群人数, axis=0)
out3 = (cohort_count.style.format("{:.2f}", subset=cohort_count.columns[1:]).background_gradient("Reds", subset=cohort_count.columns[1:], axis=None).bar(subset="同期群人数", color="green"))
outs = [out1, out2, out3]
with open("out.html", "w") as f:for out in outs:f.write(out.render())display(out)dfi.export(obj=out1, filename='留存率.jpg')
dfi.export(obj=out2, filename='人均付款金额.jpg')
dfi.export(obj=out3, filename='人均购买次数.jpg')

使用Python进行同期群分析(Cohort Analysis)相关推荐

  1. [转] 同期群分析Cohort Analysis

    一个漂亮的平均数完全是用数据创造出来的虚幻景象,会给我们的决策造成误导,因此我们需要掌握一个行之有效的方法来剖析真实的用户行为和用户价值,这个方法就是同期群分析(Cohort Analysis).事实 ...

  2. pandas练习_同期群分析(Cohort Analysis)

    1. 同期群分析理论回顾 参考 https://www.jianshu.com/p/145a13355fa1 2. 构造练习数据(Excel) 我们设计一份数据, 2019年期间某店铺的成交订单明细, ...

  3. 『数据分析』使用python进行同期群分析

    目录: 同期群分析概念 数据读取 分析方向 数据预处理 同期群分析 从留存率角度进行同期群分析 从人均付款金额角度进行同期群分析 从人均购买次数角度进行同期群分析 每月总体付费情况 将结果导出网页或截 ...

  4. 数据分析方法 - 同期群分析

    记录通过网上各类文章学习关于同期群分析的笔记,如有侵权,请联系本人删除文章. 举例 该例出自知乎"同期群"分析的好处是什么? - 于晓松 例 1:一个 App,某一天有 100 位 ...

  5. 同期群分析(Cohort Analysis)

    什么是同期群? 将相同时间段内具有共同行为特征的用户划分为同一个群体,其被称为同期群."共同行为特征"是指在某个时间段内的行为相似.最常见的是按不同时间的新增用户来划分,然后分析留 ...

  6. Python 数据分析实战:经典的同期群分析

    作者 | 周志鹏 责编 | 郭   芮 本文首先对同期群分析的概念做了简短介绍,然后循着数据概览.数据清洗.思路剖析.单点实现以及最终实现的流程,力图做到每一步清晰明确和可复现.跟着实践一遍,无论是模 ...

  7. 零售行业交易数据分析(3)——群组/同期群分析(留存率分析)

    内容简介 本文介绍了群组分析(同期群分析)的方法以及Python实现过程,并继续对一家零售公司的交易数据进行用户留存分析和可视化. 本系列的文章: <零售行业交易数据分析(1)--客户终身价值( ...

  8. 同期群分析是什么?教你用 SQL 来搞定

    目录 一.同期群分析的定义 二.SQL 步骤 1. 查看数据 2. 根据 uid .年月聚合用户人数 3. 计算年月的差额(天数) 4. 计算年月的差额(月数) 5. 透视(根据 uid .首次付费年 ...

  9. Excel 利用同期群分析计算新用户留存率

    业务分析方法中常用的有同期群分析,本文使用Excel和MySQL,结合同期群计算新注册用户的留存率,并放在实际的应用场景中进行分析. 一.简单介绍同期群分析 1.同期群分析(cohort analys ...

最新文章

  1. LeetCode简单题之比较含退格的字符串
  2. MindSpore图像分类模型支持(Lite)
  3. 开源可视化日志分析软件-Gource
  4. 部署篇01:Linux 安装配置JDK
  5. 递归实现【指数型 / 组合型 / 排列型】枚举
  6. Hyper-V + CentOS7 网络设置(视频教程)
  7. oracle非常量不能用于privot_Oracle 行列转换函数pivot、unpivot的使用(二)
  8. kafka和mysql内存机制_一文五分钟让你彻底理解Kafka架构原理
  9. 跨站式SQL脚本注入的技巧介绍
  10. Oracle 命名服务和监听程序
  11. 深入解析J.U.C并发包(二)——AtomicInteger类
  12. 玩转华为ENSP模拟器系列 | 配置OSPF ABR路由聚合示例
  13. word中软回车和硬回车删除、替换
  14. 案例|双循环下的国货自信:波司登抵御寒冬的新战袍
  15. 简单 黑苹果dsdt教程_提取DSDT和SSDT教程
  16. FastDNS中修改IP地址
  17. CentOS7环境下 人大金仓kes86数据库安装过程
  18. 2023最新SSM计算机毕业设计选题大全(附源码+LW)之java校园竞赛管理系统设计与实现hyr9b
  19. (4)AES分组加密算法(原理详解)
  20. 前端之HTML基础扫盲

热门文章

  1. 谭浩强C++ 第十一章
  2. Java 性能优化实战工具实践:如何获取代码性能数据?
  3. syslog 向内存中缓存_内存问题排查手段及相关文件介绍
  4. Android , 打开系统播放器
  5. XBox One 升级后显示黑屏
  6. Android recyclerview上拉加载更多
  7. 手机号不用后,这操作必须要做,不然银行卡里的钱就别人花了
  8. AndroidStudio Jni开发-生成多个so库
  9. 3dmax:3dmax三维VR渲染设置之摄像机设置案例应用之自由摄影打造动画效果之图文教程
  10. windows的特殊对话框