业务实战记录(2):流失率统计逻辑误区
一、前言
最近几天在了解公司的一个业务,在看前同事做的一个面板的时候,看到一组数据,有点纳闷(根据相关逻辑替换数据后的结果如下)。总流失率竟然比添加流失率还高!虽然只高了一点点,但是看着还是很奇怪,难道不是同一条路径下的?
总流失率 | 分配流失率 | 添加流失率 |
---|---|---|
7.50% | 0.20% | 7.31% |
相关统计数据如下:
获客人数 | 分配人数 | 添加人数 |
---|---|---|
1000 | 998 | 925 |
二、探索数据“奥秘”
补充一个业务逻辑:新客进来之后会有一个分配企业号和添加企业号的过程,对应的会有分配的人数和添加人数,现在就是统计一下各个环节的流失率。
流程:获客->分配->添加
首先看一下统计逻辑是否有问题:
指标 | 算法 |
---|---|
总流失率 | 1-(添加人数/获客人数) |
分配流失率 | 1-(分配人数/获客人数) |
添加流失率 | 1-(添加人数/分配人数) |
分配占比 | 分配人数/获客人数 |
注:分配流失率和分配占比相加为1。
从统计的算法上看,将正常的数据相除,然后用1减去正常的数据,那就是流失部分,似乎没问题!
那为什么会少了呢?添加流失率还要乘以一个分配占比,这层漏斗也不是百分百,乘积肯定要比添加流失率小,但实际得到的总流失率却“逆势上涨”了。
接下来我把1
合并到分数中去,再观察,发现漏洞显现出来了:
指标 | 算法 |
---|---|
总流失率 | (获客人数-添加人数)/获客人数 |
分配流失率 | (获客人数-分配人数)/获客人数 |
添加流失率 | (分配人数-添加人数)/分配人数 |
分配占比 | 分配人数/获客人数 |
不知道你发现了没,如果没有我换个方式展示再看看:
先来算下通过拆分逻辑统计的总流失率:
再看看原来统计的总流失率:
分子在计算的过程中已经变了,原本是获客人数-添加人数
得到的未添加人数,到后来变成了分配人数-添加人数
,所以得出来的结果,就是总的流失率比局部的还要大。
怎么避免这样的问题发生呢?多算一步即可,把未添加人数算出来,如下:
获客人数 | 分配人数 | 添加人数 | 未添加人数 |
---|---|---|---|
1000 | 998 | 925 | 75 |
之后直接采用未添加人数,避免出现以上逻辑漏洞。
指标 | 算法 |
---|---|
总流失率 | 未添加人数/获客人数 |
分配流失率 | 1-(分配人数/获客人数) |
添加流失率 | 未添加人数/分配人数 |
分配占比 | 分配人数/获客人数 |
最后得到的流失率应该如下图:
总流失率 | 分配流失率 | 添加流失率 |
---|---|---|
7.50% | 0.20% | 7.52% |
三、小结
从事数据工作这么久以来,接触过一些同事做好些需求都是在做逻辑正确的事,根据逻辑正确的逻辑取出相关数据,然后就直接丢给需求方,然后需求方一看数据,漏洞百出,返工!(当然,更多时候可能是“信以为真”,直接使用,因为需求方可能也对这个数据没有概念。后来换一个人取相同的数据,就会发现,对不上了……)
逻辑正确的事做起来是相当轻松的,但是生产中的数据可能会有各种各样意想不到的“惊喜”干扰着正确的逻辑,所以需要做适当的数据清洗。验证数据是一件比较耗时间的活,需要你基于数据的一些维度验证数据是否有问题,有时候还要对业务有较多的了解。不过,验证数据也不是很难做到,沟通需求的时候,一般会了解到需求方的目标等,取完数据后,可以把自己当做是需求方,我拿这个数据要看什么什么,反复多看几遍,很多不符合逻辑的bug基本都可以揪出来。
作为数据工作人员,我奉承数据准确是一个基本原则,虽然常有时候费尽千辛万苦才把数据取出来,但是如果最后没有对数据准确性做验证,导致数据不可靠,那也是白搭!
业务实战记录(2):流失率统计逻辑误区相关推荐
- 业务实战记录(1):帮业务人员做道Excel题
一.前言 今天来将一个比较有趣且轻松的(话)题. 是前几天遇到的一个需求,还是挺有意思的,所以记录一下. 不知道作为职场人,大家对Excel的掌握程度如何,觉得Excel这个工具的难度和应用程度如何? ...
- python sns绘制回归线_Python数分实战:员工流失情况预测
在很久之前,我有写一个Excel数据分析的实战项目,不晓得大家还记不记得,感兴趣的童鞋可以回看: A九姑娘:Excel数分实战:员工流失率分析zhuanlan.zhihu.com 本次的项目数据依旧 ...
- 业务逻辑全写在sql_TiDB 在转转的业务实战
作者介绍 陈维,转转优品技术部 RD. 世界级的开源分布式数据库 TiDB 自 2016 年 12 月正式发布第一个版本以来,业内诸多公司逐步引入使用,并取得广泛认可. 对于互联网公司,数据存储的重要 ...
- 《数据分析方法论和业务实战》读书笔记
<数据分析方法和业务实战>读书笔记 共9章:前两章入门,3-7章介绍基本方法,8章从项目实战介绍数据分析,9章答疑常见问题. 1 数据分析基础 数据分析的完整流程 数据->信息-〉了 ...
- 用户都跑了,你却还分不清流失用户和流失率
PMCAFF(www.pmcaff.com):互联网产品社区,是百度,腾讯,阿里等产品经理的学习交流平台.定期出品深度产品观察,互联产品研究首选. 外包大师(www.waibaodashi.com): ...
- pandas多场景业务实战-指标计算
指标计算 学习目标 掌握数据指标的概念 知道常见的业务指标含义 掌握常用数据指标计算方法 在之前的课程中,我们学习了Excel, Tableau, SQL, Python, 机器学习,它们都属于数 ...
- 实战 | 电信客户流失分析与预测
本文所有代码都通过运行! 将从以下方面进行分析:1.背景 2.提出问题 3.理解数据 4.数据清洗 5.可视化分析 6.用户流失预测 7.结论和建议 本项目带你根据以上过程详细分析电信客户数据! 01 ...
- SaaS企业如何降低客户流失率?
续费率是SaaS企业的生命线,如何把续费率/续约率持续提升是所有SaaS公司一同面临的挑战,随着疫情的到来,企业支出缩紧,裁员等现象对本就不理想的续费指标更是雪上加霜,以客户为中心几乎是所有人挂在嘴边 ...
- 设计模式之业务实战培训
设计模式之业务实战 本文章通过把日常常用的设计模式,就如何结合业务并在整个业务项目中落地,做了总结.有来源于真实的业务场景,有来源大厂案例,有来源于开源框架中的经典案例,只是为了做个笔记,不喜勿喷. ...
最新文章
- Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks(更快的RCNN:通过区域提议网络实现实时)
- 程序员过关斩将--论商品促销代码的优雅性
- linux脚本编写规则,shell脚本编写守则
- Linux中强大的输入输出重定向和管道
- html2canvas截图只截取当前可视区域的问题
- quick-cocos2d-x 游戏开发——StateMachine 状态机
- LLVM每日谈之二十一 一些关于编译器和LLVM/Clang的代码
- OFFICE与VISIO安装tips:版本不能并行、visio安装错误
- 四川大学计算机学院2020转专业,四川大学化学学院2020年本科生转专业工作实施方案...
- Flask debug模式算pin码
- 2017年10月19日 第十次总结
- 人间哪知星空遥:荣耀30系列的巡天计划
- html tr隐藏 边框存在,CSS 设置tr的边框
- go语言webSocket框架——gorilla
- 解决虚拟机打不开Ubuntu的问题:
- 【十八掌●内功篇】第六掌:YARN之YARN资源调度器
- 《惢客创业日记》2019.05.09(周四)给美女让座的大叔
- 注册表编辑器厘米爱你找不到mysql_我打开注册表编辑器后 找不到那几个文件 怎么办...
- oracle中文加密算法,Oracle 加密package解密(unwrap)
- linux内核源码制作rpm包,cmatrix源码包制作rpm包
热门文章
- 波表序列合成器:KORG Wavestate Native Mac
- 本系统采用jsp和mysql_课内资源 - 基于Jsp和MySql的汽车租赁系统
- 新版标准日本语高级_第21课
- matlab给定输入信号,MATLAB信号频谱分析
- 计算机主板电感有正负极么,贴片电感有正负极之分吗_贴片电感怎样测量 - 全文...
- Zend Studio 8 快捷键大集合 很有用哦
- CRM软件哪个好?国内外6大顶级CRM软件盘点
- uniapp无法唤起相机的避坑之旅(安卓10以上,以及鸿蒙手机)
- Autodesk CAD2007的下载资源
- linux 带ifdef运行程序_Linux内核分析——可执行程序的装载