本篇文章带大家学习一个数据分析实战的案例,详细解读TGI指数,并用Python代码实现基础的TGI偏好分析。

经常有一些专业的数据分析报告,会提到TGI指数,例如“基于某某TGI指数,我们发现某类用户更偏好XX”。对于不熟悉TGI定义的同学,看到类似的话一定是云山雾罩。这次,我们就来聊一聊什么是TGI指数以及怎么样结合案例数据实现简单的TGI偏好分析。

内事不决网上搜,对于TGI指数,百科是这样解释的——TGI指数,全称Target Group Index,可以反映目标群体在特定研究范围内强势或者弱势。

很好,这个解释官方中透漏着专业,专业中弥漫着晦涩,晦涩的让人似懂非懂。粗暴翻译下来,TGI指数是反应偏好的一种指标。这样还是不够清楚,我们结合公式理解一下。

TGI指数计算公式 = 目标群体中具有某一特征的群体所占比例 / 总体中具有相同特征的群体所占比例  * 标准数100

是不是更晕了?晕就对了!不晕我们还聊啥呢?

01  指标拆解

TGI计算公式中,有三个关键点需要进一步拆解:某一特征,总体,目标群体。

随便举个栗子,假设我们要研究A公司脱发TGI指数:

  • 某一特征,就是我们想要分析的某种行为或者状态,这里是脱发(或者说受脱发困扰)

  • 总体,是我们研究的所有对象,即A公司所有人

  • 目标群体,是总体中我们感兴趣的一个分组,假设我们关注的分组是数据部,那目标群体就是数据部

于是乎,公式中分子“目标群体中具有某一特征的群体所占比例”可以理解为“数据部脱发人数占数据部的比例”,假设数据部有15个人,有9个人受脱发困扰,那数据部脱发人数占比就是9/15,等于60%。

而分母“总体中具有相同特征的群体所占比例”,等同于“全公司受脱发困扰人数占公司总人数的比例”,假设公司一共500人,有120人受脱发困扰,那这个比例是24%。

所以,数据部脱发TGI指数,可以用60% / 24% * 100 = 250,其他部门脱发TGI指数计算逻辑是一样的,用本部门脱发人数占比 / 公司脱发人数占比 * 100即可。

TGI指数大于100,代表着某类用户更具有相应的倾向或者偏好,数值越大则倾向和偏好越强;小于100,则说明该类用户相关倾向较弱(和平均相比);而等于100则表示在平均水平。

刚才的例子中,我们瞎掰的数据部脱发TGI指数是250,远远高于100,看来搞数据的脱发风险极高,数据才是真正的发际线推手。

下面,我们通过一个案例来巩固概念理解,顺便和潘大师(Pandas)过过招。

02  TGI实例分析

项目背景

BOSS抛来一份订单明细,“小Z啊,我们最近要推出一款客单比较高的产品,打算在一些城市先试销,你看看这个数据,哪些城市的人有高客单偏好,帮我筛选5个吧”。

小Z赶紧打开表格,看看数据到底长什么样子:

订单数据包括品牌名、买家姓名、付款时间、订单状态和地域等字段,一共28832条数据,没有空值。

粗略看了几眼源数据,小Z赶紧明确数据需求:“领导,那客单比较高的定义是什么?”

“就我们产品线和历史数据来看,单次购买大于50元就算高客单的客户了”。

确认了高客单之后,我们的目标非常明确:按照高客单偏好给城市做个排序。这里的偏好,可以用TGI指数来衡量,我们再次复习下TGI三个核心点:

  • 特征,高客单,即客户单次购买超过50元

  • 目标群体,就是各个城市,这里我们可以分别计算出所有城市客户的高客单偏好

  • 至于总体,就非常直白了,计算所涉及到的所有客户即为总体

解题的关键在于,计算出不同城市,高客单人数及所占的比例。

单个用户打标

第一步,我们先判断每个用户是否属于高客单的人群,所以先按用户昵称进行分组,看每位用户的平均支付金额。这里用平均,是因为有的客户多次购买,而每次下单金额也不一样,故平均之。

接着,定义一个判断函数,如果单个用户平均支付金额大于50,就打上“高客单”的类别,否则为低客单,再用apply函数调用:

到这里基于高低客单的用户初步打标已经完成。

匹配城市

单个用户的金额和客单标签已经搞定,下一步就是补充每个用户的地域字段,一句pd.merge函数就能搞定。由于源数据是未去重的,我们得先按昵称去重,不然匹配的结果会有许多重复的数据:

高客单TGI指数计算

要计算每个城市高客单TGI指数,需要得到每个城市高客单、低客单的人数分别是多少。如果用EXCEL的数据透视表处理起来就很简单,直接把省份和城市拖拽到行的位置,客单类别拖到列的位置,值随便选一个字段,只要是统计就好。

不要慌,这一套操作,Python实现起来也灰常容易,pivot_table透视表函数一行就搞定:

这样得到的结果包含了层次化索引,受篇幅限制就不展开讲,我们只要知道要索引得到“高客单”列,需要先索引“买家昵称”,再索引“高客单”:

这样,拿到了每个省市的高客单人数,然后再拿到低客单的人数,进行横向合并:

我们再看看每个城市总人数以及高客单人数占比,来完成“目标群体中具有某一特征的群体所占比例”这个分子的计算:

有些非常小众的城市,高客单或者低客单人数等于1甚至没有,而这些值尤其是空值会影响结果的计算,我们要提前检核数据:

果然,高客单和低客单都有空值(可以理解为0),从而导致总人数也存在空值,而TGI指数对于空值来说意义不大,所以我们剔除掉存在空值的行:

接着统计总人数中,高客单人群的比例,来对标公式中的分母“总体中具有相同特征的群体所占比例”:

最后一步,就是TGI指数的计算,顺便排个序:

出了结果,小Z兴致勃勃的打算第一时间报告老板,说时迟那时快,在按下回车之前又扫了一眼数据,发现了一个严重的问题:高客单TGI指数排名靠前的城市,总客户数几乎不超过10人,这样的高客单人口占比,完全没有说服力。

TGI指数能够显示偏好的强弱,但很容易让人忽略具体的样本量大小,这个是需要格外注意的。

怎么办呢?为了加强数据整体的信度,小Z决定先对总人数进行筛选,用总人数的平均值作为阈值,只保留总人数大于平均值的城市:

处理之后,小Z觉得这份数据合理多了。

“报告老板,基于各城市高客单TGI指数,我发现福州、珠海、北京、厦门和佛山,是高客单偏好排名前5的城市!咱们要试销的高客单新产品,仅从客单角度,可以优先考虑他们!”

注:完整案例数据和代码,后台回复“TGI指数”即可获取。

-END-

以清净心看世界;

用欢喜心过生活。

超哥的杂货铺,你值得拥有~

长按二维码关注我们

推荐阅读:

1.手把手带你开启机器学习之路——房价预测(一)

2.手把手带你开启机器学习之路——房价预测(二)

3.手把手带你开启机器学习之路——分类问题总览

4.在一个机器学习项目中,你需要做哪些工作?

5.简单几步,教你使用scikit-learn做分类和回归预测

6.RFM模型是什么,我用python带你实战!

7.一场pandas与SQL的巅峰大战

数据分析必知必会 | TGI指数分析实战相关推荐

  1. 5. TGI指数分析实战

    引言 经常有一些专业的数据分析报告,会提到TGI指数,例如"基于某某TGI指数,我们发现某类用户更偏好XX".对于不熟悉TGI定义的同学,看到类似的话一定是云山雾罩.这次,我们就来 ...

  2. Python数据分析必知必会——TGI指数

    点击阅读原文,查看精彩日程! 作者 | 吹牛Z 来源 | 数据不吹牛(ID: shujubuchuiniu) 这是Python数据分析实战的第一个案例,详细解读TGI指数,并用Python代码实现基础 ...

  3. python数据分析怎么样_Python数据分析必知必会:TGI指数

    这是Python数据分析实战的第一个案例,详细解读TGI指数,并用Python代码实现基础的TGI偏好分析. 经常有一些专业的数据分析报告,会提到TGI指数,例如"基于某某TGI指数,我们发 ...

  4. tableau必知必会之如何在同一视图中进行相同分析维度图表的切换

    实际业务场景中,你可能会遇到类似的分析需求:多组织架构.多业务线的数据分析,希望能在同一个视图中,通过切换图表,可以快速查看不同层级数据的分析结果. 例如下图,我们将企业总部设置为"板块&q ...

  5. gns3中两个路由器分别连接主机然后分析ip数据转发报文arp协议_关于TCP/IP,必知必会的十个问题!...

    本文整理了一些TCP/IP协议簇中需要必知必会的十大问题,既是面试高频问题,又是程序员必备基础素养. TCP/IP十个问题 TCP/IP十个问题 一.TCP/IP模型 TCP/IP协议模型(Trans ...

  6. 风控成长之路---必知必会工具与业务

    关注 "番茄风控大数据",获取更多数据分析与风控大数据的实用干货. 偶然翻开多年前的笔记,当时踏入数据行业就是从人生的第一条select的代码开始.还好多年前做的笔记,网络云盘还为 ...

  7. SQL必知必会-笔记(完善版):第1课

    文章目录 SQL必知必会 一.了解数据库 1.1 数据库基础 1.1.1 数据库 (补充)数据库管理系统: 注意1: 1.1.2 表 1.1.3 列和数据类型 1.1.4 行row 1.1.5 主键 ...

  8. c2064 项不会计算为接受0个参数的函数_【JS必知必会】高阶函数详解与实战

    本文涵盖 前言 高级函数概念 函数作为参数的高阶函数 map filter reduce sort详解与实战 函数作为返回值的高阶函数 isType函数与add求和函数 如何自己创建高阶函数 前言 一 ...

  9. mysql必知必会_《MySQL必知必会》学习小结

    关于SQL,之前通过sqlzoo的题目,完成了入门,也仅仅是入门而已. 最近都在忙着投简历和找新的数据分析项目做(为了练python和面试的时候有的聊),所以SQL放了一段时间没练.目前的工作用不到, ...

最新文章

  1. 行人检测与重识别!华中科技大、微软深入挖掘,新方法实现新SOTA
  2. Python 内置函数sorted()在高级用法
  3. jQuery操作Class
  4. 科大星云诗社动态20210316
  5. python vector_50行Python代码实现经典游戏,不仅是划水神器,更是学习利器!
  6. 深交所向华谊兄弟发问询函:是否存在对本期业绩“大洗澡”
  7. linux nvme 驱动 版本,Linux 上的 NVMe
  8. 嵌入式Linux驱动学习之路(二)u-boot体验
  9. 基于JAVA SSM框架的酒店客房管理系统设计
  10. java利用梦网云通讯发送短信
  11. Diamond软件的使用(6)--Lattice原语基本概念
  12. 高频交揭密美五大高交商访谈录
  13. 一名程序员的内心独白:我很忙,但我的代码还是很糟糕
  14. JavaSE2(Java基础)
  15. openlayers+vue 仿百度罗盘功能(指北针)
  16. 光电二极管的采样电路
  17. 应用密码学密码学_密码学的类型
  18. 知识图谱在深度学习目标检测中的应用
  19. PHP代码审计神器——RIPS个人汉化版(2017年老文)
  20. 读书笔记:《德鲁克管理思想精要》- 2

热门文章

  1. 百度AI(一) | 人脸对比
  2. Vue3+ElementPlus 根据路由 自动创建二级菜单
  3. 身份证真实性校验js、mini ui身份证长度正则验证
  4. Python爬虫练习记录-爬取教务系统成绩
  5. goproxy编译、安装与配置
  6. linux centos7 yum 安装bt工具 deluge
  7. 【LLM】金融大模型场景和大模型Lora微调实战
  8. flume中hdfs sinks参数配置详解
  9. 基于51单片机的倒车雷达设计
  10. python程序 led灯闪烁_树莓派python编程 做一个LED呼吸灯