文章目录

  • 1 问题定义
  • 2 关联方法
    • 2.1 决策树来找分裂点
    • 2.2 有/无 监督分箱(等比/等宽-卡方/决策树)
    • 2.3 离散回归模型(比较好的一种)
    • 2.4 shap值

1 问题定义

一类问题:
影响整体用户活跃度,的因素中有单次打开时长这一指标,
如何找到打开多久是比较好的阈值?

这个可以看成是一个有监督的寻找合理分裂点的过程,这里就抛砖引玉几种可能性

  • 决策树来找分裂点
  • 有监督分箱(卡方/决策树)
  • 离散回归模型(比较好的一种)
  • shap值

另一类问题(下篇给出最近的想法):
张三是一个连锁店的老板,他想知道每个门店店员做的好/坏,
光看销售额是最简单粗暴,比较有利的能不能看到店员的画像,
比如服务态度、工龄、所在区域等;
另外有没有一种可能,工龄从青年 -> 中年,销售额可以量化提升多少?
最终可以给每个门店设置KPI。


2 关联方法

2.1 决策树来找分裂点

盗图来看一下:非常fancy的可视化决策树dtree_viz
这个是比较传统的决策树分裂的图,可以从其中看到重要特征的分裂点:

当然还有可视化效果更好的就是:

依照上面的寻找分裂点,那就是petal length这个指标,[1.75,4.85,4.95]是分割点;
当然这个分割点的由来是由GINI最小的作为分割点,而且有可能一个单一指标,可以细分很碎,取到什么层级是比较好的?
可以要从指标的覆盖度等角度来衡量取到什么粒度了。

2.2 有/无 监督分箱(等比/等宽-卡方/决策树)

参考:评分卡应用 - 利用Toad进行有监督分箱(卡方分箱/决策树分箱)

影响整体用户活跃度,的因素中有单次打开时长这一指标,
如何找到打开多久是比较好的阈值?

无监督分箱那就非常简单了,等比/等宽进行处理 单次打开时长 后,在每个分区计算用户活跃度的差异,来找到比较比较好的分裂点。

这里还有有监督的方式,也是一种比较科学的,用户活跃度(是否活跃1/0) ~ 单词打开时长,根据IV来寻找分割点,这里分割的几个准则:每箱样本量、固定箱数等来判定。

比如此时,依图可以这么划分:
单次打开时长,[0,5.5],占所有样本的35%,在这里面都是label = 2的样本;
单次打开时长[7.1,+ ),占所有样本的8%,这里面 y label的平均值为1.64

这里最佳的分裂点其实是可以“自我调节”出来的

2.3 离散回归模型(比较好的一种)

重复事件(表现形态:活跃、留存、复购)建模的案例学习笔记
来到文章的【1.3.2 PWP-GT 重复事件建模在看点业务中的实际应用】,可以看到:

这里YY一下,比如打开时长a,均等切分为,[a0,a1,…,a6],可能实际含义是[0h,1h,…,5h],然后对活跃度=Y做回归,
这里的回归系数的显著性,就是指标合理的表现,
来YY解读一下这个图,[a0,a1],[a1,a2]是不显著的,其他都是显著的;代表,打开时长在2h以上的是明显的,这是一个非常重要的阈值。
而且,还可以量化出来说,如果打开时长在[a4,a5]([4h,5h])那么活跃度会比[a0,a1]高出40%

如果要在显著的时间里面再画一个阈值,可以观察系数的增长幅度,比如:

那a4,4H就是一个非常好的新阈值点;
所以离散回归是非常好的可以找到阈值、量化指标水平的方式。

2.4 shap值

重复事件(表现形态:活跃、留存、复购)建模的案例学习笔记在【2.2 指标阈值确定下腾讯看点与快手的差别】小节,有提到shap值的方式
用特征密度散点图:beeswarm:


假设LSTAT这个指标,越大(红)可能导致SHAP约低,则选择蓝/红渐变那个阶段,作为阈值;

那么YY成这次的命题,RM是打开时长,整体Y是活跃度;

这里代表,打开时长越长(越红),对活跃度越有利(SHAP值为正);
分割点应该就是shap值=0时,打开时长的值,比如是3H,这里可以看到:

  • 3H以上的用户比较少
  • 3H以下的用户,比较多

数据科学之 如何找到指标的最 佳分裂点的几个想法相关推荐

  1. 【译Py】数据科学面试终极指南(二)

    欢迎来我的简书:呆鸟的译Py胡言 聘用数据科学家的行业   各行业对数据科学的要求不一样.每个行业都有专业知识,数据类型也因此不同,比如学校与银行关注的指标就不一样.   假如求职者恰巧对要面试的行业 ...

  2. gp数据库月份第一天_社会数据科学的第一天

    gp数据库月份第一天 Starting the first day of a graduate programme is different in the time of a pandemic. 在大 ...

  3. 【数据科学】数据科学家犯下的13个常见错误以及如何避免这些错误

    介绍 所以你已经决定数据科学是适合你的领域.越来越多的企业正在变得数据化,世界变得越来越紧密,看起来每个企业都需要数据科学实践.因此,对数据科学家的需求是巨大的.更好的是,每个人都承认行业人才短缺. ...

  4. 学习Python:做数据科学还是网站开发?

    本文的英文原文地址是:Python for Data Science vs Python for Web Development 译者:EarlGrey@codingpy 译者一开始在Python日报 ...

  5. 独家 | 6大角度击破数据科学面试套路!助你找到理想工作

    作者:Andrei Lyskov 翻译:李洁 校对:丁楠雅 本文约5000字,建议阅读10+分钟. 本文拆解数据科学工作的一般面试考察方式,为你分析面试工作时的准备及技巧. 简介 2012年,< ...

  6. 【阿里妈妈数据科学系列】第五篇:实验指标设定方法与指标体系构建

    ▐ 前言 在[阿里妈妈数据科学系列]前四期内容中,我们介绍了 AB TEST 的基础知识与框架及每个部分的方法论与技术,本期我们主要介绍实验指标设定方法与指标体系构建. 指标体系构建在 AB Test ...

  7. 资深数据科学家教你如何在求职过程中找到心仪工作

    目前进入七月份,算是又一年秋招的开始,实习的中期阶段.很有必要给大家分享一下这篇来自数据科学家Kelly Peng的求职心路历程,她应聘于她所喜爱的Airbnb公司的数据科学岗位,即使你想应聘的不是数 ...

  8. 一份完整的数据科学竞赛指南!

    ‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍"听过很多道理,却依然过不好一生:看过很多分享,却依然做不好比赛." 如今,数据科学竞赛(大数据竞赛,机器学习竞赛,人工智能算法竞赛)已经成为各大知 ...

  9. 你知道什么是数据科学?如何把数据变成产品么?

    本文转自:O'Reilly(www.oreilly.com.cn):作者:麦克.罗克德斯(Mike Loukides): 未来属于那些知道如何把数据变成产品的企业和个人. --麦克.罗克德斯(Mike ...

最新文章

  1. python3.6安装pyqt5-Python3.6安装PyQt5的方法
  2. 第一章:1.1.3 典型信号
  3. nginx如何处理php请求,Nginx是如何处理HTTP请求的
  4. php将文件夹打包zip文件,php将文件夹打包成zip文件
  5. 四元数c语言,C + OpenGL四元数
  6. C++学习之路 | PTA乙级—— 1084 外观数列 (20 分)(精简)
  7. abs.s19文件_ABS 1.2:后台命令和导入文件的功能
  8. mysql批量存图片_教你如何在MySQL数据库中直接储存图片(3)
  9. 第三季-第13课-无名管道通讯编程
  10. linux下的二进制文件查看器
  11. Kafka2.6版本权限认证
  12. 怎么调大计算机浏览器内字体,浏览器字体大小怎么设置,教你浏览器字体大小怎么设置-win7旗舰版...
  13. 固定摄像头检测行人投射到gps坐标
  14. java表白 520
  15. AARRR模型 | 用户留存套路与习惯养成
  16. 瓜子二手车 翻页 csv
  17. 路由流量管理(TM)初步认识(二次更新)
  18. 卡尔曼滤波算法-Kalman Filter Algorithm
  19. 试用了下ITIL开源管理工具iTop,感觉很爽,准备尽快部署并首先实现公司CMDB治理
  20. vue当中的条件渲染和列表渲染

热门文章

  1. 手机恢复出厂设置难防泄密:微信聊天记录可恢复
  2. 推荐一款MD5解密在线网站
  3. 深入理解JAVA中的跨包继承
  4. 申请Teambition国际版并部署列表目录程序教程
  5. [网鼎杯 2020 青龙组]虚幻2 详解 (python脚本)
  6. ios html转换成网页,ios App加载本地HTML网页,点击网页链接跳转到app页面的方法
  7. Eclipse使用Log4j2的详细教程
  8. 日语中特殊汉字「髙」写入文件后乱码
  9. python search返回值_python正则表达式--match search方法
  10. Java输出4位数整数,输出这个数的千位,百位,十位,个位