数据科学之 如何找到指标的最 佳分裂点的几个想法
文章目录
- 1 问题定义
- 2 关联方法
- 2.1 决策树来找分裂点
- 2.2 有/无 监督分箱(等比/等宽-卡方/决策树)
- 2.3 离散回归模型(比较好的一种)
- 2.4 shap值
1 问题定义
一类问题:
影响整体用户活跃度,的因素中有单次打开时长这一指标,
如何找到打开多久是比较好的阈值?
这个可以看成是一个有监督的寻找合理分裂点的过程,这里就抛砖引玉几种可能性
- 决策树来找分裂点
- 有监督分箱(卡方/决策树)
- 离散回归模型(比较好的一种)
- shap值
另一类问题(下篇给出最近的想法):
张三是一个连锁店的老板,他想知道每个门店店员做的好/坏,
光看销售额是最简单粗暴,比较有利的能不能看到店员的画像,
比如服务态度、工龄、所在区域等;
另外有没有一种可能,工龄从青年 -> 中年,销售额可以量化提升多少?
最终可以给每个门店设置KPI。
2 关联方法
2.1 决策树来找分裂点
盗图来看一下:非常fancy的可视化决策树dtree_viz
这个是比较传统的决策树分裂的图,可以从其中看到重要特征的分裂点:
当然还有可视化效果更好的就是:
依照上面的寻找分裂点,那就是petal length这个指标,[1.75,4.85,4.95]
是分割点;
当然这个分割点的由来是由GINI最小的作为分割点,而且有可能一个单一指标,可以细分很碎,取到什么层级是比较好的?
可以要从指标的覆盖度等角度来衡量取到什么粒度了。
2.2 有/无 监督分箱(等比/等宽-卡方/决策树)
参考:评分卡应用 - 利用Toad进行有监督分箱(卡方分箱/决策树分箱)
影响整体用户活跃度,的因素中有单次打开时长这一指标,
如何找到打开多久是比较好的阈值?
无监督分箱那就非常简单了,等比/等宽进行处理 单次打开时长 后,在每个分区计算用户活跃度的差异,来找到比较比较好的分裂点。
这里还有有监督的方式,也是一种比较科学的,用户活跃度(是否活跃1/0) ~ 单词打开时长,根据IV来寻找分割点,这里分割的几个准则:每箱样本量、固定箱数等来判定。
比如此时,依图可以这么划分:
单次打开时长,[0,5.5],占所有样本的35%,在这里面都是label = 2的样本;
单次打开时长[7.1,+ ),占所有样本的8%,这里面 y label的平均值为1.64
这里最佳的分裂点其实是可以“自我调节”出来的
2.3 离散回归模型(比较好的一种)
重复事件(表现形态:活跃、留存、复购)建模的案例学习笔记
来到文章的【1.3.2 PWP-GT 重复事件建模在看点业务中的实际应用】,可以看到:
这里YY一下,比如打开时长a,均等切分为,[a0,a1,…,a6],可能实际含义是[0h,1h,…,5h],然后对活跃度=Y做回归,
这里的回归系数的显著性,就是指标合理的表现,
来YY解读一下这个图,[a0,a1],[a1,a2]是不显著的,其他都是显著的;代表,打开时长在2h以上的是明显的,这是一个非常重要的阈值。
而且,还可以量化出来说,如果打开时长在[a4,a5]([4h,5h])那么活跃度会比[a0,a1]高出40%
如果要在显著的时间里面再画一个阈值,可以观察系数的增长幅度,比如:
那a4,4H就是一个非常好的新阈值点;
所以离散回归是非常好的可以找到阈值、量化指标水平的方式。
2.4 shap值
重复事件(表现形态:活跃、留存、复购)建模的案例学习笔记在【2.2 指标阈值确定下腾讯看点与快手的差别】小节,有提到shap值的方式
用特征密度散点图:beeswarm:
假设LSTAT这个指标,越大(红)可能导致SHAP约低,则选择蓝/红渐变那个阶段,作为阈值;
那么YY成这次的命题,RM是打开时长,整体Y是活跃度;
这里代表,打开时长越长(越红),对活跃度越有利(SHAP值为正);
分割点应该就是shap值=0时,打开时长的值,比如是3H,这里可以看到:
- 3H以上的用户比较少
- 3H以下的用户,比较多
数据科学之 如何找到指标的最 佳分裂点的几个想法相关推荐
- 【译Py】数据科学面试终极指南(二)
欢迎来我的简书:呆鸟的译Py胡言 聘用数据科学家的行业 各行业对数据科学的要求不一样.每个行业都有专业知识,数据类型也因此不同,比如学校与银行关注的指标就不一样. 假如求职者恰巧对要面试的行业 ...
- gp数据库月份第一天_社会数据科学的第一天
gp数据库月份第一天 Starting the first day of a graduate programme is different in the time of a pandemic. 在大 ...
- 【数据科学】数据科学家犯下的13个常见错误以及如何避免这些错误
介绍 所以你已经决定数据科学是适合你的领域.越来越多的企业正在变得数据化,世界变得越来越紧密,看起来每个企业都需要数据科学实践.因此,对数据科学家的需求是巨大的.更好的是,每个人都承认行业人才短缺. ...
- 学习Python:做数据科学还是网站开发?
本文的英文原文地址是:Python for Data Science vs Python for Web Development 译者:EarlGrey@codingpy 译者一开始在Python日报 ...
- 独家 | 6大角度击破数据科学面试套路!助你找到理想工作
作者:Andrei Lyskov 翻译:李洁 校对:丁楠雅 本文约5000字,建议阅读10+分钟. 本文拆解数据科学工作的一般面试考察方式,为你分析面试工作时的准备及技巧. 简介 2012年,< ...
- 【阿里妈妈数据科学系列】第五篇:实验指标设定方法与指标体系构建
▐ 前言 在[阿里妈妈数据科学系列]前四期内容中,我们介绍了 AB TEST 的基础知识与框架及每个部分的方法论与技术,本期我们主要介绍实验指标设定方法与指标体系构建. 指标体系构建在 AB Test ...
- 资深数据科学家教你如何在求职过程中找到心仪工作
目前进入七月份,算是又一年秋招的开始,实习的中期阶段.很有必要给大家分享一下这篇来自数据科学家Kelly Peng的求职心路历程,她应聘于她所喜爱的Airbnb公司的数据科学岗位,即使你想应聘的不是数 ...
- 一份完整的数据科学竞赛指南!
"听过很多道理,却依然过不好一生:看过很多分享,却依然做不好比赛." 如今,数据科学竞赛(大数据竞赛,机器学习竞赛,人工智能算法竞赛)已经成为各大知 ...
- 你知道什么是数据科学?如何把数据变成产品么?
本文转自:O'Reilly(www.oreilly.com.cn):作者:麦克.罗克德斯(Mike Loukides): 未来属于那些知道如何把数据变成产品的企业和个人. --麦克.罗克德斯(Mike ...
最新文章
- python3.6安装pyqt5-Python3.6安装PyQt5的方法
- 第一章:1.1.3 典型信号
- nginx如何处理php请求,Nginx是如何处理HTTP请求的
- php将文件夹打包zip文件,php将文件夹打包成zip文件
- 四元数c语言,C + OpenGL四元数
- C++学习之路 | PTA乙级—— 1084 外观数列 (20 分)(精简)
- abs.s19文件_ABS 1.2:后台命令和导入文件的功能
- mysql批量存图片_教你如何在MySQL数据库中直接储存图片(3)
- 第三季-第13课-无名管道通讯编程
- linux下的二进制文件查看器
- Kafka2.6版本权限认证
- 怎么调大计算机浏览器内字体,浏览器字体大小怎么设置,教你浏览器字体大小怎么设置-win7旗舰版...
- 固定摄像头检测行人投射到gps坐标
- java表白 520
- AARRR模型 | 用户留存套路与习惯养成
- 瓜子二手车 翻页 csv
- 路由流量管理(TM)初步认识(二次更新)
- 卡尔曼滤波算法-Kalman Filter Algorithm
- 试用了下ITIL开源管理工具iTop,感觉很爽,准备尽快部署并首先实现公司CMDB治理
- vue当中的条件渲染和列表渲染
热门文章
- 手机恢复出厂设置难防泄密:微信聊天记录可恢复
- 推荐一款MD5解密在线网站
- 深入理解JAVA中的跨包继承
- 申请Teambition国际版并部署列表目录程序教程
- [网鼎杯 2020 青龙组]虚幻2 详解 (python脚本)
- ios html转换成网页,ios App加载本地HTML网页,点击网页链接跳转到app页面的方法
- Eclipse使用Log4j2的详细教程
- 日语中特殊汉字「髙」写入文件后乱码
- python search返回值_python正则表达式--match search方法
- Java输出4位数整数,输出这个数的千位,百位,十位,个位