目录

  • 1.流失概率预测需求
  • 2.特征工程—— 选择特征
  • 3.特征工程—— 特征数据源
  • 4.算法选择
    • 4.1逻辑回归分类算法
      • 4.1.1步骤
        • 4.1.2 向量规范化
        • 4.1.3 按照步骤写demo
    • 4.2朴素贝叶斯算法
      • 4.2.1特征值离散化
      • 4.2.2模型训练
      • 4.2.3 demo

1.流失概率预测需求

根据用户的活跃度以及消费情况,判断用户的流失意向。可以对有流失意向的用户及时召回。

其中表包括:模型预测时间,用户id,模型预测得分,模型预测流失等级,模型插入时间。
不能够仅仅通过普通的运算就得出来流失率。而要通过历史既定事实的经验(满足某些特征的人群中,哪些流失了,哪些没流失来得出才更靠谱)。

2.特征工程—— 选择特征

特征选择的原则应该跟用户流失有关系:
活跃属性:登录次数,访问时长,访问深度;
消费属性:消费金额,订单均价,最大单笔消费金额,最小单笔消费金额,退货次数与占比,拒绝收货次数占比等,最后一次登录距今天数,最后一次购买距今天数。
事件属性:好评数。差评数,分享数。

3.特征工程—— 特征数据源

从公司大量的流失与未流失用户中各挑取一万人
将这两万人组成先验样本集。
在数仓中进行抽取。

4.算法选择

4.1逻辑回归分类算法

朴素贝叶斯天生就具备概率的意义;线性回归算法具备概率的隐含含义

4.1.1步骤

加载样本数据;
将样本数据向量化;
构建逻辑回归算法工具;
用算法对样本数据训练模型;
用模型来对未知数据做预测。

4.1.2 向量规范化

对于数据特征的值域差别太大的问题,值域范围大的,对最终结果的影响会明显超出值域范围小的特征,带来预测准确度的降低,相当于把值域特征给忽略掉了。所以需要对值域特征进行规范化处理。可以参考 sparkmllib的规范化工具api。

4.1.3 按照步骤写demo

4.2朴素贝叶斯算法

用户是否流失是一个典型的概率分析问题

4.2.1特征值离散化

连续数字的区间化处理,减少值的种类数
由于本案例里面的各个特征,都是一些连续的“数字”,无法在概率计算上体现同类别的共同特征,所以此案例中的特征向量化,需要做数据离散化处理。
将特征值区间化

4.2.2模型训练

加载样本特征数据;
数仓的用户活跃度统计报表;
数仓的用户消费订单画像统计报表;
数仓的用户商品画像统计报表;
事实标签。

将特征数据向量化

特征向量的处理:统一特征值的排序,对需要进行区间化的做区间化。
sparkmllib提供了四种向量规范化的工具

4.2.3 demo

对调用完训练模型的数据整理为标签模型
gid 模块名 标签名 标签值 权重值

用户画像——用户流失率的计算相关推荐

  1. 008产品设计的思考(创造思维+用户体验+用户画像+用户群体)

    文章目录 一.产品优化创造思维如何培养 1.1 产品优化创造思维培养 二.用户体验设计原则 2.1 可见原则 2.2 场景贴切原则 2.3 可控原则 2.4 一致性原则 2.5 防错.防呆原则 2.6 ...

  2. 企业级用户画像:用户购物性别模型-USG和决策树算法

    絮叨两句: 博主是一名数据分析实习生,利用博客记录自己所学的知识,也希望能帮助到正在学习的同学们 人的一生中会遇到各种各样的困难和折磨,逃避是解决不了问题的,唯有以乐观的精神去迎接生活的挑战 少年易老 ...

  3. 企业级用户画像: 用户活跃度模型-RFE

    絮叨两句: 博主是一名数据分析实习生,利用博客记录自己所学的知识,也希望能帮助到正在学习的同学们 人的一生中会遇到各种各样的困难和折磨,逃避是解决不了问题的,唯有以乐观的精神去迎接生活的挑战 少年易老 ...

  4. 用户画像 用户画像表

    日萌社 人工智能AI:Keras PyTorch MXNet TensorFlow PaddlePaddle 深度学习实战(不定时更新) 用户画像  总文章 ================ 用户画像 ...

  5. MySQL中用户订单复购率的计算

    1.项目需求(计算复购率) 订单表中有用户ID.订单金额.每笔订单的下单时间等信息,需要统计每个月在接下来几个月用户复购情况 // 创建数据表 create table orders( order_i ...

  6. 用户画像--用户标签

    1.长期.短期 2.静态标签.动态标签 3.第一方标签.第三方标签

  7. 大数据系列 -- 用户流失率计算

    有同学问:用户流失该怎么分析?用户流失率的数据可以算,可算出来以后呢?只看数据似乎完全看不出什么流失原因,只知道用户已经 X个月没有来了,也不知道看到这个能干啥.今天系统解答一下. 用户流失分析常见错 ...

  8. 网站运营活跃用户、流失用户、流失率、新用户流失率定义以及诠释

           核心提示:本文简单介绍了活跃用户数.流失用户数.流失率.新用户流失率这几个概念.当然,比较大型的网站还会有许多细分数据:普通用户.活跃用户.优质用户.普通用户流失率.活跃用户流失率.优质 ...

  9. 看完后,别再说自己不懂用户画像了

    用户画像是一个挺新颖的词,最初它是大数据行业言必及之的时髦概念.现在我们运营谈及用户画像,它也是和精准营销.精细化运营直接钩挂的.这篇文章主要讲产品和运营角度的用户画像. 希望看完后,解决你一切关于用 ...

最新文章

  1. Oracle 数据泵(IMPDP/EXPDP)导入导出总结
  2. 【机器学习】一般线性回归
  3. 将Maven创建的web Servlet2.3工程改为Servlet3.0
  4. 写给新入职的毕业生们(二)
  5. Repeater控件如何让变量自增 asp.net
  6. flex知識:container of spark
  7. matlab定义变量var,设置变量数据类型 - MATLAB setvartype - MathWorks 中国
  8. Flexsim——初学AGV必看的知识点(如何实现AGV与控制点连接)
  9. 华为防火墙IPSEC简单搭建
  10. swift 打开第三方应用_Swift常用第三方
  11. Unity3D 中LookAt()方法
  12. 无线充电宝效果怎么样,无线充电实用性大吗
  13. 姓名学中萍字无根 怎么解释_无根Buildah的工作原理:在非特权环境中构建容器
  14. 软件测试基础知识 - 说一说黑盒与白盒的测试方法
  15. uva-10115 - Automatic Editing
  16. 基于数字温度传感器的数字温度计 华氏度和摄氏度
  17. 传奇网关-微信绑定和充值
  18. python外星人入侵添加音效_python外星人入侵游戏打包
  19. pyqt5可以写手机apk吗_不需要写代码,直接在unity实现手机可以跑的毛发效果
  20. 二手房屋信息发布交易小程序开发制作功能

热门文章

  1. 抖音上android studio,快手、抖音、微视类短视频SDK接入教程,7步就能搞定
  2. iphone android换机助手下载,腾讯换机助手手机最新版 目前最好用的安卓/苹果一键换机工具...
  3. 在线制作思维导图网站哪个最好
  4. Java 面试问题汇总
  5. android 打卡 虚拟定位 sqlite
  6. 「人造太阳」背后,能源为什么值得关注?| 极客视野
  7. JAVA学习第十四课(接口:implements及其基本应用)
  8. 重装系统把所有盘格式化教程
  9. 程序员被裁员该怎么办
  10. 盖国强:Oracle12c新特性设计与开发实现