原文链接:http://tecdat.cn/?p=967

原文出处:拓端数据部落公众号


对于某企业新用户,会利用大数据来分析该用户的信息来确定是否为付费用户,弄清楚用户属性,从而针对性的进行营销,提高运营人员的办事效率。

对于付费用户预测,主要是思考收入由哪些因素推动,再对每个因素做预测,最后得出付费预测。这其实不是一个财务问题,是一个业务问题。

流失预测。这方面会偏向于大额付费用户,提取额特征向量运用到应用场景的用户流失和预测里面去。

方法

回归是一种极易理解的模型,就相当于y=f(x),表明自变量x与因变量y的关系。最常见问题有如医生治病时的望、闻、问、切,之后判定病人是否生病或生了什么病,其中的望闻问切就是获取自变量x,即特征数据,判断是否生病就相当于获取因变量y,即预测分类。

问题描述

我们尝试并预测用户是否可以根据数据中可用的人口信息变量使用逻辑回归预测月度付费是否超过 50K。

在这个过程中,我们将:

1.导入数据2.检查类别偏差3.创建训练和测试样本4.建立logit模型并预测测试数据5.模型诊断

检查类偏差

理想情况下,Y变量中事件和非事件的比例大致相同。所以,我们首先检查因变量ABOVE 50K中的类的比例。

0 1
24720 7841

显然,不同付费人群比例 有偏差 。所以我们必须以大致相等的比例对观测值进行抽样,以获得更好的模型。

构建Logit模型和预测

确定模型的最优预测概率截止值默认的截止预测概率分数为0.5或训练数据中1和0的比值。但有时,调整概率截止值可以提高开发和验证样本的准确性。InformationValue :: optimalCutoff功能提供了找到最佳截止值,减少错误分类错误。

optCutOff <-optimalCutoff(testData$ABOVE50K, predicted)[1] => 0.71

模型诊断

错误分类错误

错误分类错误是预测与实际的不匹配百分比 。错误分类错误越低,模型越好。

misClassError(testData$ABOVE50K, predicted, threshold = optCutOff)[1] 0.0892

ROC曲线

ROC曲线指受试者工作特征曲线 / 接收器操作特性曲线(receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。在ROC曲线上,最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。

上述型号的ROC曲线面积为89%,相当不错。

一致性

简单来说,在1-0 的所有组合中,一致性是预测对的百分比 ,一致性越高,模型的质量越好。

$Concordance [1] 0.8915107 $Discordance [1] 0.1084893 $Tied [1] -2.775558e-17 $Pairs [1] 45252896

上述型号的89.2%的一致性确实是一个很好的模型。

混淆矩阵

在人工智能中,混淆矩阵(confusion matrix)是可视化工具,特别用于监督学习,在无监督学习一般叫做匹配矩阵。其每一列代表预测值,每一行代表的是实际的类别。这个名字来源于它可以非常容易的表明多个类别是否有混淆(也就是一个class被预测成另一个class)。

confusionMatrix(testData$ABOVE50K, predicted, threshold = optCutOff)0 1 0 18849 1543 1 383 810

结论

这里仅仅介绍了模型的建立和评估。通过模型的结论,我们可以得到一些已经为公众所接受和熟知的现象是:付费和受教育程度、智力、年龄以及性别等相关。 基于此用户规模预测模型,结合用户的人口信息,即可粗略预估产品在一般情况下的收入情况, 从而判断就得到了付费用户预测模型,如果把收入分类转换成流失用户和有效用户,就得到了流失用户预测模型。

拓端tecdat|R语言逻辑回归预测分析付费用户相关推荐

  1. R语言逻辑回归预测分析付费用户

    原文链接:http://tecdat.cn/?p=967 对于某企业新用户,会利用大数据来分析该用户的信息来确定是否为付费用户,弄清楚用户属性,从而针对性的进行营销,提高运营人员的办事效率(点击文末& ...

  2. 拓端tecdat|R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险

    最近我们被客户要求撰写关于冠心病风险的研究报告,包括一些图形和统计输出. 相关视频:R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险 逻辑回归Logistic模型原理和R语言分类预测冠 ...

  3. 拓端tecdat|R语言向量误差修正模型 (VECMs)分析长期利率和通胀率影响关系

    最近我们被客户要求撰写关于向量误差修正模型的研究报告,包括一些图形和统计输出. 向量自回归模型估计的先决条件之一是被分析的时间序列是平稳的.但是,经济理论认为,经济变量之间在水平上存在着均衡关系,可以 ...

  4. 拓端tecdat|R语言线性回归和时间序列分析北京房价影响因素可视化案例

    最近我们被客户要求撰写关于北京房价影响因素的研究报告,包括一些图形和统计输出. 目的 房价有关的数据可能反映了中国近年来的变化: 人们得到更多的资源(薪水),期望有更好的房子 人口众多 独生子女政策: ...

  5. 拓端tecdat|R语言用LOESS(局部加权回归)季节趋势分解(STL)进行时间序列异常检测

    最近我们被客户要求撰写关于LOESS(局部加权回归)的研究报告,包括一些图形和统计输出. 这篇文章描述了一种对涉及季节性和趋势成分的时间序列的中点进行建模的方法.我们将对一种叫做STL的算法进行研究, ...

  6. R语言逻辑回归、方差分析 、伪R平方分析

    目录 怎么做测试 假设条件 并非所有比例或计数都适用于逻辑回归分析 过度分散 伪R平方 测试p值 Logistic回归示例 模型拟合 系数和指数系数 方差分析 伪R平方 模型的整体p值 标准化残差图 ...

  7. R语言逻辑回归logistic regression对付费用户进行预测

    对于某企业新用户,会利用大数据来分析该用户的信息来确定是否为付费用户,弄清楚用户属性,从而针对性的进行营销,提高运营人员的办事效率. 最近我们被客户要求撰写关于付费预测的研究报告,包括一些图形和统计输 ...

  8. R语言逻辑回归Logistic回归分析预测股票涨跌

    最近我们被客户要求撰写关于逻辑回归的研究报告,包括一些图形和统计输出. 视频:R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险 逻辑回归Logistic模型原理和R语言分类预测冠心病风 ...

  9. R语言逻辑回归logistic regression对用户收入进行预测

    逻辑回归对用户收入进行预测 ​ 对于某企业新用户,会利用大数据来分析该用户的信息来确定是否为付费用户,弄清楚用户属性,从而针对性的进行营销,提高运营人员的办事效率. 对于付费用户预测,主要是思考收入由 ...

  10. 【视频】什么是Bootstrap自抽样及应用R语言线性回归预测置信区间实例|数据分享

    最近我们被客户要求撰写关于Bootstrap的研究报告,包括一些图形和统计输出. 自抽样统计是什么以及为什么使用它? 本文将自抽样方法与传统方法进行比较,并了解它为何有用.并在R语言软件中通过对汽车速 ...

最新文章

  1. opencv拟合高维曲线
  2. mysql commit 机制_1024MySQL事物提交机制
  3. 双程动态规划 nyoj61
  4. 台风怎么看内存颗粒_生态板、密度板、颗粒板各有好处,看你怎么用了!
  5. 【Android APT】编译时技术 ( 开发编译时注解 )
  6. SpringBoot - 优雅的实现【自定义参数校验】高级进阶
  7. tensorflow随笔-底层梯度
  8. UBoot讲解和实践-----------讲解(一)
  9. 泛型 typescript_如何把你的头围绕Typescript泛型
  10. mp3播放程序c语言,Go语言音乐播放器
  11. 【已解决】wordpress文章页面如何去掉特色图像
  12. html CheckBox
  13. 中控 人脸指纹 iface702 二次开发 (X86 X64 SDK,VB,C#Demo)
  14. centos安装git(centos安装vmware tools)
  15. java麻将软件_dnf徽章加什么
  16. 7-7 厘米换算英尺英寸 (10分)
  17. ctf php正则截断,记[BJDCTF2020]ZJCTF,不过如此 关于php的正则匹配问题
  18. 还不知道如何写文章上热榜吗?听1_bit大佬给你讲讲
  19. java web实现打印功能
  20. 十进制与二进制快速转换计算心得

热门文章

  1. Linux bash基本介绍
  2. [转]Git详解之三 Git分支
  3. excel转PDF时,画图不分页
  4. 海归博士程序员光鲜背后:下车间写代码,体验炼钢灼人的热度
  5. EthBox以太坊开发套件,一键安装部署以太坊开发环境
  6. c++中模板的实现(模板类和模板函数)
  7. 《Java技术》第四次作业
  8. web性能压力测试工具http_load/webbench/ad
  9. 树线段hdu 4508 美素数(线段树)
  10. 三次握手与accept()函数