机器学习 客户流失

介绍 (Introduction)

This article is part of a project for Udacity “Become a Data Scientist Nano Degree”. The Jupyter Notebook with the code for this project can be downloaded from GitHub.

本文是Udacity“成为数据科学家纳米学位”项目的一部分。 可以从GitHub下载带有该项目代码的Jupyter Notebook。

I will create a series of articles about this project going through CRISP-DM process. This part is covering the data and business understanding steps.

我将针对CRISP-DM流程创建有关该项目的一系列文章。 这一部分涵盖了数据和业务理解步骤。

业务理解 (Business Understanding)

Let’s imagine for a moment that we are freshly hired data scientists working for a startup called “Sparkify”, which offers music streaming service through their website and App.

让我们想象一下,我们刚招聘了一位数据科学家,为一家名为“ Sparkify”的创业公司工作,该公司通过其网站和App提供音乐流媒体服务。

Our first job is to prepare a presentation for the management meeting on business strategy. The meeting is going to be in several hours from now. We have about 10 minutes for our presentation there.

我们的第一项工作是为业务战略管理会议准备演示文稿。 会议将在几个小时后开始。 我们在那里大约有10分钟的演讲时间。

Clearly we want to impress our managers with our machine learning skills, but there is simply no time to clean all the data, not to mention run machine learning on the huge 12 GB log of the last two months of user activities.

显然,我们希望用我们的机器学习技能来打动我们的经理,但是根本没有时间清理所有数据,更不用说在最近两个月的用户活动中,在庞大的12 GB日志上运行机器学习。

We decide to take about 1% of users from the log and prepare some statistical analysis and visualisations to answer the questions we expect our managers to be most interested in, such as:

我们决定从日志中抽取大约1%的用户,并准备一些统计分析和可视化图表,以回答我们希望经理们最感兴趣的问题,例如:

  1. Usage patterns使用方式
  2. Business development业务发展
  3. Threats to the business对企业的威胁

1.使用方式 (1. Usage patterns)

As a streaming service of course we would like to know how many songs are played every day:

作为流媒体服务,我们当然想知道每天播放多少首歌曲:

We can see that there are only about half as much songs being played around weekends and unsurprisingly there is a large spike around Halloween. To get a better feeling of the usage frequency let’s look at the and average number of unique users per weekday:

我们可以看到,周末前后只播放大约一半的歌曲,毫不奇怪,万圣节前后会有很大的高峰。 为了更好地了解使用频率,让我们看一下每个工作日的唯一身份用户数和平均数量:

Another interesting question is the distribution of user activity throughout the day. Let’s have a look at the average number of songs played by the hour:

另一个有趣的问题是一天中用户活动的分布。 让我们看一下每小时播放的平均歌曲数:

And the user activity:

和用户活动:

使用情况摘要 (Summary usage statistics)

Let’s formulate the key insights from our analysis:

让我们从分析中得出关键见解:

  • We have seen that usage statistics follow a weekly pattern with less users using Sparkify on weekends.我们已经看到,使用情况统计信息遵循每周模式,周末使用Sparkify的用户减少了。
  • Unsurprisingly there is a spike in streams around Halloween.毫无疑问,万圣节前后的溪流激增。
  • Throughout the day the number of users remains almost constant with a slight increase between 1 and 7 p.m.整天的用户数量几乎保持不变,下午1点至晚上7点之间略有增加
  • The number of songs played per user throughout the day has a pattern where it follows daily activities: get up, way to work, start of work, lunch break etc.全天每位用户播放的歌曲数量遵循以下日常活动模式:起床,工作方式,工作开始,午餐休息时间等。

More important is to know what we can do with this insights:

更重要的是要知道我们可以用这些见解做什么:

  • We can optimise licence costs knowing how many songs will be played.我们可以知道要播放多少首歌曲,从而优化许可费用。
  • We can optimise the number of servers running throughout the day and week to save electricity and networking costs based on user activity.我们可以优化每天和每周运行的服务器数量,以根据用户活动节省电费和网络成本。
  • We can target our user communication to the time frames where they are most likely to use our service.我们可以将我们的用户交流定位到最有可能使用我们服务的时间范围。

2.业务发展 (2. Business development)

The main revenue source for Sparkify are periodical subscription fees from paying users. We would like to know how many users have actually used “paid” and how many used “free” options:

Sparkify的主要收入来源是来自付费用户的定期订阅费用。 我们想知道实际上有多少用户使用了“付费”选项,有多少用户使用了“免费”选项:

Another source of revenue is playing advertising clips for free users. How many clips are played every week?

另一个收入来源是为免费用户播放广告片段。 每周播放几段剪辑?

Let’s also see how many ads on average are displayed to each user:

我们还要查看平均向每个用户展示多少个广告:

摘要业务发展 (Summary business development)

Let’s formulate the key insights and takeaways for our business.

让我们为我们的业务制定关键的见解和要点。

Key insights

重要见解

  • The number of paying customers is increasing in the observation period.在观察期内,付费客户的数量正在增加。
  • The number of adverts decreases.广告数量减少。
  • The number of free customers is decreasing.免费客户的数量正在减少。

Takeaways for business

外卖业务

  • The number of paying customers is not changing much after the first week. Probably we need to motivate people to switch to paid account by limited time offer or free trial.第一周后,付费客户的数量变化不大。 可能我们需要激励人们通过限时优惠或免费试用来切换到付费帐户。
  • The number of free customers is decreasing at quite high rate. It seems that the free account is not very attractive. We have to look at the reasons more closely. Are the adverts to frequent? Do free users have limited access to the music titles?免费客户的数量正在以很高的速度减少。 看来免费帐户不是很吸引人。 我们必须更仔细地研究原因。 广告频繁吗? 免费用户对音乐标题的访问受限吗?
  • Although the number of adverts is falling the number of adverts per user is increasing. Perhaps we have taken the wrong road here given that free users are probably choosing to leave the service over upgrading their account?尽管广告数量在减少,但每位用户的广告数量却在增加。 鉴于免费用户可能选择离开服务而不是升级其帐户,也许我们走错了路?

3.对企业的威胁 (3. Threats to the business)

Finally let’s look at the account level upgrades, downgrades and cancellations:

最后,让我们看一下帐户级别的升级,降级和取消:

To have a more clear picture let’s see which account level do users who cancel their account have:

为了更清楚地了解情况,让我们看看取消帐户的用户具有哪个帐户级别:

摘要业务威胁 (Summary business threats)

Let’s formulate the key insights and takeaways for our business.

让我们为我们的业务制定关键的见解和要点。

Key insights

重要见解

  • The number of upgrades spiked in the first week of observation.在观察的第一周内,升级数量激增。
  • The number of upgrades is declining during the period of observation.在观察期间,升级次数正在减少。
  • The number of downgrades has a small spike in the week 41 and is almost steady with decline near the end.降级的数量在第41周有一个小峰值,并且几乎是稳定的,并且在接近尾声时有所下降。
  • The number of cancellations is almost steady with a small spike around week 42 and decline near the end.取消的数量几乎是稳定的,在第42周左右有一个小峰值,并在接近尾声时下降。
  • Paying users are cancelling their accounts more often then free users.付费用户比免费用户更频繁地取消帐户。

Takeaways for business

外卖业务

  • Whatever we have done in the week 40 we must keep doing that!不管我们在40周内做了什么,我们都必须继续这样做!
  • We need to understand why less and less customers choose to upgrade their accounts.我们需要了解为什么越来越少的客户选择升级他们的帐户。
  • Although the downgrade and cancellation rates are falling we need pay more attention to them.尽管降级和取消率正在下降,但我们需要更加注意它们。
  • The fact that paying users are choosing to cancel their account rather than to downgrade them is alarming. What have we done wrong to make them angry?付费用户选择取消其帐户而不是降级他们的事实令人震惊。 我们做错了什么使他们生气?

结论:我们可以确定流失的原因吗? (Conclusion: can we identify reasons for churn?)

The presentation went well. Most of the people in the room were not of technical background. They were impressed by comprehensive visualisations and clearly formulated statements about the current situation.

演讲进行得很顺利。 房间里的大多数人都不是技术背景。 全面的可视化效果和清晰表达的有关当前状况的陈述给他们留下了深刻的印象。

The consequence is that the management is now worried about churn. They ask us to find the reasons why the customers, especially paying ones are cancelling their accounts.

结果是管理层现在担心流失。 他们要求我们找出客户(尤其是付费客户)取消帐户的原因。

We will have to run machine learning on our data and it will take some days to find the right techniques on the small subset of data and then maybe some weeks to run the algorithms on the full dataset.

我们将不得不对数据进行机器学习,这将需要几天的时间才能在较小的数据子集上找到正确的技术,然后可能需要数周的时间才能在完整的数据集上运行算法。

Using our intuition we can try to find a quick fix, which may help our company on a short notice. Let’s look at the statistics of rolling adverts:

利用我们的直觉,我们可以尝试找到快速解决方案,这可能会在短时间内为我们的公司提供帮助。 让我们看一下滚动广告的统计信息:

It turns out paying customers still may see or hear an advert. Can it be the reason why they choose to quit? Perhaps our web developers should look into that issue.

事实证明,付费客户仍然可以看到或听到广告。 这可能是他们选择退出的原因吗? 也许我们的Web开发人员应该调查该问题。

In my next article I will focus on machine learning techniques and how can they be applied to predict churn based on usage statistics.

在我的下一篇文章中,我将重点介绍机器学习技术以及如何将其应用于基于使用情况统计信息的客户流失率。

翻译自: https://medium.com/@viovioviovioviovio/predict-churn-with-machine-learning-ea00b8a42011

机器学习 客户流失


http://www.taodudu.cc/news/show-995367.html

相关文章:

  • 预测股票价格 模型_建立有马模型来预测股票价格
  • 柠檬工会_工会经营者
  • 大数据ab 测试_在真实数据上进行AB测试应用程序
  • 如何更好的掌握一个知识点_如何成为一个更好的讲故事的人3个关键点
  • 什么事数据科学_如果您想进入数据科学,则必须知道的7件事
  • 季节性时间序列数据分析_如何指导时间序列数据的探索性数据分析
  • 美团骑手检测出虚假定位_在虚假信息活动中检测协调
  • 回归分析假设_回归分析假设的最简单指南
  • 为什么随机性是信息
  • 大数据相关从业_如何在组织中以数据从业者的身份闪耀
  • 汉诺塔递归算法进阶_进阶python 1递归
  • 普里姆从不同顶点出发_来自三个不同聚类分析的三个不同教训数据科学的顶点...
  • 荷兰牛栏 荷兰售价_荷兰的公路货运是如何发展的
  • 如何成为数据科学家_成为数据科学家需要了解什么
  • 个人项目api接口_5个免费有趣的API,可用于学习个人项目等
  • 如何评价强gis与弱gis_什么是gis的简化解释
  • 自我接纳_接纳预测因子
  • python中knn_如何在python中从头开始构建knn
  • tb计算机存储单位_如何节省数TB的云存储
  • 数据可视化机器学习工具在线_为什么您不能跳过学习数据可视化
  • python中nlp的库_用于nlp的python中的网站数据清理
  • 怎么看另一个电脑端口是否通_谁一个人睡觉另一个看看夫妻的睡眠习惯
  • tableau 自定义省份_在Tableau中使用自定义图像映射
  • 熊猫烧香分析报告_熊猫分析进行最佳探索性数据分析
  • 白裤子变粉裤子怎么办_使用裤子构建构建数据科学的monorepo
  • 青年报告_了解青年的情绪
  • map(平均平均精度_客户的平均平均精度
  • 鲜活数据数据可视化指南_数据可视化实用指南
  • 图像特征 可视化_使用卫星图像可视化建筑区域
  • 海量数据寻找最频繁的数据_在数据中寻找什么

机器学习 客户流失_通过机器学习预测流失相关推荐

  1. 27个机器学习图表翻译_使用机器学习的信息图表信息组织

    27个机器学习图表翻译 Infographics are crucial for presenting information in a more digestible fashion to the ...

  2. 机器学习诗词创作_通过机器学习创作音乐

    机器学习诗词创作 In Sweden, there's something called the Allemansrätten, which literally translates to " ...

  3. 机器学习 线性回归算法_探索机器学习算法简单线性回归

    机器学习 线性回归算法 As we dive into the world of Machine Learning and Data Science, one of the easiest and f ...

  4. 不使用机器学习的机器视觉_使用机器学习为卡通着色

    不使用机器学习的机器视觉 监督式机器学习的一个大问题是需要大量的标记数据. 这是一个大问题,尤其是如果您没有标记的数据,即使在充满大数据的世界中,我们大多数人也没有. 尽管少数公司可以访问大量特定种类 ...

  5. 机器学习模型 非线性模型_调试机器学习模型的终极指南

    机器学习模型 非线性模型 You've divided your data into a training, development and test set, with the correct pe ...

  6. 机器学习什么显卡_为什么机器学习模型在生产中会退化?

    编辑:zero 关注 搜罗最好玩的计算机视觉论文和应用,AI算法与图像处理 微信公众号,获得第一手计算机视觉相关信息 本文转载自:公众号:AI公园 如果文章对你有所帮助欢迎点赞支持一波,更多内容可关注 ...

  7. 《成为一名机器学习工程师》_成为机器学习的拉斐尔·纳达尔

    <成为一名机器学习工程师> by Sudharsan Asaithambi 通过Sudharsan Asaithambi 成为机器学习的拉斐尔·纳达尔 (Become the Rafael ...

  8. 机器学习识别颜色_使用机器学习为颜色命名

    机器学习识别颜色 在最近去密歇根州的旅行中,我的朋友蒂姆·索萨 ( Tim Sosa)提到了他读过的一篇博客文章 ,作者詹妮尔·沙恩(Janelle Shane)描述了她如何建立一个神经网络,该网络从 ...

  9. 机器学习算法优缺点_用于机器学习的优化算法的优缺点

    机器学习算法优缺点 A deep-dive into Gradient Descent and other optimization algorithms 深入研究梯度下降和其他优化算法 Optimi ...

最新文章

  1. python整数类型-Python整数类型及其运算
  2. C++使用链表实现queue之一(附完整源码)
  3. 绘图和可视化---matplotlib包的学习
  4. 成功数据恢复一例LINUX EXT3 下误删除ORACLE数据库
  5. C# 中 NPOI 库读写 Excel 文件的方法【摘】
  6. CVPR2017精彩论文解读:用于生物医学图像分析的精细调节卷积神经网络
  7. 宋宝华Linux培训笔记-Linux多进程
  8. 伺服速度控制模式接线图_伺服驱动器控制模式的接线及其注意事项
  9. 新手CrossApp 之CAProgress小结
  10. PS 2020版本放大工具无法鼠标左右拖动精细放大的解决方案
  11. html计时加速,HTML-加速、再加速
  12. Windows 系统优化 - 查看并清理临时文件,释放磁盘空间,提高系统运行效率
  13. 【coq】函数语言设计 练习题inductionlists 总结
  14. 数据库版本管理:flyway
  15. 华为 Eth-Trunk链路聚合
  16. 替代A4988的微型打印机驱动TMI8421国产电机驱动芯片
  17. 实战:618/双11大促备战全流程点点滴滴
  18. Importerror: libgl.so.1: cannot open shared object file: no such file or directory
  19. 【解决方案】智慧水利:EasyNVR+EasyNVS视频监控解决方案
  20. 小学第三册上计算机wps教案,《初始WPS》教学设计——溧阳市横涧小学  夏春芳...

热门文章

  1. 将信号量代码生成静态库以及动态库
  2. 剑指Offer09. 用两个栈实现队列
  3. c++类对象的创建方式
  4. 1078 字符串压缩与解压 (20 分)
  5. select函数(一)
  6. 【微信小程序】java最简单观察者模式
  7. 我凭什么拿到了阿里、腾讯、今日头条3家大厂offer?通用流行框架大全
  8. django开发商城(提供初始数据,商城首页及购物车)
  9. 三十四 Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy信号详解
  10. 《程序员修炼之道》笔记(八)