模型训练

将之前处理好的数据拿来就进行模型训练,这里用的聚类算法为K-Means算法。K-Means算法主要就在于k=n_cluster参数的确定上面,到底是将k确定为几能进行更好的分类了。这里我采用了SSE手肘法来确定k值,SSE值代表了每一个数据点离聚类中心的距离的评分,即为误差平方。当k小于真实聚类数时,随着k增大数据之间的聚合度会增加,SSE下降幅度会很大,当k快达到真实聚类值时,SSE下降幅度会变平稳,就想一个手肘的形状,肘点即为最优k值,相关代码如下:

import pandas as pd
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
input_file = '../tmp/std2.xls'
data = pd.read_excel(input_file)
SSE = []
for k in range(1,9):estimator = KMeans(n_clusters=k)estimator.fit(data)SSE.append(estimator.inertia_)#样本到最近的聚类中心的距离平方之和
X = range(1,9)
plt.xlabel('k')
plt.ylabel('SSE')
plt.plot(X,SSE,'o-')
plt.show()

结果如下:

从图中可以看出k的取值应该在4,5之间,这只有通过验证来确定到底是4还是5了,这里就不做相关的验证了,取k=5进行下面的模型训练。
下面进行模型训练,相关代码如下:

import pandas as pd
from sklearn.cluster import KMeans
input_file = '../tmp/std2.xls'
output_file1 = '../tmp/center2.xls'
output_file2 = '../tmp/result2.xls'
#读数据
data = pd.read_excel(input_file)
#聚类类别数
k = 5
#训练模型
model = KMeans(n_clusters=k,n_jobs=4)
model.fit(data)
#聚类中心
kdata = pd.DataFrame(model.cluster_centers_,index=['客户群1','客户群2','客户群3','客户群4','客户群5'],columns=['L','R','F','M','C'])
#聚类类别
data['聚类类别'] = model.labels_
#导出
kdata.to_excel(output_file1)
data.to_excel(output_file2,index=None)

查看客户的聚类结果如下:

各个聚类中心已经出来了,聚类类别也出来了,下面就要进行客户价值分析。

客户价值分析

客户价值分析,只要是通过画雷达图来将每个客户群的特征清楚明了的显示出来。这里代码就不贴出来了,有兴趣的可以去之前给的github链接中的code/value_analysis.py中去查看。客户特征群分析图如下所示:

从客户群特征分析图中可以分析出:
第一类客户群体:在五个指标即入会时间、飞行次数、飞行时间间隔、总飞行里程以及平均折扣率上表现都一般,说明此类客户群体应为低价值客户,总数为24659人。
第二类客户群体: 飞行次数和总飞行里程都很高,而且平均折扣率也较高(一般对应舱位较高),则这类客户群体应为航空公司的高价值客户群体,是最应该保持的群体,即为重要保持客户,总数为5536人。
第三类客户群体:平均折扣率很高,但是其余几个指标都不是很高,这应该是属于乘坐高等舱的商务人士,是重要发展客户,总数为4184人。
第四类客户群体: 入会时间较长,说明其为老客户,但是平均折扣率不高,按理说应该比较高,并且飞行次数以及总飞行里程也不高,说明这可能是要流失的客户,需要挽留一下,即为一般挽留客户,人数为15740。
第五类客户群体:主要特点为飞行时间间隔很长,说明其很可能为"季节性客户",一年中可能有一段时间需要乘坐飞机进行旅行等等,属于一般发展客户,总数为12125人。
从下图可以看出:

这个分析结果还是比较合理的,价值不大的第一类、第四类和第五类群体所占比例比较多,价值比较大的第二类和第三类群体所占比例比较少。

最终结果

最后将分析结果写入表格中,详情请见final_result.xls中,代码在final_result.py中。
结果如下:

本次一个数据挖掘的小项目到此就结束了,到这学到了很多知识,希望在之后的数据挖掘项目中能够学到更多知识。

航空公司客户价值分析(下)相关推荐

  1. python客户价值分析_Python数据分析与应用航空公司客户价值分析.ppt

    Python数据分析与应用航空公司客户价值分析.ppt 大数据,成就未来 * 大数据挖掘专家 * 大数据挖掘专家 大数据,成就未来 航空公司客户价值分析 * 目录 分析航空公司现状 1. 行业内竞争 ...

  2. 航空公司客户价值分析(附完整代码)

    一.什么是客户价值分析:   客户价值分析是以客户为中心,从客户需求出发,搞清楚客户需要什么,他们有怎样的一个特征,需要什么样的产品,然后设计相应的产品,通过对客户分群从而满足客户的需求.进行客户价值 ...

  3. python航空公司客户价值分析

    1.航空公司部分数据特征说明及LRFMC模型介绍及K-Means聚类算法介绍 2.开始数据分析 - 数据探索 Part Ⅰ:数据预处理 数据清洗 数据集成 数据归约 数据变换 Part Ⅱ:建模分析和 ...

  4. Python数据挖掘-RFM模型K-means聚类分析-航空公司客户价值分析

    使用教材:<Python数据分析与挖掘实战> 模型:RFM模型 算法:K-means聚类:其他方法还用到了层次聚类 数据:需要数据的可以评论里call. 内容: (1)案例: 航空公司客户 ...

  5. 数据分析与挖掘实战-航空公司客户价值分析

    航空公司客户价值分析 项目背景 信息时代的到来注定营销焦点从产品中心转到了用户中心,客户关系管理成为企业的核心问题. 客户关系管理的关键问题则是客户分类,通过分类区分客户价值的有无和高低,针对不同类别 ...

  6. python客户价值分析_航空公司客户价值分析实例

    第8章 航空公司客户价值分析 传统的识别客户价值应用最广泛的模型主要通过3个指标(最近消费时间间隔(Recency).消费频率(Frequency)和消费金额(Monetary))来进行客户细分,识别 ...

  7. Python数据挖掘:利用聚类算法进行航空公司客户价值分析

    无小意丶 个人博客地址:无小意 知乎主页:无小意丶 公众号: 数据路(shuju_lu) 刚刚开始写博客,希望能保持关注,会继续努力. 以数据相关为主,互联网为辅进行文章发布. 本文是<Pyth ...

  8. 数据分析实战:航空公司客户价值分析

    一.背景目标 通过对航空公司客户数据分析,对客户进行分类: 比较不同客户的客户价值,并制定不同的服务和营销策略 二.数据探索分析 2.1 数据概况 数据时间范围: 2012年4月1日至2014年3月3 ...

  9. 毕业设计之 ---基于大数据分析的航空公司客户价值分析

    文章目录 0 前言 1 数据分析背景 2 分析策略 2.1 航空公司客户价值分析的LRFMC模型 2.2 数据 2.3 分析模型 3 开始分析 3.1 数据预处理 3.1.1 数据预览 3.1.2 数 ...

  10. 【毕业设计】大数据分析的航空公司客户价值分析 - python

    文章目录 0 前言 1 数据分析背景 2 分析策略 2.1 航空公司客户价值分析的LRFMC模型 2.2 数据 2.3 分析模型 3 开始分析 3.1 数据预处理 3.1.1 数据预览 3.1.2 数 ...

最新文章

  1. 3D Point Cloud Library install
  2. java之Thread.sleep(long)与object.wait()/object.wait(long)的区别及相关概念梳理(good)
  3. 11、计算机图形学——几何(贝塞尔曲线与曲面)
  4. C#ListBox对Item进行重绘,包括颜色
  5. Extjs4 MVC 添加view层
  6. PAT甲题题解-1011. World Cup Betting (20)-误导人的水题。。。
  7. java 排队实现_实验排队功能实现(JAVA)
  8. python 比较序列是否包含同样元素_Python学习之常见序列比较
  9. php在哪改缩略图的大小,修改缩略图大小的方法
  10. 新电脑磁盘可存储信息数百年
  11. 数据库系统概论第五版(笔记+习题答案)(全)
  12. int too large to convert to float
  13. Adobe Photoshop CS5 12.0 Extend 绿色免安装版
  14. 2017存钱计划(python实现)
  15. RuoYi-Vue——关于登录后不同角色跳不同页面
  16. Android来电,显示悬浮窗
  17. vue项目整合UEditor看这一篇就够了
  18. 框架设计原则(梁飞)
  19. 存储器与CPU连接译码驱动方式
  20. linux系统怎么安装爱奇艺_pps网络电视linux版下载|

热门文章

  1. SVN如何批量忽略文件和文件夹
  2. 产品经理通用标准工作流程
  3. 接口测试工具--Postman安装
  4. SSD目标检测算法——通俗易懂解析
  5. win10怎样更改系统字体_掌阅F1系统设置及字体更改、水墨屏阅读软件、打卡必备软件...
  6. python和R的区别
  7. E+H流量计5P3B15-BBDBAAAFADEA1S1AA1+AK
  8. cad安装日志文件发生错误_cad安装出现错误 - 卡饭网
  9. dubbo接口调试工具
  10. R语言数据分析案例合集