一、实现目标

(1)借助航空公司客户数据,对客户进行分类

(2)对不同的客户进行特征分析,比较不同类客户的客户价值

(3)对不同价值的客户类别提供个性化服务,指定相应的营销策略

二、分析方法与过程

航空客运信息挖掘主要步骤:
(1)从航空公司的数据源进行选择性的抽取与新增数据抽取分别形成历史数据和增量数据

(2)对步骤(1)中形成的两个数据集进行数据探索和预处理,包括数据缺失值与异常值的探索分析,数据的属性规约、清洗和变换

(3)利用步骤(2)中形成的已完成数据预处理的建模数据,基于客户价值LRFMC模型进行客户分群,对各个客户进行特征分析,识别出有价值的客户

(4)针对模型结果得到不同价值的客户,采用不同的营销手段,提供定制化的服务

数据抽取
数据探索分析:对数据进行缺失值分析与异常值分析,分析出数据的规律以及异常值,通过对数据观察发现原始数据中存在票价为空值,票价最小值为0,折扣率最小值为0,总飞行公里数大于0的记录,查找每列属性观察值中空值个数、最大值、最小值:

# -*- coding:utf-8 -*-
#对数据进行基本的探索,返回缺失值个数,最大值,最小值
import pandas as pd#数据文件路径初始化
datafile = 'air_data.csv'  #第一行为标签属性
#定义数据探索结果文件名
resultfile = 'data_explore.xls'#使用pandas模块内置函数对文件内容惊醒读取
data = pd.read_csv(datafile,encoding = 'utf-8')  #设置文件读取编码格式#获取数据的相应属性内容
explore = data.describe(percentiles=[], include='all').T  #对探索结果矩阵进行转置
print('T-explore:',explore)#计算数据结果中的空值个数,describe()函数只返回有值数据个数
explore['null'] = len(data) - explore['count']#提取数据探索结果中的null、min、max三列,并且对数据表表头进行重命名
explore = explore[['null','max','min']]
print('explore:',explore)
print('explore.columns:',explore.columns)explore.columns = [u'空值数',u'最大值',u'最小值']
print('u-explore:',explore)#将数据探索的最后结果写入文件中
explore.to_excel(resultfile)
print('文件写入完成!')

数据预处理
采用数据清洗、属性规约、数据变换的预处理方法

使用Pandas对满足清洗条件的数据进行丢弃,处理方法:满足清洗条件的一行数据全部丢弃:

# -*- coding:utf-8 -*-
#清洗丢弃掉不符合规则的数据
import pandas as pddatafile = 'air_data.csv'
cleanfile = 'data_clean.csv'#读取文件内容,并设置读取的编码格式
data = pd.read_csv(datafile,encoding = 'utf-8')#提取票价为非空值
# print('data["SUM_YR_1"].notnull:',data['SUM_YR_1'].notnull())
data = data[data['SUM_YR_1'].notnull()*data['SUM_YR_2'].notnull()]
# print("[data['SUM_YR_1'].notnull()*data['SUM_YR_2'].notnull()]:",data)#票价不为0,或者平均折扣率与总公里数同时为0的记录
index1 = data['SUM_YR_1'] != 0
index2 = data['SUM_YR_2'] != 0
index3 = (data['SEG_KM_SUM'] == 0) & (data['avg_discount'] == 0)#将数据整合至data变量中
data = data[index1|index2|index3]data.to_csv(cleanfile)
print('文件写入完毕!')

数据变换
将数据转换成适当的格式,以适应挖掘任务以及算法的需要

# -*- coding:utf-8 -*-
#标准化标准差
import pandas as pddatafile = 'zscoredata.xls'
stdfile = 'data_std.xls'#读取数据,并设置将数据转化为utf-8格式
data = pd.read_excel(datafile,coding = 'utf-8')
#根据标准化公式对数据进行标准化
data = (data - data.mean(axis=0))/(data.std(axis=0))
#对表的表头进行重命名
data.columns = ['Z'+i for i in data.columns]
#将标准化结果写入文件
data.to_excel(stdfile)
print('文件写入完毕!')

模型构建
客户价值分析模型构建主要由两个部分构成,第一部分根据航空公司客户5个指标的数据,对客户进行聚类分群。第二部分结合业务对每个客户群进行特征分析,分析其客户价值,并对每个客户群进行排名。

(1)客户聚类
采用K-Means聚类算法对客户数据进行客户分群,聚成5类

# -*- coding:utf-8 -*-
#导入相关包
import pandas as pd
from sklearn.cluster import KMeans#初始化数据文件路径
datafile = 'data_std.xls'
#读出数据
data = pd.read_excel(datafile,coding = 'utf-8')
#设置类别个数5
k = 5#创建聚类模型对象
model = KMeans(n_clusters=5)
model.fit(data)  #寻来你模型#输出模型的聚类中心,查看各样本的类别
print('model.cluster_centers_:',model.cluster_centers_)
print('model.labels_:',model.labels_)

工程文件内容:

数据挖掘实例(航空公司客户价值分析)相关推荐

  1. 数据挖掘之航空公司客户价值分析——K-Means

    本文主要包括以下几部分: 1:对航空公司的数据分析去掉无关特征,去掉有误的数据(例如:一年票价为0,第二年票价也是0) 2:根据LCRFM模型选取有关特征,对特征数据进行标准化 3:使用k-means ...

  2. Python数据挖掘:利用聚类算法进行航空公司客户价值分析

    无小意丶 个人博客地址:无小意 知乎主页:无小意丶 公众号: 数据路(shuju_lu) 刚刚开始写博客,希望能保持关注,会继续努力. 以数据相关为主,互联网为辅进行文章发布. 本文是<Pyth ...

  3. python客户价值分析_航空公司客户价值分析实例

    第8章 航空公司客户价值分析 传统的识别客户价值应用最广泛的模型主要通过3个指标(最近消费时间间隔(Recency).消费频率(Frequency)和消费金额(Monetary))来进行客户细分,识别 ...

  4. Python数据挖掘-RFM模型K-means聚类分析-航空公司客户价值分析

    使用教材:<Python数据分析与挖掘实战> 模型:RFM模型 算法:K-means聚类:其他方法还用到了层次聚类 数据:需要数据的可以评论里call. 内容: (1)案例: 航空公司客户 ...

  5. 数据分析与挖掘实战-航空公司客户价值分析

    航空公司客户价值分析 项目背景 信息时代的到来注定营销焦点从产品中心转到了用户中心,客户关系管理成为企业的核心问题. 客户关系管理的关键问题则是客户分类,通过分类区分客户价值的有无和高低,针对不同类别 ...

  6. 航空公司客户价值分析(附完整代码)

    一.什么是客户价值分析:   客户价值分析是以客户为中心,从客户需求出发,搞清楚客户需要什么,他们有怎样的一个特征,需要什么样的产品,然后设计相应的产品,通过对客户分群从而满足客户的需求.进行客户价值 ...

  7. python航空公司客户价值分析

    1.航空公司部分数据特征说明及LRFMC模型介绍及K-Means聚类算法介绍 2.开始数据分析 - 数据探索 Part Ⅰ:数据预处理 数据清洗 数据集成 数据归约 数据变换 Part Ⅱ:建模分析和 ...

  8. python客户价值分析_Python数据分析与应用航空公司客户价值分析.ppt

    Python数据分析与应用航空公司客户价值分析.ppt 大数据,成就未来 * 大数据挖掘专家 * 大数据挖掘专家 大数据,成就未来 航空公司客户价值分析 * 目录 分析航空公司现状 1. 行业内竞争 ...

  9. 数据分析实战:航空公司客户价值分析

    一.背景目标 通过对航空公司客户数据分析,对客户进行分类: 比较不同客户的客户价值,并制定不同的服务和营销策略 二.数据探索分析 2.1 数据概况 数据时间范围: 2012年4月1日至2014年3月3 ...

  10. 毕业设计之 ---基于大数据分析的航空公司客户价值分析

    文章目录 0 前言 1 数据分析背景 2 分析策略 2.1 航空公司客户价值分析的LRFMC模型 2.2 数据 2.3 分析模型 3 开始分析 3.1 数据预处理 3.1.1 数据预览 3.1.2 数 ...

最新文章

  1. 《女仆咖啡帕露菲》香浓背后,激励的力量
  2. Kafka#4:存储设计 分布式设计 源码分析
  3. Linux调试分析诊断利器----strace
  4. 麒麟linux百度云,百度网盘 Linux 版发布,搭配优麒麟运行更完美!
  5. 成功入职阿里P7后 一个技术老哥总结了这几句话
  6. 织梦dedecms 相关文档标签(likearticle)实现关联整站文档
  7. Zabbix主机处于check_ping_icmpping状态问题解决
  8. 自学python能干些什么副业-学完Python的我,月薪6千,副业2万
  9. 用Jquery写tab插件(支持点击和移动及其他事件)
  10. 深度学习入门_对ORL数据集进行特征提取降维后SVM分类
  11. #最短路径,最小生成树#CH 6202 黑暗城堡
  12. PLSQL代码调试Oracle dbms_utility返回错误
  13. 路由器开启WDS模式扩展WIFI覆盖范围
  14. 2015iMAC安装macOS/Win11双系统 外置硬盘安装macOS/Win11双系统(非PE非DP虚拟机非WTG)
  15. 对大一c语言学习的感想
  16. 筑梦数字时代,城链科技战略峰会西安站顺利落幕
  17. SH7218T拆解手记(4)修改外屏大时钟
  18. Java中xml转义字符和gt,gte,lt,lte缩写
  19. RSPapers | 对话推荐系统论文合集
  20. java 代码生成nc 格式的文件,并且读取出nc格式里面的数据(已提供代码)

热门文章

  1. tcc-transaction源码详解
  2. photoshop制作烫金效果logo详细教程
  3. 开关电源Buck电路CCM与DCM工作模式有什么区别?
  4. OpenCASCADE6.8.0 Reference Manual Serach Problem
  5. postgresql修改字段名
  6. php快递按选择次数排序,php快递接口查询api 不限制次数
  7. 移动app用户体验与性能优化
  8. 二极管整流电路工作原理图
  9. CAD画虚线怎么调比例?CAD画虚线教程
  10. NLP基础--single-pass 聚类算法