python数据分析与挖掘实践大作业_数据挖掘大作业最终报告.PDF
数据挖掘大作业最终报告
数据挖掘
大作业最终报告
学 院:计算机学院
专 业:计算机应用技术
年 级:2016级
组 号:第六组
成 员:赵 颖 2620160012
王晓媛2620160007
李昱燃2620160009
用户行为预测——以某电信公司为例
摘要
本文讨论了一个关于用户行为预测的数据挖掘问题,在对某电信公司客户数据集的处理、
Random Forest AdaBoost
特征选取之后,尝试使用随机森林 ( )、与 结合的决策树、梯度提升
决策树 (Gradient BoostingDecision Tree)三种算法进行分类,最终较好地实现了对客户忠诚
度、购买欲、增值性三个属性的预测,并且对三者的结果进行了分析和比较。
关键词:特征选取、决策树、分类器
1 导论
1.1 问题描述
本文所尝试解决的问题是根据2009年KDD Cup 竞赛的问题改编而来,目的是预测客户三
个维度的行为,包括:1、忠诚度(Churn):用户切换运营商的可能性;2、购买欲(Appetency):
购买新服务的可能性;3、增值性 (Up-selling):客户升级或追加购买高利润产品的可能性。
我们需要根据现有数据训练出分类器,分别对客户的忠诚度、消费欲和增值服务倾向性做出二
元判别,并计算各分类器的准确率,比较它们的分类效果。
竞赛中的数据集来自法国Orange 电信公司的客户特征描述数据,我们使用的数据集则是
从比赛数据集中随机抽取的10000个带标签的训练数据和10000个无标签的测试数据(为了减
轻类分布的不平衡,保留了大多数正值的数据),均有230个特征变量,前190个特征变量是
数值型变量,后40个是类别型变量。
1.2 相关工作
在KDD Cup 2009 中,参赛者对该问题主要采取了以下方案:Miller[2]等人采用交叉验证方
[5]
法进行特征选取,分类器采用流行的Boosting+决策树的融合方法;Lo 等人则分别采用了多
[12]
种分类方法,比如选择朴素贝叶斯分类器、与AdaBoost 结合的决策树等;Xie 等人采用了封
[3]
装类型的特征选取方法,分类器则是随机梯度提升树。总的来看 ,特征选取的方法相对多样
化,封装类、过滤类以及混合类都有;分类方法则比较类似,虽然也有采用其它方法甚至多种
方法的,但决策树类的方法仍然是最受参赛者青睐的方法。
1.3 问题分析及文章结构
本文分三步解决这一问题:数据预处理与特征选择,分类算法的选择,分类算法的实现。
首先,由于数据集本身的特性,比如有大量缺失数据需要处理,或者类分布的不均衡,需要我
们对数据集中的数据进行预处理,并且选择合适的特征变量,方便分类器的训练。之后,出于
提高准确率、加快训练速度的目的,需要选择适当的分类算法。最后,实现了分类算法并进行
了分类器的训练。
本文第二部分对给出的特征值进行处理,以构造便于进行分类器训练的数据集;第三部分
选择合适的分类算法并实现分类;第四部分为不同条件下的实验结果;最后是总结与分析。
2 特征值处理
在构建分类器之前,首先要对原始数据进行有选择的加工,得到合适样本。
10000 230 190
给定的训练集共 条数据,每条数据分别包括 个特征值,特征值的前 个
python数据分析与挖掘实践大作业_数据挖掘大作业最终报告.PDF相关推荐
- python数据分析与挖掘实战 配套资源_[课程学习]Python数据分析与挖掘实战 配套完整数据和源代码 rar文件[25.46MB]-码姐姐下载...
该资源为<python数据分析与挖掘实战>一书的配套的资源代码,鉴于大多数读者很难找到此资源,特此分... 大小:20.99MB | 2020-05-14 19:07:04 本资源是pyt ...
- python数据分析与挖掘实战张良军_《Python数据分析与挖掘实战》PDF+完整源码
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 本书共15章,分两个部分:基础篇.实战篇.基础篇介绍了数据挖掘的基本原理,实战篇介绍了一个个真实案例,通过对案例深入浅出的剖析,使读者在不知不觉中通过案例 ...
- 拉格朗日插值法《python数据分析与挖掘实践》
数据清洗 数据清洗主要是删除原始数据集中地无关数据.重复数据.平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值.异常值等. 缺失值处理的方法可分为3类:删除记录.数据插补和不处理. 删除含有缺失值 ...
- 《Python数据分析与挖掘》实战项目 - Python程序设计(期末大作业、课程设计、毕业设计)2012-2021近十年考研英语一真题词汇词频统计与可视化(附代码)
<Python数据分析与挖掘> - 2012-2021近十年考研英语一真题词汇词频统计与可视化 声明 本文仅在CSDN发布,其他均为盗版.请支持正版! 正版链接: https://blog ...
- 大数据培训课程分享:Python数据分析与挖掘实战课程介绍
<Python数据分析与挖掘实战>课程内容以Python数据分析与挖掘的常用技术与真实案例相结合的方式,深入浅出地介绍Python数据分析与挖掘的重要内容,共分为基础篇(第1~5章)和实战 ...
- 从零开始学python数据分析-【01】从零开始学Python—数据分析与挖掘概述
马云曾说"中国正迎来从IT时代到DT时代的变革",DT就是大数据时代.数据已成为企业的核心资产和宝贵资源,企业愈加重视和善加利用数据分析与挖掘技术. 1.1什么是数据分析与挖掘 数 ...
- 《Python数据分析与挖掘实战》示例源码免费下载
<Python数据分析与挖掘实战> 在当今大数据驱动的时代,要想从事机器学习.人工智能.数据挖掘等前沿技术,离不开数据跟踪与分析,通过NumPy.Pandas等进行数据科学计算,通过Se ...
- 《Python数据分析与挖掘实战》一3.1 数据质量分析
本节书摘来自华章出版社<Python数据分析与挖掘实战>一书中的第3章,第3.1节,作者 张良均 王路 谭立云 苏剑林,更多章节内容可以访问云栖社区"华章计算机"公众号 ...
- 从零开始学python数据分析-从零开始学Python数据分析与挖掘 PDF 扫描版
给大家带来的一篇关于数据挖掘相关的电子书资源,介绍了关于Python.数据分析.数据挖掘方面的内容,本书是由清华大学出版社出版,格式为PDF,资源大小67.8 MB,刘顺祥编写,目前豆瓣.亚马逊.当当 ...
最新文章
- 学习Linux计划书
- oracle 内置函数(三)日期函数
- 最优化课堂笔记08——非线性规划中的一些其他方法(考试你懂得)
- YbtOJ#20078-[NOIP2020模拟赛B组Day7]路径之和【分治,Flody】
- H2数据库的Spring Boot
- Tomcat配置和Web应用程序开发
- bug[应该已经修复了]:红色方框随机丢失(简书安卓2.0beta)
- HDU2523 SORT AGAIN【计数排序】
- 系统学习机器学习之SVM(二)
- 月关“历史网络小说第一人”:第四届橙瓜网络文学奖十佳历史大神
- iOS:error: unable to read input file
- Nodejs之NestJS之pkg打包
- Modbus CRC计算器(编译环境:C-Free 5.0)
- axure原件 总是丢失_【总结整理】AXURE原件
- 新媒体运营教程:实现用户增长5个步骤,5个基础方法
- BibTex使用笔记
- php怎么在图像中显示文字,怎么在图片上面加文字 人物图片中加文字或特效
- ERROR:Xst:899--FPGA ERROR
- Buck电路基本介绍
- 【Unity】由预制体实例获取预制体资源及预制体资源路径
热门文章
- 乔丹的七个经典回忆 回味飞人从人到神的完全历程
- 腾讯云服务器安装mysql 8服务
- 如何用阿里云腾讯云服务器部署属于自己的私有云盘/网盘?
- 【软件测试笔试题】阿里巴巴(中国)网络技术有限公司
- 深度学习之常见激活函数-Sigmoid、Tanh、ReLu、softplus、softmax、ELU、PReLU
- java毕业设计基于网络平台个人博客系统Mybatis+系统+数据库+调试部署
- [转] 乔布斯的真正伟大之处在哪里
- 【设计模式】(七)-纵观全局
- 7月17python03
- python爬虫最为核心的HTTP协议解析,及自定义协议的分析