数据挖掘大作业最终报告

数据挖掘

大作业最终报告

学 院:计算机学院

专 业:计算机应用技术

年 级:2016级

组 号:第六组

成 员:赵 颖 2620160012

王晓媛2620160007

李昱燃2620160009

用户行为预测——以某电信公司为例

摘要

本文讨论了一个关于用户行为预测的数据挖掘问题,在对某电信公司客户数据集的处理、

Random Forest AdaBoost

特征选取之后,尝试使用随机森林 ( )、与 结合的决策树、梯度提升

决策树 (Gradient BoostingDecision Tree)三种算法进行分类,最终较好地实现了对客户忠诚

度、购买欲、增值性三个属性的预测,并且对三者的结果进行了分析和比较。

关键词:特征选取、决策树、分类器

1 导论

1.1 问题描述

本文所尝试解决的问题是根据2009年KDD Cup 竞赛的问题改编而来,目的是预测客户三

个维度的行为,包括:1、忠诚度(Churn):用户切换运营商的可能性;2、购买欲(Appetency):

购买新服务的可能性;3、增值性 (Up-selling):客户升级或追加购买高利润产品的可能性。

我们需要根据现有数据训练出分类器,分别对客户的忠诚度、消费欲和增值服务倾向性做出二

元判别,并计算各分类器的准确率,比较它们的分类效果。

竞赛中的数据集来自法国Orange 电信公司的客户特征描述数据,我们使用的数据集则是

从比赛数据集中随机抽取的10000个带标签的训练数据和10000个无标签的测试数据(为了减

轻类分布的不平衡,保留了大多数正值的数据),均有230个特征变量,前190个特征变量是

数值型变量,后40个是类别型变量。

1.2 相关工作

在KDD Cup 2009 中,参赛者对该问题主要采取了以下方案:Miller[2]等人采用交叉验证方

[5]

法进行特征选取,分类器采用流行的Boosting+决策树的融合方法;Lo 等人则分别采用了多

[12]

种分类方法,比如选择朴素贝叶斯分类器、与AdaBoost 结合的决策树等;Xie 等人采用了封

[3]

装类型的特征选取方法,分类器则是随机梯度提升树。总的来看 ,特征选取的方法相对多样

化,封装类、过滤类以及混合类都有;分类方法则比较类似,虽然也有采用其它方法甚至多种

方法的,但决策树类的方法仍然是最受参赛者青睐的方法。

1.3 问题分析及文章结构

本文分三步解决这一问题:数据预处理与特征选择,分类算法的选择,分类算法的实现。

首先,由于数据集本身的特性,比如有大量缺失数据需要处理,或者类分布的不均衡,需要我

们对数据集中的数据进行预处理,并且选择合适的特征变量,方便分类器的训练。之后,出于

提高准确率、加快训练速度的目的,需要选择适当的分类算法。最后,实现了分类算法并进行

了分类器的训练。

本文第二部分对给出的特征值进行处理,以构造便于进行分类器训练的数据集;第三部分

选择合适的分类算法并实现分类;第四部分为不同条件下的实验结果;最后是总结与分析。

2 特征值处理

在构建分类器之前,首先要对原始数据进行有选择的加工,得到合适样本。

10000 230 190

给定的训练集共 条数据,每条数据分别包括 个特征值,特征值的前 个

python数据分析与挖掘实践大作业_数据挖掘大作业最终报告.PDF相关推荐

  1. python数据分析与挖掘实战 配套资源_[课程学习]Python数据分析与挖掘实战 配套完整数据和源代码 rar文件[25.46MB]-码姐姐下载...

    该资源为<python数据分析与挖掘实战>一书的配套的资源代码,鉴于大多数读者很难找到此资源,特此分... 大小:20.99MB | 2020-05-14 19:07:04 本资源是pyt ...

  2. python数据分析与挖掘实战张良军_《Python数据分析与挖掘实战》PDF+完整源码

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 本书共15章,分两个部分:基础篇.实战篇.基础篇介绍了数据挖掘的基本原理,实战篇介绍了一个个真实案例,通过对案例深入浅出的剖析,使读者在不知不觉中通过案例 ...

  3. 拉格朗日插值法《python数据分析与挖掘实践》

    数据清洗 数据清洗主要是删除原始数据集中地无关数据.重复数据.平滑噪声数据,筛选掉与挖掘主题无关的数据,处理缺失值.异常值等. 缺失值处理的方法可分为3类:删除记录.数据插补和不处理. 删除含有缺失值 ...

  4. 《Python数据分析与挖掘》实战项目 - Python程序设计(期末大作业、课程设计、毕业设计)2012-2021近十年考研英语一真题词汇词频统计与可视化(附代码)

    <Python数据分析与挖掘> - 2012-2021近十年考研英语一真题词汇词频统计与可视化 声明 本文仅在CSDN发布,其他均为盗版.请支持正版! 正版链接: https://blog ...

  5. 大数据培训课程分享:Python数据分析与挖掘实战课程介绍

    <Python数据分析与挖掘实战>课程内容以Python数据分析与挖掘的常用技术与真实案例相结合的方式,深入浅出地介绍Python数据分析与挖掘的重要内容,共分为基础篇(第1~5章)和实战 ...

  6. 从零开始学python数据分析-【01】从零开始学Python—数据分析与挖掘概述

    马云曾说"中国正迎来从IT时代到DT时代的变革",DT就是大数据时代.数据已成为企业的核心资产和宝贵资源,企业愈加重视和善加利用数据分析与挖掘技术. 1.1什么是数据分析与挖掘 数 ...

  7. 《Python数据分析与挖掘实战》示例源码免费下载

    <Python数据分析与挖掘实战>​ 在当今大数据驱动的时代,要想从事机器学习.人工智能.数据挖掘等前沿技术,离不开数据跟踪与分析,通过NumPy.Pandas等进行数据科学计算,通过Se ...

  8. 《Python数据分析与挖掘实战》一3.1 数据质量分析

    本节书摘来自华章出版社<Python数据分析与挖掘实战>一书中的第3章,第3.1节,作者 张良均 王路 谭立云 苏剑林,更多章节内容可以访问云栖社区"华章计算机"公众号 ...

  9. 从零开始学python数据分析-从零开始学Python数据分析与挖掘 PDF 扫描版

    给大家带来的一篇关于数据挖掘相关的电子书资源,介绍了关于Python.数据分析.数据挖掘方面的内容,本书是由清华大学出版社出版,格式为PDF,资源大小67.8 MB,刘顺祥编写,目前豆瓣.亚马逊.当当 ...

最新文章

  1. 学习Linux计划书
  2. oracle 内置函数(三)日期函数
  3. 最优化课堂笔记08——非线性规划中的一些其他方法(考试你懂得)
  4. YbtOJ#20078-[NOIP2020模拟赛B组Day7]路径之和【分治,Flody】
  5. H2数据库的Spring Boot
  6. Tomcat配置和Web应用程序开发
  7. bug[应该已经修复了]:红色方框随机丢失(简书安卓2.0beta)
  8. HDU2523 SORT AGAIN【计数排序】
  9. 系统学习机器学习之SVM(二)
  10. 月关“历史网络小说第一人”:第四届橙瓜网络文学奖十佳历史大神
  11. iOS:error: unable to read input file
  12. Nodejs之NestJS之pkg打包
  13. Modbus CRC计算器(编译环境:C-Free 5.0)
  14. axure原件 总是丢失_【总结整理】AXURE原件
  15. 新媒体运营教程:实现用户增长5个步骤,5个基础方法
  16. BibTex使用笔记
  17. php怎么在图像中显示文字,怎么在图片上面加文字 人物图片中加文字或特效
  18. ERROR:Xst:899--FPGA ERROR
  19. Buck电路基本介绍
  20. 【Unity】由预制体实例获取预制体资源及预制体资源路径

热门文章

  1. 乔丹的七个经典回忆 回味飞人从人到神的完全历程
  2. 腾讯云服务器安装mysql 8服务
  3. 如何用阿里云腾讯云服务器部署属于自己的私有云盘/网盘?
  4. 【软件测试笔试题】阿里巴巴(中国)网络技术有限公司
  5. 深度学习之常见激活函数-Sigmoid、Tanh、ReLu、softplus、softmax、ELU、PReLU
  6. java毕业设计基于网络平台个人博客系统Mybatis+系统+数据库+调试部署
  7. [转] 乔布斯的真正伟大之处在哪里
  8. 【设计模式】(七)-纵观全局
  9. 7月17python03
  10. python爬虫最为核心的HTTP协议解析,及自定义协议的分析