UCI银行营销数据集--数据集不平衡
程序源代码参见GitHub:https://github.com/leungBH/BankMarketing
数据集基本情况
目标:
根据相关的信息预测通过电话推销,用户是否会在银行进行存款。
特征:总共有50个特征。
年龄,工作类型,婚姻状况,受教育背景,信用情况,房贷,个人贷款,联系电话是手机还是固定电话,最后联系月份,最后联系日,通话持续时间,本次活动中联系的次数,最后一次接触距离上一次接触的时间,以前的活动中联系的次数,上一次活动成功与否,就业变化率,消费者物价指数,欧元银行同业拆借利率,就业人数。
数据集中愿意存款的比例大概只有1/9,存在严重的不平衡,导致精确度不高。
Yes: 4640 No: 36548
下面尝试使用几种处理数据集不平衡的方法做优化:
1,多少数分类进行过采样(复制正样本,用smote方法过采样)
2,对多数分类进行欠采样
先看看不做任何处理的结果
对负样本进行欠采样(随机保留一半的负样本)
相比于不做任何处理,精度有很大幅度的提升。
对正样本进行过采样(把所有正样本复制一遍)
性能也有不错的提升
利用smote方法进行过采样
效果比简单复制正样本要好,特别是在测试集上的性能。
结合欠采样和过采样
性能优于单独使用过采样和单独使用欠采样
UCI银行营销数据集--数据集不平衡相关推荐
- UCI银行营销数据集---数据可视化
程序源代码参见GitHub:https://github.com/leungBH/BankMarketing 数据集基本情况 目标: 根据相关的信息预测通过电话推销,用户是否会在银行进行存款. 特征: ...
- UCI银行营销数据集--缺失值处理方法
程序源代码参见GitHub:https://github.com/leungBH/BankMarketing 数据集基本情况 目标: 根据相关的信息预测通过电话推销,用户是否会在银行进行存款. 特征: ...
- Spark ML(lib)实验:利用银行营销数据集预测客户是否订阅产品
一.实验描述 数据集来源于UCI的银行营销数据集(UCI Machine Learning Repository: Bank Marketing Data Set).数据与葡萄牙一家银行机构的直接营销 ...
- ML:基于葡萄牙银行机构营销活动数据集(年龄/职业等)利用Pipeline框架(两种类型特征并行处理)+多种模型预测(分层抽样+调参交叉验证评估+网格/随机搜索+推理)客户是否购买该银行的产品二分类案
ML之pipeline:基于葡萄牙银行机构营销活动数据集(年龄/职业/婚姻/违约等)利用Pipeline框架(两种类型特征并行处理)+多种模型预测(分层抽样+调参交叉验证评估+网格搜索/随机搜索+模型 ...
- ML之RF:基于葡萄牙银行机构营销活动数据集(年龄/职业/婚姻/违约等)利用Pipeline框架(两种类型特征并行处理)+RF模型预测(调参+交叉验证评估+模型推理)客户是否购买该银行的产品二分类案例
ML之RF:基于葡萄牙银行机构营销活动数据集(年龄/职业/婚姻/违约等)利用Pipeline框架(两种类型特征并行处理)+RF模型预测(调参+交叉验证评估+模型推理)客户是否购买该银行的产品二分类案例 ...
- 「二分类算法」提供银行精准营销解决方案(样本不平衡问题)
项目背景 项目来源于Kesci平台:提供银行精准营销解决方案 项目简介 本练习赛的数据,选自UCI机器学习库中的「银行营销数据集(Bank Marketing Data Set)」 这些数据与葡萄牙银 ...
- msra数据集_ACL2020 | 香侬科技提出使用Dice Loss缓解数据集数据不平衡问题
论文标题:Dice Loss for Data-imbalanced NLP Tasks 论文作者:Xiaofei Sun, Xiaoya Li, Yuxian Meng, Junjun Liang, ...
- dice系数 交叉熵_ACL2020 | 香侬科技提出用Dice Loss缓解数据集数据不平衡问题
论文标题: Dice Loss for Data-imbalanced NLP Tasks 论文作者: Xiaofei Sun*, Xiaoya Li*, Yuxian Meng, Junjun Li ...
- ACL 2020 | 香侬科技提出用Dice Loss缓解数据集数据不平衡问题
论文标题: Dice Loss for Data-imbalanced NLP Tasks 论文作者: Xiaofei Sun*, Xiaoya Li*, Yuxian Meng, Junjun Li ...
最新文章
- 新年开工——相关性分析了解一下?
- nginx mysql设置远程连接超时_docker -mysql服务设置远程连接 解决1251 client does not support ..问题...
- 90 亿美元的“Java 第一版权案”终落幕:谷歌胜,甲骨文败!
- 单节点部署Hadoop教程
- 日志规范之为什么要使用SLF4J
- 用不同显卡训练gan的区别_面霜质地这么多,到底哪一种最好用?不同质地面霜有什么区别?...
- c++ 时间序列工具包_我的时间序列工具包
- 回调函数 相当于线程_阿里面试题:请简述下 Node 的线程模型
- 数据连接池druid 和 大数据框架druid
- Python实现分析pdf或者Word形式简历,并且保存到Excel中
- poj 3621 Sightseeing Cows 01分数规划
- 计算机动画---计算机动画的光栅方法
- JDK10安装与配置
- 基于C# 的学生信息管理系统
- BUG记录:org.xml.sax.SAXParseException; lineNumber: 1; columnNumber: 1; Content is no
- android 布局 缩小图片大小,三大布局的基本摆放属性总结,以及imageVIew图片摆放的缩放问题...
- 搭建Mantis 缺陷管理系统
- OpenCV实战——角度测量
- mysql的时间格式化问题(上下午)
- 从零维到十维空间如何在纸上用手绘出来