程序源代码参见GitHub:https://github.com/leungBH/BankMarketing

  • 数据集基本情况

目标:

根据相关的信息预测通过电话推销,用户是否会在银行进行存款。

特征:总共有50个特征。

年龄,工作类型,婚姻状况,受教育背景,信用情况,房贷,个人贷款,联系电话是手机还是固定电话,最后联系月份,最后联系日,通话持续时间,本次活动中联系的次数,最后一次接触距离上一次接触的时间,以前的活动中联系的次数,上一次活动成功与否,就业变化率,消费者物价指数,欧元银行同业拆借利率,就业人数。

数据集中愿意存款的比例大概只有1/9,存在严重的不平衡,导致精确度不高。

Yes: 4640
No: 36548

下面尝试使用几种处理数据集不平衡的方法做优化:

1,多少数分类进行过采样(复制正样本,用smote方法过采样)

2,对多数分类进行欠采样

先看看不做任何处理的结果

  • 对负样本进行欠采样(随机保留一半的负样本)

相比于不做任何处理,精度有很大幅度的提升。

  • 对正样本进行过采样(把所有正样本复制一遍)

性能也有不错的提升

  • 利用smote方法进行过采样

效果比简单复制正样本要好,特别是在测试集上的性能。

  • 结合欠采样和过采样

性能优于单独使用过采样和单独使用欠采样

UCI银行营销数据集--数据集不平衡相关推荐

  1. UCI银行营销数据集---数据可视化

    程序源代码参见GitHub:https://github.com/leungBH/BankMarketing 数据集基本情况 目标: 根据相关的信息预测通过电话推销,用户是否会在银行进行存款. 特征: ...

  2. UCI银行营销数据集--缺失值处理方法

    程序源代码参见GitHub:https://github.com/leungBH/BankMarketing 数据集基本情况 目标: 根据相关的信息预测通过电话推销,用户是否会在银行进行存款. 特征: ...

  3. Spark ML(lib)实验:利用银行营销数据集预测客户是否订阅产品

    一.实验描述 数据集来源于UCI的银行营销数据集(UCI Machine Learning Repository: Bank Marketing Data Set).数据与葡萄牙一家银行机构的直接营销 ...

  4. ML:基于葡萄牙银行机构营销活动数据集(年龄/职业等)利用Pipeline框架(两种类型特征并行处理)+多种模型预测(分层抽样+调参交叉验证评估+网格/随机搜索+推理)客户是否购买该银行的产品二分类案

    ML之pipeline:基于葡萄牙银行机构营销活动数据集(年龄/职业/婚姻/违约等)利用Pipeline框架(两种类型特征并行处理)+多种模型预测(分层抽样+调参交叉验证评估+网格搜索/随机搜索+模型 ...

  5. ML之RF:基于葡萄牙银行机构营销活动数据集(年龄/职业/婚姻/违约等)利用Pipeline框架(两种类型特征并行处理)+RF模型预测(调参+交叉验证评估+模型推理)客户是否购买该银行的产品二分类案例

    ML之RF:基于葡萄牙银行机构营销活动数据集(年龄/职业/婚姻/违约等)利用Pipeline框架(两种类型特征并行处理)+RF模型预测(调参+交叉验证评估+模型推理)客户是否购买该银行的产品二分类案例 ...

  6. 「二分类算法」提供银行精准营销解决方案(样本不平衡问题)

    项目背景 项目来源于Kesci平台:提供银行精准营销解决方案 项目简介 本练习赛的数据,选自UCI机器学习库中的「银行营销数据集(Bank Marketing Data Set)」 这些数据与葡萄牙银 ...

  7. msra数据集_ACL2020 | 香侬科技提出使用Dice Loss缓解数据集数据不平衡问题

    论文标题:Dice Loss for Data-imbalanced NLP Tasks 论文作者:Xiaofei Sun, Xiaoya Li, Yuxian Meng, Junjun Liang, ...

  8. dice系数 交叉熵_ACL2020 | 香侬科技提出用Dice Loss缓解数据集数据不平衡问题

    论文标题: Dice Loss for Data-imbalanced NLP Tasks 论文作者: Xiaofei Sun*, Xiaoya Li*, Yuxian Meng, Junjun Li ...

  9. ACL 2020 | 香侬科技提出用Dice Loss缓解数据集数据不平衡问题

    论文标题: Dice Loss for Data-imbalanced NLP Tasks 论文作者: Xiaofei Sun*, Xiaoya Li*, Yuxian Meng, Junjun Li ...

最新文章

  1. 新年开工——相关性分析了解一下?
  2. nginx mysql设置远程连接超时_docker -mysql服务设置远程连接 解决1251 client does not support ..问题...
  3. 90 亿美元的“Java 第一版权案”终落幕:谷歌胜,甲骨文败!
  4. 单节点部署Hadoop教程
  5. 日志规范之为什么要使用SLF4J
  6. 用不同显卡训练gan的区别_面霜质地这么多,到底哪一种最好用?不同质地面霜有什么区别?...
  7. c++ 时间序列工具包_我的时间序列工具包
  8. 回调函数 相当于线程_阿里面试题:请简述下 Node 的线程模型
  9. 数据连接池druid 和 大数据框架druid
  10. Python实现分析pdf或者Word形式简历,并且保存到Excel中
  11. poj 3621 Sightseeing Cows 01分数规划
  12. 计算机动画---计算机动画的光栅方法
  13. JDK10安装与配置
  14. 基于C# 的学生信息管理系统
  15. BUG记录:org.xml.sax.SAXParseException; lineNumber: 1; columnNumber: 1; Content is no
  16. android 布局 缩小图片大小,三大布局的基本摆放属性总结,以及imageVIew图片摆放的缩放问题...
  17. 搭建Mantis 缺陷管理系统
  18. OpenCV实战——角度测量
  19. mysql的时间格式化问题(上下午)
  20. 从零维到十维空间如何在纸上用手绘出来

热门文章

  1. android otg u盘 视频教程,Android OTG U盘文件读写
  2. uniapp图片详情
  3. 爬虫获取西刺免费高匿代理
  4. Facebook母公司Meta将开设第一家商店。这里是里面的样子
  5. 【GD32】GD32设置TIMER0输出PWM
  6. clamav Java_ClamAV病毒查杀
  7. 树、二叉树、满二叉树、完全二叉树概念分清
  8. java英文介绍范文_java面试英文自我介绍范文
  9. 使用Redis进行经纬度距离
  10. 8.25关于笔试面试(数梦工场亲宝宝)