SMOTE算法原理 易用手搓小白版 数据集扩充 python
前言
为啥要写这个呢,在做课题的时候想着扩充一下数据集,尝试过这个过采样降采样,交叉采样,我还研究了一周的对抗生成网络,对抗生成网络暂时还解决不了我要生成的信号模式崩塌的问题,然后就看着尝试一下别的,就又来实验了一下SMOTE,我看原理也不是很难,想着调库的话不如自己手搓一个稍微,可以简单理解一点的,最后呢也是成功了,然后呢对训练集进行了扩充,效果额,训练集准确率肯定是嗷嗷提升,训练的效果稳定了一点,但是测试集出来的效果,感觉变化不大,可能是我实验样本比较少的原因,说明普通的SMOTE还是比较吃原始数据分布,我写的这个是只用numpy 和 random 两个库,内容都是手搓的,和官方例程最大的不同,就是官方例程控制的是生成样本和原样本的比例,本程序控制的是生成样本的数量。也就是可以直接指定生成样本的数量进行输出。
一、SMOTE理论
SMOTE算法是一种2002年发表的根据样本之间的关系,生成新样本的,扩充数据集的算法,论文源地址贴在下面,然后用一个图表示一下一个样本的生成过程
SMOTE: Synthetic Minority Over-sampling Technique:
论文地址: https://www.jair.org/index.php/jair/article/download/10302/24590
虽然别人的图画的很好,但是想到自己作为一个研究生
SMOTE算法原理 易用手搓小白版 数据集扩充 python相关推荐
- KMP算法原理详解_论文解读版
1. KMP算法 KMP算法是一种保证线性时间的字符串查找算法,由Knuth.Morris和Pratt三位大神发明,而算法取自这三人名字的首字母,因而得名KMP算法. 那发明这样的字符串查找算法又有什 ...
- A* 算法原理以及在二维环境地图中的应用 -- Python 代码实现
上节学习了 Dijkstra 路径规划规划算法,虽然能够找到最短的路径,但是其遍历的搜索过程具有盲目性,因此效率比较低,计算量非常大.而实际中电子地图的结点数量是非常庞大的,Dijkstra 算法在有 ...
- 机器学习:朴素贝叶斯模型算法原理(含实战案例)
机器学习:朴素贝叶斯模型算法原理 作者:i阿极 作者简介:Python领域新星作者.多项比赛获奖者:博主个人首页
- 小白入门谱聚类算法原理与实现
小白入门谱聚类算法原理与实现 小白入门谱聚类算法原理与实现 1. 谱聚类是什么? 2.谱聚类步骤 2.1 谱聚类构图 2.2 谱聚类切图 2.2.1RatioCut 2.2.2Ncut 3谱聚类实现 ...
- 来自一个Python小白写的DNF手搓脚本
昨晚心血来潮,写了一个DNF"手搓"脚本,脚本很简单,直接上代码: import pydirectinput from pynput import keyboarddef shou ...
- SMOTE算法代码实现-机器学习
类别不平衡问题 类别不平衡问题,顾名思义,即数据集中存在某一类样本,其数量远多于或远少于其他类样本,从而导致一些机器学习模型失效的问题.例如逻辑回归即不适合处理类别不平衡问题,例如逻辑回归在欺诈检测问 ...
- KNN 分类算法原理代码解析
作者 | Charmve 来源 | 迈微AI研习社 k-最近邻算法是基于实例的学习方法中最基本的,先介绍基x`于实例学习的相关概念. 基于实例的学习 已知一系列的训练样例,很多学习方法为目标函数建立起 ...
- 干货 | 非常全面的谱聚类算法原理总结
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 谱聚类算法是目前最流行的聚类算法之一,其性能及适用场景优于传统的聚 ...
- 当常规的算法都山穷水尽之后,你可以试试python中的SMOTE算法
点击"阅读原文"直接打开[北京站 | GPU CUDA 进阶课程]报名链接 沙韬伟,苏宁易购高级算法工程师. 曾任职于Hewlett-Packard.滴滴出行. 数据学院特邀讲师. ...
- Python3《机器学习实战》学习笔记(八):支持向量机原理篇之手撕线性SVM
原 Python3<机器学习实战>学习笔记(八):支持向量机原理篇之手撕线性SVM 置顶 2017年09月23日 17:50:18 阅读数:12644 转载请注明作者和出处: https: ...
最新文章
- 如何使python等待按键
- 删除数据库日志sql语句
- 南瑞变压器保护装置说明书_深圳宝安变压器维修公司
- 英语进阶系列-A06-本周总结
- 如何保护你的linux操作系统
- zabbix mysql主从_zabbix监控mysql主从状态
- mysql skip remarks_mysql DatabaseMetaData 获取table remarks为空的解决办法
- 火车进出站(POJ1363)
- Java垃圾回收(GC)机制
- odoo-OPENERP仓库各类知识详解
- 插桩 java_Javassist进行方法插桩
- 最最简单的使用DW编程软件
- 计算机链接投影蓝屏,怎么回事电脑与投影连接正常?电脑与投影连 – 手机爱问...
- 迅雷和BT有什么区别?迅雷是不是不毁硬盘?速度快吗?
- 中青年人脑白质的年龄效应和性别差异:DTI、NODDI 和 q 空间研究
- MSP430单片机工程配置driverlib库
- Zabbix基于Dell系统管理OMSA监控物理服务器硬件
- IDEA在创建包时如何把包分开实现自动分层
- Scala開發教程(1): 開始神奇的Scala編程之旅
- GMT绘制子图、指北针、图例、比例尺
热门文章
- matlab批量将csv转换成xls,如何批量将CSV格式的文件转化成excel格式 |
- krohne流量计接线图_科隆电磁流量计转换器操作说明
- 电磁流量计应用的局限性
- 计算机视觉教程0-2:你了解眼里所见的色彩吗?(详解RGB/HSV/Lab)
- 【Java 微信公众号开发】① 介绍、测试号、接入
- visio如何使箭头指向图中的任意位置
- 适用于Android的最佳本地音乐播放器
- Flutter - 微信朋友圈效果实现
- 最高单价计算机函数公式,通达信公式主动性买盘均价,通达信分时图中 分时均价线黄线的源码怎么写...
- ABB机器人外部轴电机配置(MU系列)