python样本不均衡_使用Python中的smote处理正负样本之间的不平衡,python,实现,失衡,问题...
机器学习中难免遇到正负样本不平衡问题,处理办法通常有梁总,一:过采样,增加正样本数据;二:欠采样,减少负样本数据,缺点是会丢失一些重要信息。smote属于过采样。
代码
# from imblearn.over_sampling import BorderlineSMOTE
# from imblearn.over_sampling import SMOTENC
# from imblearn.over_sampling import SVMSMOTE
# from imblearn.over_sampling import KMeansSMOTE
# from imblearn.over_sampling import ADASYN
# from imblearn.over_sampling import RandomOverSampler
import pandas as pd
import numpy as np
from collections import Counter
from imblearn.over_sampling import SMOTE# 使用imlbearn库中上采样方法中的SMOTE接口
import matplotlib.pyplot as plt
# 生成一组0和1比例为9比1的样本,X为特征,y为对应的标签
x1=[np.random.randint(1,31) for i in range(90)]+[np.random.randint(50,81) for i in range(10)]
x2=[np.random.randint(1,31) for i in range(90)]+[np.random.randint(50,81) for i in range(10)]
y=[0 for i in range(90)]+[1 for i in range(10)]
x=pd.DataFrame({'x1':x1,'x2':x2})
y=pd.DataFrame(y)
# 查看所生成的样本类别分布,0和1样本比例9比1,属于类别不平衡数据
print(Counter(list(y[0])))
fig1=plt.figure(1)
plt.scatter(x['x1'],x['x2'])
plt.show
# 定义SMOTE模型,random_state相当于随机数种子的作用
smo = SMOTE(sampling_strategy='auto',random_state=10)
x_smo, y_smo = smo.fit_sample(x, y)
print(Counter(list(y_smo[0])))
fig2=plt.figure(2)
plt.scatter(x_smo['x1'],x_smo['x2'])
plt.show
结果
处理前
处理后
如果对你有帮助,请点下赞,予人玫瑰手有余香!
时时仰望天空,理想就会离现实越来越近!
python样本不均衡_使用Python中的smote处理正负样本之间的不平衡,python,实现,失衡,问题...相关推荐
- python两两组合_求数组中两两相加等于20的组合(Python实现)
题目 求数组中两两相加等于20的组合. 例:给定一个数组[1, 7, 17, 2, 6, 3, 14],这个数组中满足条件的有两对:17+3=20, 6+14=20. 解析 分为两个步骤: 先采用堆排 ...
- java与python多态的区别_如果未调用父构造函数(与Java不同),多态性在Python中如何工作? - java...
因此,父类构造函数是在Java中调用的,而在Python中则不是.如果这意味着未创建父对象,那么如何在Python中成功调用def function-这是怎么回事? Python代码 class Pa ...
- python百科全书_维基百科中的数据科学:手把手教你用Python读懂全球最大百科全书...
image 大数据文摘出品 编译:狗小白.李佳.张弛.魏子敏 没人否认,维基百科是现代最令人惊叹的人类发明之一. 几年前谁能想到,匿名贡献者们的义务工作竟创造出前所未有的巨大在线知识库?维基百科不仅是 ...
- python嵌入到程序_在应用中嵌入Python:转
前面的章节讨论如何扩展Python,如何生成适合的C库等.不过还有另一种情况:通过将Python嵌入C/C++应用以扩展程序的功能.Python嵌入实现了一些使用Python更合适的功能.这可以有很多 ...
- 以下选项中不是python数据类型的是_以下选项中,是Python数据类型的是()。
以下选项中,是Python数据类型的是(). 在Excel中,函数SUM(A1:A4)等价于()A:SUM(A1/A4)B:SUM(A1+A2+A3+A4)C:SUM(A1:A4)D:SUM(A1A2 ...
- python图片转文字_【收藏】图片转成文字的方法总结,python批量图片转文字信息参考源码...
在日常办公或者学习中,往往存在这样一个工作场景,比如,"老王,我这里有一张图片,你把里面的文字信息给我整理出来",都2021年了,你真的还在手敲图片文字信息么?那么还不赶紧收藏这篇 ...
- python需要的基础_推荐收藏!小白不要怕!一周学全Python面试基础(2)
Python是一个广泛的领域,因此有必要保持最新状态.通过列出30个python面试问题和答案,本文涵盖在Python面试中经常问到的问题.如果您是该行业的新手,本基础篇将极大地帮助您.我们衷心希望这 ...
- python汉字转到ascii码_python中ASCII码字符与int之间的转换方法
ASCII码转换为int:ord('A') 65 int转为ASCII码:chr(65) 'A' 题目内容: 实现一个凯撒密码的变种算法,对输入字符串进行加解密处理 把字母a-z分别循环对应为相距13 ...
- python面板数据分析代码_对于大面板数据,回归就绪格式的Excel到Python?
试图从Excel中获取一些大面板数据到python中,所以我可以做一些GMM /横截面面板数据回归分析(想想sci-kit软件包).我把我的数据从excel移到了Python,但是回归分析的格式不正确 ...
最新文章
- GitHub 的微服务架构设计与实践
- python哪一版好用-学习 Python 用哪本书好?
- 9. 混合模型和EM(1)
- Android 室内定位系列:1地图构建
- ad取消覆铜_【学院推荐】PCB工程师不得不看:超级实用AD常用快捷键总结
- BZOJ3130: [Sdoi2013]费用流[最大流 实数二分]
- 《全球互联网金融商业模式:格局与发展》——第3章,第3节互联网保险公司...
- python 相关系数函数会产生无穷大吗_python 求相关系数
- SpringBoot邮件服务
- Visual Studio 安装失败
- 前端 JavaScript 复制粘贴的奥义——Clipboard 对象概述
- php flock 使用实例
- 《软件开发这点事儿》作者邵志东老师视频发布
- 人脸识别的代码及问题
- 紫猫插件-网络共享数据(7-15)
- 功率因数 matlab,基于MATLAB的有源功率因数校正器设计
- step1:准备歌词之《前端开发是个啥》
- ZT:神秘的通道——三焦经
- Laravel多表连接,多个查询(Eloquent)
- Android 关闭屏幕方法
热门文章
- for循环中取出最大最小 累加_从零开始学Python - 第006课:循环结构
- Special Permutation CodeForces - 1352G(构造)
- 久等了,「阿里妈妈技术」来啦!
- 什么是长期存储在计算机外存上的有结构,数据库是长期存储在计算机主存内
- 8.Excel数据与指标概述
- 51822模拟ble广播-理论
- java 403怎么抛出_django主动抛出403异常的方法详解
- 从sqlserver中数据写入mysql_从SQL server数据库导入Mysql数据库的体验
- charles请求转发_用免费开源的frp实现内网穿透,使用nginx转发的方式去掉端口号...
- mysql suoyin 和锁_Mysql索引与锁