机器学习中难免遇到正负样本不平衡问题,处理办法通常有梁总,一:过采样,增加正样本数据;二:欠采样,减少负样本数据,缺点是会丢失一些重要信息。smote属于过采样。

代码

# from imblearn.over_sampling import BorderlineSMOTE

# from imblearn.over_sampling import SMOTENC

# from imblearn.over_sampling import SVMSMOTE

# from imblearn.over_sampling import KMeansSMOTE

# from imblearn.over_sampling import ADASYN

# from imblearn.over_sampling import RandomOverSampler

import pandas as pd

import numpy as np

from collections import Counter

from imblearn.over_sampling import SMOTE# 使用imlbearn库中上采样方法中的SMOTE接口

import matplotlib.pyplot as plt

# 生成一组0和1比例为9比1的样本,X为特征,y为对应的标签

x1=[np.random.randint(1,31) for i in range(90)]+[np.random.randint(50,81) for i in range(10)]

x2=[np.random.randint(1,31) for i in range(90)]+[np.random.randint(50,81) for i in range(10)]

y=[0 for i in range(90)]+[1 for i in range(10)]

x=pd.DataFrame({'x1':x1,'x2':x2})

y=pd.DataFrame(y)

# 查看所生成的样本类别分布,0和1样本比例9比1,属于类别不平衡数据

print(Counter(list(y[0])))

fig1=plt.figure(1)

plt.scatter(x['x1'],x['x2'])

plt.show

# 定义SMOTE模型,random_state相当于随机数种子的作用

smo = SMOTE(sampling_strategy='auto',random_state=10)

x_smo, y_smo = smo.fit_sample(x, y)

print(Counter(list(y_smo[0])))

fig2=plt.figure(2)

plt.scatter(x_smo['x1'],x_smo['x2'])

plt.show

结果

处理前

处理后

如果对你有帮助,请点下赞,予人玫瑰手有余香!

时时仰望天空,理想就会离现实越来越近!

python样本不均衡_使用Python中的smote处理正负样本之间的不平衡,python,实现,失衡,问题...相关推荐

  1. python两两组合_求数组中两两相加等于20的组合(Python实现)

    题目 求数组中两两相加等于20的组合. 例:给定一个数组[1, 7, 17, 2, 6, 3, 14],这个数组中满足条件的有两对:17+3=20, 6+14=20. 解析 分为两个步骤: 先采用堆排 ...

  2. java与python多态的区别_如果未调用父构造函数(与Java不同),多态性在Python中如何工作? - java...

    因此,父类构造函数是在Java中调用的,而在Python中则不是.如果这意味着未创建父对象,那么如何在Python中成功调用def function-这是怎么回事? Python代码 class Pa ...

  3. python百科全书_维基百科中的数据科学:手把手教你用Python读懂全球最大百科全书...

    image 大数据文摘出品 编译:狗小白.李佳.张弛.魏子敏 没人否认,维基百科是现代最令人惊叹的人类发明之一. 几年前谁能想到,匿名贡献者们的义务工作竟创造出前所未有的巨大在线知识库?维基百科不仅是 ...

  4. python嵌入到程序_在应用中嵌入Python:转

    前面的章节讨论如何扩展Python,如何生成适合的C库等.不过还有另一种情况:通过将Python嵌入C/C++应用以扩展程序的功能.Python嵌入实现了一些使用Python更合适的功能.这可以有很多 ...

  5. 以下选项中不是python数据类型的是_以下选项中,是Python数据类型的是()。

    以下选项中,是Python数据类型的是(). 在Excel中,函数SUM(A1:A4)等价于()A:SUM(A1/A4)B:SUM(A1+A2+A3+A4)C:SUM(A1:A4)D:SUM(A1A2 ...

  6. python图片转文字_【收藏】图片转成文字的方法总结,python批量图片转文字信息参考源码...

    在日常办公或者学习中,往往存在这样一个工作场景,比如,"老王,我这里有一张图片,你把里面的文字信息给我整理出来",都2021年了,你真的还在手敲图片文字信息么?那么还不赶紧收藏这篇 ...

  7. python需要的基础_推荐收藏!小白不要怕!一周学全Python面试基础(2)

    Python是一个广泛的领域,因此有必要保持最新状态.通过列出30个python面试问题和答案,本文涵盖在Python面试中经常问到的问题.如果您是该行业的新手,本基础篇将极大地帮助您.我们衷心希望这 ...

  8. python汉字转到ascii码_python中ASCII码字符与int之间的转换方法

    ASCII码转换为int:ord('A') 65 int转为ASCII码:chr(65) 'A' 题目内容: 实现一个凯撒密码的变种算法,对输入字符串进行加解密处理 把字母a-z分别循环对应为相距13 ...

  9. python面板数据分析代码_对于大面板数据,回归就绪格式的Excel到Python?

    试图从Excel中获取一些大面板数据到python中,所以我可以做一些GMM /横截面面板数据回归分析(想想sci-kit软件包).我把我的数据从excel移到了Python,但是回归分析的格式不正确 ...

最新文章

  1. GitHub 的微服务架构设计与实践
  2. python哪一版好用-学习 Python 用哪本书好?
  3. 9. 混合模型和EM(1)
  4. Android 室内定位系列:1地图构建
  5. ad取消覆铜_【学院推荐】PCB工程师不得不看:超级实用AD常用快捷键总结
  6. BZOJ3130: [Sdoi2013]费用流[最大流 实数二分]
  7. 《全球互联网金融商业模式:格局与发展》——第3章,第3节互联网保险公司...
  8. python 相关系数函数会产生无穷大吗_python 求相关系数
  9. SpringBoot邮件服务
  10. Visual Studio 安装失败
  11. 前端 JavaScript 复制粘贴的奥义——Clipboard 对象概述
  12. php flock 使用实例
  13. 《软件开发这点事儿》作者邵志东老师视频发布
  14. 人脸识别的代码及问题
  15. 紫猫插件-网络共享数据(7-15)
  16. 功率因数 matlab,基于MATLAB的有源功率因数校正器设计
  17. step1:准备歌词之《前端开发是个啥》
  18. ZT:神秘的通道——三焦经
  19. Laravel多表连接,多个查询(Eloquent)
  20. Android 关闭屏幕方法

热门文章

  1. for循环中取出最大最小 累加_从零开始学Python - 第006课:循环结构
  2. Special Permutation CodeForces - 1352G(构造)
  3. 久等了,「阿里妈妈技术」来啦!
  4. 什么是长期存储在计算机外存上的有结构,数据库是长期存储在计算机主存内
  5. 8.Excel数据与指标概述
  6. 51822模拟ble广播-理论
  7. java 403怎么抛出_django主动抛出403异常的方法详解
  8. 从sqlserver中数据写入mysql_从SQL server数据库导入Mysql数据库的体验
  9. charles请求转发_用免费开源的frp实现内网穿透,使用nginx转发的方式去掉端口号...
  10. mysql suoyin 和锁_Mysql索引与锁