Github|类别不平衡学习资源(下)
点击上方“算法猿的成长“,关注公众号,选择加“星标“或“置顶”
总第 139 篇文章,本文大约 3600 字,阅读大约需要 10 分钟
继续介绍类别不平衡学习资源,github 地址:
https://github.com/ZhiningLiu1998/awesome-imbalanced-learning
上篇文章地址:
Github|类别不平衡学习资源(上)
另外,完整版阅读可以到我的知乎专栏:https://zhuanlan.zhihu.com/p/142692473
这次介绍的是下面目录加粗的内容:
代码库/框架
Python
R
Java
Scalar
Julia
论文
综述
深度学习
数据重采样(Data resampling)
成本敏感学习(Cost-sensitive Learning)
集成学习(Ensemble Learning)
异常检测
其他
不平衡数据库
其他的资源
另外,带有???? 标记的是作者特别推荐的重要或者高质量的论文和框架。
数据重采样
过采样
ROS [Code] - 随机过采样
SMOTE [Code] (2002, 9800+ 引用) ,合成少数类的过采样技术(Synthetic Minority Over-sampling TEchnique)
???? 经典的工作
Borderline-SMOTE [Code] (2005, 1400+ 引用) ,边界合成少数类的过采样技术;
ADASYN [Code] (2008, 1100+ 引用) ,自适应合成采样(ADAptive SYNthetic Sampling);
SPIDER [Code (Java)] (2008, 150+ 引用) ,不平衡数据的选择性预处理;
Safe-Level-SMOTE [Code (Java)] (2009, 370+ 引用) ,安全级综合少数类的过采样技术;
SVM-SMOTE [Code] (2009, 120+ 引用) ,基于 SVM 的 SMOTE
SMOTE-IPF (2015, 180+ 引用) ,迭代分区过滤的 SMOTE
欠采样
RUS [Code],随机欠采样;
CNN [Code] (1968, 2100+ 引用) ,浓缩的最近邻(Condensed Nearest Neighbor);
ENN [Code] (1972, 1500+ citations) ,可编辑的浓缩的最近邻(Edited Condensed Nearest Neighbor);
TomekLink [Code] (1976, 870+ citations) ,Tomek 对浓缩的最近邻的修正方法;
NCR [Code] (2001, 500+ 引用) , 近邻的清洗规则;
NearMiss-1 & 2 & 3 [Code] (2003, 420+ 引用) ,几种解决不平衡数据分布的 KNN 方法
CNN with TomekLink [Code (Java)] (2004, 2000+ 引用) ,结合了浓缩的最近邻和 TomekLink 方法;
OSS [Code] (2007, 2100+ 引用):单边选择(One Side Selection);
EUS (2009, 290+ 引用) :进化的欠采样(Evolutionary Under-sampling);
IHT [Code] (2014, 130+ 引用) :实例难度阈值(Instance Hardness Threshold);
混合采样
SMOTE-Tomek & SMOTE-ENN (2004, 2000+ 引用) [Code (SMOTE-Tomek)] [Code (SMOTE-ENN)] ,综合少数过采样技术和 Tomek 对压缩近邻/编辑近邻的修改;
????广泛的实验评估涉及10种不同的过/欠采样方法。
SMOTE-RSB (2012, 210+ 引用) ,混合了使用 SMOTE 预处理和粗糙集合理论;
成本敏感学习
CSC4.5 [Code (Java)] (2002, 420+ 引用) ,一个实际加权方法来引起成本敏感树;
CSSVM [Code (Java)] (2008, 710+ 引用) ,用于高度不平衡分类的成本敏感 SVMs;
CSNN[Code (Java)] (2005, 950+ 引用) ,基于解决类别不平衡问题的方法来训练一个成本敏感的神经网络;
集成学习
Boosting-based
AdaBoost[Code] (1995, 18700+ 引用)
DataBoost (2004, 570+ 引用)
SMOTEBoost [Code] (2003, 1100+ 引用)
???? 经典的工作
MSMOTEBoost(2011, 1300+ 引用)
RAMOBoost [Code] (2010, 140+ 引用)
RUSBoost[Code] (2009, 850+ 引用)
???? 经典的工作
AdaBoostNC (2012, 350+ 引用)
EUSBoost (2013, 210+ 引用)
bagging-based
Bagging [Code] (1996, 23100+ 引用) ,Bagging 预测器;
OverBagging & UnderOverBagging & SMOTEBagging & MSMOTEBagging [Code (SMOTEBagging)] (2009, 290+ 引用) ,基于 Bagging 的随机过采样/随机混合重采样/ SMOTE / 修改版 SMOTE;
UnderBagging [Code] (2003, 170+ 引用) ,基于 Bagging 的随机欠采样;
其他继承方法
EasyEnsemble & BalanceCascade[Code (EasyEnsemble)] [Code (BalanceCascade)] (2008, 1300+ 引用) , 使用 RUS 进行并行集成训练(EasyEnsemble) / 使用 RUS 进行级联集成训练,同时迭代地删除分类很好的样本(BalanceCascade);
???? 简单但有效的方法
Self-paced Ensemble [Code] (ICDE 2020) ,用自适应协调分类困难训练不平衡数据的有效集成;
???? 高性能和计算效率高,广泛适用于不同的分类器。
异常检测
Anomaly Detection Learning Resources,异常检测相关的书籍、论文、视频和工具箱。
综述
Anomaly detection: A survey (2009, 7300+ 引用)
A survey of network anomaly detection techniques (2017, 210+ 引用)
基于分类
One-class SVMs for document classification (2001, 1300+ 引用)
One-class Collaborative Filtering (2008, 830+ 引用)
Isolation Forest (2008, 1000+ 引用)
Anomaly Detection using One-Class Neural Networks (2018, 70+ 引用)
Anomaly Detection with Robust Deep Autoencoders (KDD 2017, 170+ 引用)
其他
不平衡数据集
上述数据集的集合来自 imblearn.datasets.fetch_datasets
其他资源
Paper-list-on-Imbalanced-Time-series-Classification-with-Deep-Learning
acm_imbalanced_learning ,2016年4月27日在德克萨斯州奥斯汀市举行的ACM不平衡学习讲座的幻灯片和代码;
imbalanced-algorithms ,基于python实现的算法学习不平衡的数据;
imbalanced-dataset-sampler ,一种(PyTorch)非平衡数据集采样器,用于过采样低频率类和欠采样高频率类;
class_imbalance ,通过 Jupyter Notebook 展示的二进制分类的类别不平衡;
最后,github 地址是:
https://github.com/ZhiningLiu1998/awesome-imbalanced-learning
另外,本人水平有限,所以对部分专业术语的翻译可能并不正确,没法做到非常完美,请多多包涵,谢谢!
最后,如果想查看完整版,以及可以点击论文或者代码链接的,可以查看我发表在知乎上的文章:
https://zhuanlan.zhihu.com/p/142692473
精选AI文章
1. 2020年计算机视觉学习指南
2. 是选择Keras还是PyTorch开始你的深度学习之旅呢?
3. 编写高效的PyTorch代码技巧(上)
4. 编写高效的PyTorch代码技巧(下)
5. 深度学习算法简要综述(上)
6. 深度学习算法简要综述(下)
7. 10个实用的机器学习建议
8. 实战|手把手教你训练一个基于Keras的多标签图像分类器
精选python文章
1. python数据模型
2. python版代码整洁之道
3. 快速入门 Jupyter notebook
4. Jupyter 进阶教程
5. 10个高效的pandas技巧
精选教程资源文章
1. [资源分享] TensorFlow 官方中文版教程来了
2. [资源]推荐一些Python书籍和教程,入门和进阶的都有!
3. [Github项目推荐] 推荐三个助你更好利用Github的工具
4. Github上的各大高校资料以及国外公开课视频
5. GitHub上有哪些比较好的计算机视觉/机器视觉的项目?
欢迎关注我的微信公众号--算法猿的成长,或者扫描下方的二维码,大家一起交流,学习和进步!
如果觉得不错,在看、转发就是对小编的一个支持!
Github|类别不平衡学习资源(下)相关推荐
- Github|类别不平衡学习资源(上)
点击上方"算法猿的成长",关注公众号,选择加"星标"或"置顶" 总第 138 篇文章,本文大约 5400 字,阅读大约需要 15 分钟 今天 ...
- 深度学习分类类别不平衡_Github|类别不平衡学习资源(上)
今天推荐的是一个 github 项目,项目地址如下,主要是类别不平衡学习的论文.代码.框架.库等资源 https://github.com/ZhiningLiu1998/awesome-imbalan ...
- 深入理解机器学习——类别不平衡学习(Imbalanced Learning):性能评价测度
相关文章: · 机器学习模型的性能度量 性能评价测度是用于评价分类模型"好坏"的一种量度.对于绝大多数了解分类问题的读者来讲,可能接触最多的一种性能评价测度就是分类准确率(Accu ...
- 深入理解机器学习——类别不平衡学习(Imbalanced Learning):基础知识
分类目录:<深入理解机器学习>总目录 传统的分类技术通常存在一个致命缺陷,即当其在样本分布不均衡的数据上训练时(如:采用99个健康人和1个病人的体检指标创建疾病诊断模型或99990个正常数 ...
- 深入理解机器学习——类别不平衡学习(Imbalanced Learning):影响因素
从<类别不平衡分布对传统分类器性能的影响机理>文章可以看出,类别不平衡分布是会对各种传统分类算法的性能产生负面影响的.然而,这种负面影响的大小却与很多因素有关,本文和大家探讨这些影响因素. ...
- 深入理解机器学习——类别不平衡学习(Imbalanced Learning):应用领域
类别不平衡学习技术并不仅仅停留在理论上,在很多现实世界的应用领域中,都会用到此类技术.其应用领域包括但不限于以下几方面. 网络入侵检测 目前,随着互联网产业的快速发展,人类的日常生活和网络的联系也变得 ...
- 类别不平衡学习:论文/代码/框架/库
作者:ZhiningLiu1998 编译:CV君 今天向大家介绍一个跟踪不平衡学习问题的Github资源仓库,文末附其中 7 篇相关综述论文下载. Github地址: https://github.c ...
- 多类别不平衡分类-解决方案:概述【集成学习、数据重采样、深度学习(元学习)、异常检测】
类别不平衡(又称长尾问题)是指在分类问题中,类别之间的表示质量/样本数量不平等. 类别不平衡在实践中广泛存在,例如金融欺诈检测.入侵检测.医疗辅助诊断等罕见模式识别任务. 类的不平衡往往会导致传统机 ...
- 机器学习-类别不平衡问题
引言:我们假设有这种情况,训练数据有反例998个,正例2个,模型是一个永远将新样本预测为反例的学习器,就能达到99.8%的精度,这样显然是不合理的. 类别不平衡:分类任务中不同类别的训练样例数差别很大 ...
最新文章
- JFinal 源码导读第二天(2)configPlugin,configRoute
- 组合搜索(combinatorial search)在算法求解中的应用
- 实现数据库的增删改查
- 卡农 matlab,matlab 编的卡农
- 【Linux】centos7安装bcp报错
- 随机抽样之蓄水池算法
- java面向对象实现表达式计算,java面向对象课程设计-数学表达式计算器
- FLEX中restrict限定TextInput输入
- logstash zip linux安装,centos7.4安装测试logstash6.5.0
- “两步路·户外助手”谷歌类图源
- 【已解决】离散数学项目工序表转换为网络图(完整步骤版)
- 网上书店管理系统mysql代码_网上书店管理系统数据库 sql sever
- leapftp怎么用,掌握leapftp的使用方法只需6步
- CSS——网易云音乐之登录页面的实现
- Java并发编程:volatile关键字解析 by 海子
- R mean() 函数 - 计算平均值
- 从千牛产品策略看电商客服接待场景
- 导数,偏导数,方向导数与梯度的定义与联系
- xp任务栏不显示任务 vbs脚本
- http协议学习系列
热门文章
- java nginx 例子_Java及nginx实现文件权限控制代码实例
- oracle数据库连接数超了,oracle数据库当前和最大连接数
- kkt条件的matlab仿真,请教关于SVM中KKT条件的推导
- 地址栏 输入 参数 刷新参数丢失_小米11 Pro屏幕参数曝光:2K屏幕+120Hz刷新率
- macos sierra 引导镜像_真想不到,在win10上可以制作苹果macOS启动U盘
- 尼康d850相机参数测试软件,尼康 - D850 - 产品介绍
- mysql dump 1017_MySQL数据库导出 - Can't Wait Any Longer - OSCHINA - 中文开源技术交流社区...
- 一张图看懂encodeURI、encodeURIComponent、decodeURI、decodeURIComponent的区别
- VS2010删除所有断点时不弹出提示窗口
- [react] 使用React的memo和forwardRef包装的组件为什么提示children类型不对?