西瓜书+实战+吴恩达机器学习(三)机器学习基础(多分类、类别不平衡)
文章目录
- 0. 前言
- 1. 多分类学习
- 2. 类别不平衡
如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~
0. 前言
本篇介绍机器学习中的多分类和类别不平衡问题。
1. 多分类学习
一些算法可以直接进行多分类,而另一些算法则不行,基本思路是:将多分类任务拆为若干个二分类任务求解。
- 一对一(One vs. One, OvO):给定数据集,将NNN个类别两两配对,产生N(N−1)/2N(N-1)/2N(N−1)/2个二分类任务,最终结果通过投票产生
- 一对其余(One vs. Rest, OvR):给定数据集,每次将一个类作为正类,其余类作为反类,训练NNN个分类器,最终结果通过投票产生
- 多对多(Many vs. Many, MvM):给定数据集,每次将若干个类作为正类,若干个其他类作为反类,使用纠错输出码ECOC,对NNN个类别作MMM次划分,产生MMM个分类器,MMM个分类器对测试样例进行预测,预测结果组成一个编码,与NNN个类别的编码对比,距离最短的类别就是结果
在类别较少时,OvO的存储开销和测试时间开销通常比OvR更大。
在类别较多时,OvO的训练时间开销通常比OvR更小。
ECOC编码越长,纠错能力越强,计算、存储开销越大。对于同等长度的编码,任意两个类别之间的距离越远,纠错能力越强。
2. 类别不平衡
类别不平衡(class-imbalance)是指分类任务中不同类别的训练样例数目差别很大。
现有技术大体上有三类做法:
- 对数目多的类别欠采样:去除一些样例,使得正例、反例数目接近
- 对数目少的类别过采样:增加一些样例,使得正例、反例数目接近
- 阈值移动:直接对原始数据集进行学习,在决策时使用再缩放,y′1−y′=y1−y×m−m+>1\frac{y'}{1-y'}=\frac{y}{1-y}\times\frac{m^-}{m^+}>11−y′y′=1−yy×m+m−>1,则判断为正例,m+m^+m+表示正例数目,m−m^-m−表示反例数目
如果欠采样随机丢失样例,可能丢失一些重要信息。
如果过采样不能简单的进行重采样,可能会导致过拟合。
如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~
西瓜书+实战+吴恩达机器学习(三)机器学习基础(多分类、类别不平衡)相关推荐
- 西瓜书+实战+吴恩达机器学习(二)机器学习基础(偏差、方差、调试模型技巧)
文章目录 0. 前言 1. 偏差方差的解决方法 2. 高偏差高方差的学习曲线 3. 调试模型技巧 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言 泛化误差可分解为 ...
- 西瓜书+实战+吴恩达机器学习(二一)概率图模型之贝叶斯网络
文章目录 0. 前言 1. 贝叶斯网络结构 2. 近似推断 2.1. 吉布斯采样 3. 隐马尔可夫模型HMM 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言 概率 ...
- 西瓜书+实战+吴恩达机器学习(十五)无监督学习之关联分析(Apriori, FP-growth)
文章目录 0. 前言 1. Apriori算法 1.1. 寻找频繁项集 1.2. 挖掘关联规则 2. FP-growth算法 2.1. 构建FP树 2.2. 寻找频繁项集 如果这篇文章对你有一点小小的 ...
- 西瓜书+实战+吴恩达机器学习(十四)无监督学习之聚类(k-means, LVQ, 高斯混合聚类, DBSCAN, AGNES)
文章目录 0. 前言 1. 性能度量 1.1. 外部指标 1.2. 内部指标 2. 距离计算 3. k-means算法 4. 学习向量量化 5. 高斯混合聚类 6. 密度聚类 DBSCAN 7. 层次 ...
- 西瓜书+实战+吴恩达机器学习(七)监督学习之决策树 Decision Tree
文章目录 0. 前言 1. 划分选择 1.1. ID3决策树 1.2. C4.5决策树 1.3. CART决策树 2. 剪枝 3. 连续值处理 4. 缺失值处理 如果这篇文章对你有一点小小的帮助,请给 ...
- 西瓜书+实战+吴恩达机器学习(二二)概率图模型之马尔可夫随机场
文章目录 0. 前言 1. 马尔可夫随机场结构 2. 近似推断 2.1. Metropolis-Hastings 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言 ...
- 西瓜书+实战+吴恩达机器学习(十九)特征选择(过滤式选择、包裹式选择)
文章目录 0. 前言 1. 过滤式选择 2. 包裹式选择 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言 特征选择是一个很重要的数据预处理过程: 选择出重要的特征 ...
- 西瓜书+实战+吴恩达机器学习(十八)降维(主成分分析 PCA)
文章目录 0. 前言 1. 主成分分析PCA 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言 维数灾难:在高维情形下出现的数据样本稀疏.距离计算困难等问题. 缓解 ...
- 西瓜书+实战+吴恩达机器学习(十七)规则学习(序贯覆盖)
文章目录 0. 前言 1. 序贯覆盖 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 0. 前言 规则学习是从训练数据中学习出一组能用于对未见示例进行判别的规则. ⊕←f1∧ ...
最新文章
- mongodb内置角色
- dojo 官方翻译 dojo/_base/array 版本1.10
- vb fso方式访问网络上的共享文件夹_经常遇见的网络故障详细分析及解决方法!...
- Spring Data JPA 从入门到精通~查询结果的处理
- linux挂载查看、添加与取消
- 小议size_t和size_type
- linux日志2 1,cmd log 21 和 cmd 21 log的区别
- java逗号的转义字符是,Java是否有'@'字符来转义字符串引号?
- Spring学习笔记17--在XML中使用SPEL
- WPF中如何在文本外面加虚线外框
- 高通无线网卡驱动linux,ubuntu下安装Qualcomm Atheros QCA6174无线网卡驱动方法
- C# 对目录中的文件名按照数字序号进行排序
- 华为智慧屏 鸿蒙如何,抛开鸿蒙 华为智慧屏V65作为电视合格吗?
- nacos启动报错 Unable to start embedded Tomcat 以及项目链接nacos报错 server is DOWN now, please try again later!
- 寒假代练——英雄联盟
- 华为p50 pro 鸿蒙,华为P50Pro+鸿蒙系统!华为2021年上半年最期待的旗舰手机
- 计算机图形学--扫描线填充算法
- 模块化-CMJESM
- xpath常见错误:Opening and ending tag mismatch: meta line 4 的处理方法【Python爬虫】
- Linux 下常用工具