线性分类

分类方式

硬分类

使用的是非概率模型,分类结果是决策函数的决策结果。

代表:线性判别分析、感知机

软分类

分类结果是属于不同类别的概率。

生成式

通过贝叶斯定理,使用MAP比较P(Y=0∣X)P(Y=0|X)P(Y=0∣X)和P(Y=1∣X)P(Y=1|X)P(Y=1∣X)的值。

代表:Gaussian Discriminant Analysis

判别式

直接对P(Y|X)进行学习。

代表:逻辑回归

多分类学习

一对一OvO

将K个类别两两配对,产生K(K-1)/2个二分类任务。存储开销和测试时间开销通常比OvR更大。

一对其余OvR

将一个类的样例作为正例,所有其他类的样例作为反例来训练N个分类器。在类别很多的时候,OvR的训练时间开销较大(每一次训练都是全量样本)。

多对多MvM

每次将若干个类作为正类,若干个其他类作为反类。

技术:纠错输出码ECOC。

过程:编码,对K个类别做p次划分,一共产生p个训练集,和p个分类器。解码,p个分类器分别对测试样本进行预测,预测标记组成一个编码。将编码与每个类别自己的编码比较,返回其中距离最小的类别。类别划分通过编码矩阵(二元码或者三元码)。

在测试阶段,ECOC编码对分类器的错误有一定的容忍和修正能力。一般来说,对同一个学习任务,编码越长,纠错能力越强(所训练的分类器越多)。

类别不平衡问题

基本策略就是再缩放。利用y′1−y′=y1−y∗m−m+\frac{y'}{1-y'} = \frac{y}{1-y}*\frac{m^-}{m^+}1−y′y′​=1−yy​∗m+m−​。

欠采样

代表有EasyEnsemble算法。将反例划分成若干个集合供不同学习器使用,在全局来看不会丢失重要信息。

过采样

代表有Smote算法。

阈值移动

将基本策略内嵌。

Reference

  • 《美团机器学习实践》by美团算法团队,第三章
  • 《机器学习》by周志华,第三、四章
  • 白板推导系列,shuhuai007

机器学习基础专题:分类相关推荐

  1. 机器学习基础专题:特征工程

    特征工程 特征提取 将原始数据转化为实向量之后,为了让模型更好地学习规律,对特征做进一步的变换.首先,要理解业务数据和业务逻辑. 其次,要理解模型和算法,清楚模型需要什么样的输入才能有精确的结果. 探 ...

  2. 机器学习基础专题:高斯混合模型和最大期望EM算法以及代码实现

    高斯混合模型 混合模型是潜变量模型的一种,是最常见的形式之一.而高斯混合模型(Gaussian Mixture Models, GMM)是混合模型中最常见的一种.zzz代表该数据点是由某一个高斯分布产 ...

  3. 机器学习基础专题:逻辑回归

    逻辑回归 广义线性模型. 原理 输入 训练集数据T=(x1,y1)...(xM,yM)T = {(x_1,y_1) ... (x_M,y_M)}T=(x1​,y1​)...(xM​,yM​),xi∈X ...

  4. 机器学习基础专题:感知机

    感知机 原理 思想是错误驱动.一开始赋予w一个初始值,通过计算被错误分类的样本不断移动分类边界. 输入 训练集数据D=(x1,y1)...(xM,yM)D = {(x_1,y_1) ... (x_M, ...

  5. 机器学习基础专题:线性判别器

    线性判别分析 全称是Linear Discriminant Analysis (LDA). 原理 给定训练样例集,通过降维的思路进行分类.将样例投影到一条直线上,使得同类样例的投影点接近,异类样例的投 ...

  6. 机器学习基础专题:样本选择

    样本选择 选择最少量的训练集S⊂\sub⊂完整训练集T,模型效果不会变差. 优势: 缩减模型计算时间 相关性太低的数据对解决问题没有帮助,直接剔除 去除噪声 数据去噪 噪声数据 特征值不对(缺失.超出 ...

  7. 机器学习基础专题:评估指标

    评估指标 线下使用机器学习评估指标,线上使用的是业务指标.需要进行多轮模型迭代使两个指标变化趋势相同. 分类指标 精确率和召回率 用于二分类问题,结合混淆矩阵. 精确率 P = TPTP+FP\fra ...

  8. 机器学习基础:分类vs回归

    经常看到这样的问题:"如何计算回归问题的准确度?"像这样的问题反映了没有真正理解分类和回归之间的区别,以及测量的准确度是什么. 这是分类和回归问题之间的一个重要区别.从根本上说,分 ...

  9. 机器学习基础专题:支持向量机SVM

    支持向量机 全称Support Vector Machine (SVM).可以分为硬间隔(hard margin SVM),软间隔(soft margin SVM),和核支持向量机(kernel ma ...

最新文章

  1. Python之Python 安装环境搭建
  2. python+OpenCV图像处理
  3. 【机器学习实战】意大利Covid-19病毒感染数学模型及预测
  4. 上班族的10大经典哲学,还有什么能难倒你?[轉自太平洋電腦網]
  5. 修改mongodb最大查询数_WebFlux系列(十二)MongoDB应用,新增、修改、查询、删除
  6. amd核芯显卡控制面板自定义分辨率_主流显卡的一位猛将:蓝宝石Radeon RX 5500XT显卡首测...
  7. python的继承用法_python之继承中组合用法与菱形继承关系查找法
  8. 2019创客中国智能融合应用中小企业创新创业大赛启动
  9. Hermite多项式(信息学奥赛一本通-T1165)
  10. python paramiko远程执行命令打开窗口_使用Paramiko在远程机器上通过sshClient()执行本地python脚本...
  11. node.js第十课(HTTPserver)
  12. oracle怎么把in值列出来,oracle – SELECT的解析和绑定变量.. WHERE列IN(..)查询
  13. 第一次用PHP做电影站 用thinkphp开发的!!
  14. 影响搜索引擎收录网站内容的四大原因分析
  15. Mangos导入AI的教学
  16. flashfxpFTP链接显示PASV、列表错误
  17. linux tar压缩文件命令,tar打包压缩文件命令
  18. Excel查询两列数字的重复值
  19. 最大团(最大完全子图)
  20. Rendezvous: A Search Engine for Binary Code

热门文章

  1. Checkly如何借助Terraform实现零宕机部署
  2. android SwipeRefreshLayout嵌套Webview滑动冲突问题解决
  3. 系统异常捕捉处理设计文档
  4. 第一节:网页概述 学习目标 怎样才能学好前端
  5. gulp + webpack 构建多页面前端项目
  6. INS-20802 PRVF-9802 PRVF-5184 PRVF-5186 After Successful Upgradeto 11gR2 Grid Infrastructure
  7. redis在PHP中的基本使用
  8. saltstack一些常用模块和api调用方法
  9. 酒桌游戏c语言,最受欢迎的12种酒桌游戏
  10. deepin 远程linux,在Deepin Linux操作系统中如何连接Microsoft OneDrive