机器学习基础专题:分类
线性分类
分类方式
硬分类
使用的是非概率模型,分类结果是决策函数的决策结果。
代表:线性判别分析、感知机
软分类
分类结果是属于不同类别的概率。
生成式
通过贝叶斯定理,使用MAP比较P(Y=0∣X)P(Y=0|X)P(Y=0∣X)和P(Y=1∣X)P(Y=1|X)P(Y=1∣X)的值。
代表:Gaussian Discriminant Analysis
判别式
直接对P(Y|X)进行学习。
代表:逻辑回归
多分类学习
一对一OvO
将K个类别两两配对,产生K(K-1)/2个二分类任务。存储开销和测试时间开销通常比OvR更大。
一对其余OvR
将一个类的样例作为正例,所有其他类的样例作为反例来训练N个分类器。在类别很多的时候,OvR的训练时间开销较大(每一次训练都是全量样本)。
多对多MvM
每次将若干个类作为正类,若干个其他类作为反类。
技术:纠错输出码ECOC。
过程:编码,对K个类别做p次划分,一共产生p个训练集,和p个分类器。解码,p个分类器分别对测试样本进行预测,预测标记组成一个编码。将编码与每个类别自己的编码比较,返回其中距离最小的类别。类别划分通过编码矩阵(二元码或者三元码)。
在测试阶段,ECOC编码对分类器的错误有一定的容忍和修正能力。一般来说,对同一个学习任务,编码越长,纠错能力越强(所训练的分类器越多)。
类别不平衡问题
基本策略就是再缩放。利用y′1−y′=y1−y∗m−m+\frac{y'}{1-y'} = \frac{y}{1-y}*\frac{m^-}{m^+}1−y′y′=1−yy∗m+m−。
欠采样
代表有EasyEnsemble算法。将反例划分成若干个集合供不同学习器使用,在全局来看不会丢失重要信息。
过采样
代表有Smote算法。
阈值移动
将基本策略内嵌。
Reference
- 《美团机器学习实践》by美团算法团队,第三章
- 《机器学习》by周志华,第三、四章
- 白板推导系列,shuhuai007
机器学习基础专题:分类相关推荐
- 机器学习基础专题:特征工程
特征工程 特征提取 将原始数据转化为实向量之后,为了让模型更好地学习规律,对特征做进一步的变换.首先,要理解业务数据和业务逻辑. 其次,要理解模型和算法,清楚模型需要什么样的输入才能有精确的结果. 探 ...
- 机器学习基础专题:高斯混合模型和最大期望EM算法以及代码实现
高斯混合模型 混合模型是潜变量模型的一种,是最常见的形式之一.而高斯混合模型(Gaussian Mixture Models, GMM)是混合模型中最常见的一种.zzz代表该数据点是由某一个高斯分布产 ...
- 机器学习基础专题:逻辑回归
逻辑回归 广义线性模型. 原理 输入 训练集数据T=(x1,y1)...(xM,yM)T = {(x_1,y_1) ... (x_M,y_M)}T=(x1,y1)...(xM,yM),xi∈X ...
- 机器学习基础专题:感知机
感知机 原理 思想是错误驱动.一开始赋予w一个初始值,通过计算被错误分类的样本不断移动分类边界. 输入 训练集数据D=(x1,y1)...(xM,yM)D = {(x_1,y_1) ... (x_M, ...
- 机器学习基础专题:线性判别器
线性判别分析 全称是Linear Discriminant Analysis (LDA). 原理 给定训练样例集,通过降维的思路进行分类.将样例投影到一条直线上,使得同类样例的投影点接近,异类样例的投 ...
- 机器学习基础专题:样本选择
样本选择 选择最少量的训练集S⊂\sub⊂完整训练集T,模型效果不会变差. 优势: 缩减模型计算时间 相关性太低的数据对解决问题没有帮助,直接剔除 去除噪声 数据去噪 噪声数据 特征值不对(缺失.超出 ...
- 机器学习基础专题:评估指标
评估指标 线下使用机器学习评估指标,线上使用的是业务指标.需要进行多轮模型迭代使两个指标变化趋势相同. 分类指标 精确率和召回率 用于二分类问题,结合混淆矩阵. 精确率 P = TPTP+FP\fra ...
- 机器学习基础:分类vs回归
经常看到这样的问题:"如何计算回归问题的准确度?"像这样的问题反映了没有真正理解分类和回归之间的区别,以及测量的准确度是什么. 这是分类和回归问题之间的一个重要区别.从根本上说,分 ...
- 机器学习基础专题:支持向量机SVM
支持向量机 全称Support Vector Machine (SVM).可以分为硬间隔(hard margin SVM),软间隔(soft margin SVM),和核支持向量机(kernel ma ...
最新文章
- Python之Python 安装环境搭建
- python+OpenCV图像处理
- 【机器学习实战】意大利Covid-19病毒感染数学模型及预测
- 上班族的10大经典哲学,还有什么能难倒你?[轉自太平洋電腦網]
- 修改mongodb最大查询数_WebFlux系列(十二)MongoDB应用,新增、修改、查询、删除
- amd核芯显卡控制面板自定义分辨率_主流显卡的一位猛将:蓝宝石Radeon RX 5500XT显卡首测...
- python的继承用法_python之继承中组合用法与菱形继承关系查找法
- 2019创客中国智能融合应用中小企业创新创业大赛启动
- Hermite多项式(信息学奥赛一本通-T1165)
- python paramiko远程执行命令打开窗口_使用Paramiko在远程机器上通过sshClient()执行本地python脚本...
- node.js第十课(HTTPserver)
- oracle怎么把in值列出来,oracle – SELECT的解析和绑定变量.. WHERE列IN(..)查询
- 第一次用PHP做电影站 用thinkphp开发的!!
- 影响搜索引擎收录网站内容的四大原因分析
- Mangos导入AI的教学
- flashfxpFTP链接显示PASV、列表错误
- linux tar压缩文件命令,tar打包压缩文件命令
- Excel查询两列数字的重复值
- 最大团(最大完全子图)
- Rendezvous: A Search Engine for Binary Code
热门文章
- Checkly如何借助Terraform实现零宕机部署
- android SwipeRefreshLayout嵌套Webview滑动冲突问题解决
- 系统异常捕捉处理设计文档
- 第一节:网页概述 学习目标 怎样才能学好前端
- gulp + webpack 构建多页面前端项目
- INS-20802 PRVF-9802 PRVF-5184 PRVF-5186 After Successful Upgradeto 11gR2 Grid Infrastructure
- redis在PHP中的基本使用
- saltstack一些常用模块和api调用方法
- 酒桌游戏c语言,最受欢迎的12种酒桌游戏
- deepin 远程linux,在Deepin Linux操作系统中如何连接Microsoft OneDrive