Machine Learning——Linear Model
本系列博客是我学习周志华的《机器学习(西瓜书)》的自学笔记。
我是零基础学习,因此所写只是书上的知识,肯定不全面,以后随着学习的深入,慢慢补充吧。
基本形式
- 给定由ddd个属性描述的示例x=(x1;x2;⋯;xd)x=(x_1;x_2;\cdots;x_d)x=(x1;x2;⋯;xd),其中xix_ixi是xxx在第iii个属性上的取值,线性模型(linearmodel)(linear model)(linearmodel)试图学得一个通过属性的线性组合来进行预测的函数,即f(x)=w1x1+w2x2+⋯+wdxd+b,f(x)=w_1x_1+w_2x_2+\cdots+w_dx_d+b,f(x)=w1x1+w2x2+⋯+wdxd+b,一般用向量形式写成f(x)=wTx+b,f(x)=w^Tx+b,f(x)=wTx+b,其中w=(w1;w2;⋯;wd)w=(w_1;w_2;\cdots;w_d)w=(w1;w2;⋯;wd),即为xxx的权重,www和bbb学得之后,模型就得以确定.
Linear Regression(线性回归)
- 给定数据集D={(x1,y1),(x2,y2),⋯,(xm,ym)}D=\lbrace{(x_1,y_1),(x_2,y_2),\cdots,(x_m,y_m)}\rbraceD={(x1,y1),(x2,y2),⋯,(xm,ym)},其中xi=(xi1;xi2;⋯;xid),yi∈R.x_i=(x_{i1};x_{i2};\cdots;x_{id}),y_i \in R.xi=(xi1;xi2;⋯;xid),yi∈R.
- 线性回归(linear regression)试图学得一个线性模型以尽可能准确地预测实值输出标记。
- xix_ixi即为属性,对于离散属性:
- 若属性值之间存在“序”(order)关系,可以通过连续化将其转化为连续值。比如“高”、“矮”转化为{1.0,0.0};“高”、“中”、“低”可以转化为{1.0,0.5,0.0}.
- 若属性间不存在序关系,假定有kkk个属性值,则通常转化为kkk维向量。比如“西瓜”、“南瓜”、“黄瓜”转化为(0,0,1),(0,1,0),(1,0,0).
- 线性回归试图学得f(xi)=wxi+b,使得f(xi)≃yi.f(x_i)=wx_i+b,使得f(x_i)\simeq y_i.f(xi)=wxi+b,使得f(xi)≃yi.
- 为了确定www和bbb,我们引入损失函数(Loss Function) 的概念。损失函数有很多种,在回归任务中最常用均方误差(也称为平方损失square loss) 这一性能度量。
- 台湾大学的李宏毅老师称之为损失函数(Loss Function),斯坦福的吴恩达老师称之为代价函数(Cost Function),我的理解就是,所谓的损失函数指的就是模型的误差,让误差最小,就是让损失函数取最小值。
- 因此,我们需要让均方误差最小化,即(w∗,b∗)=arg min(w,b)∑i=1m(f(xi)−yi)2=arg min(w,b)∑i=1m(yi−wxi−b)2.(w^*,b^*)=\argmin_{(w,b)}\sum_{i=1}^m(f(x_i)-y_i)^2=\argmin_{(w,b)}\sum_{i=1}^m(y_i-wx_i-b)^2.(w∗,b∗)=(w,b)argmini=1∑m(f(xi)−yi)2=(w,b)argmini=1∑m(yi−wxi−b)2.
- 均方误差对应了常用的欧几里得距离或简称欧氏距离(Euclidean distance)。
- 基于均方误差最小化来进行模型求解的方法称为最小二乘法(least square method)。
- 在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧氏距离之和最小。
- 求解www和bbb使E(w,b)=∑i=1m(yi−wxi−b)2E_{(w,b)}=\sum_{i=1}^m(y_i-wx_i-b)^2E(w,b)=∑i=1m(yi−wxi−b)2最小化的过程,称为线性回归模型的最小二乘“参数估计”(parameter estimation).
- 我们将E(w,b)E_{(w,b)}E(w,b)分别对www和bbb求导,得到∂E(w,b)∂w=2(w∑i=1mxi2−∑i=1m(yi−b)xi),\frac {\partial E_{(w,b)}}{\partial w}=2\bigg( w\sum_{i=1}^m x_i^2-\sum_{i=1}^m(y_i-b)x_i \bigg),∂w∂E(w,b)=2(wi=1∑mxi2−i=1∑m(yi−b)xi), ∂E(w,b)∂b=2(mb−∑i=1m(yi−wxi)),\frac {\partial E_{(w,b)}}{\partial b}=2\bigg( mb-\sum_{i=1}^m(y_i-wx_i) \bigg),∂b∂E(w,b)=2(mb−i=1∑m(yi−wxi)),然后令上述两式为零,可得www和bbb最优解的闭式(closed-form)解:w=∑i=1myi(xi−xˉ)∑i=1mxi2−1m(∑i=1mxi)2,w=\frac {\sum_{i=1}^m y_i(x_i-\bar x)}{\sum_{i=1}^m x_i^2-\frac {1}{m}\bigg( \sum_{i=1}^m x_i \bigg)^2},w=∑i=1mxi2−m1(∑i=1mxi)2∑i=1myi(xi−xˉ), b=1m∑i=1m(yi−wxi),b=\frac {1}{m} \sum_{i=1}^m(y_i-wx_i),b=m1i=1∑m(yi−wxi),其中xˉ=1m∑i=1mxi\bar x=\frac {1}{m} \sum_{i=1}^m x_ixˉ=m1∑i=1mxi为xxx的均值.
- 当样本由ddd个属性描述,此时我们试图学得f(xi)=wTxi+b,使得f(xi)≃yi,f(x_i)=w^Tx_i+b,使得f(x_i)\simeq y_i,f(xi)=wTxi+b,使得f(xi)≃yi,这称为多元线性回归(multivariate linear regression).此时的“多元”指的是样本属性。
- 对于多元线性回归,我们把数据集DDD表示为一个m×(d+1)m×(d+1)m×(d+1)大小的矩阵XXX,其中每行对应一个示例,该行前ddd个元素对应于示例的ddd个属性值,最后一个元素恒置为1,即X=[x11x12⋯x1d1x21x22⋯x2d1⋮⋮⋱⋮xm1xm2⋯xmd1]=[x1T1x2T1⋮⋮xmT1]X=\begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1d} & 1 \\ x_{21} & x_{22} & \cdots & x_{2d} & 1 \\ \vdots & \vdots & \ddots & \vdots \\ x_{m1} & x_{m2} & \cdots & x_{md} & 1 \\ \end{bmatrix}=\begin{bmatrix} x_1^T & 1\\ x_2^T & 1\\ \vdots & \vdots\\ x_m^T & 1 \end{bmatrix}X=⎣⎢⎢⎢⎡x11x21⋮xm1x12x22⋮xm2⋯⋯⋱⋯x1dx2d⋮xmd111⎦⎥⎥⎥⎤=⎣⎢⎢⎢⎡x1Tx2T⋮xmT11⋮1⎦⎥⎥⎥⎤把www和bbb吸收入向量的形式w^=(w;b)\hat w=(w;b)w^=(w;b),把yyy也写成向量形式y=(y1;y2;⋯;ym)y=(y_1;y_2;\cdots;y_m)y=(y1;y2;⋯;ym),有w^2=arg minw^(y−Xw^)T(y−Xw^){\hat w}^2=\argmin_{\hat w}(y-X\hat w)^T(y-X \hat w)w^2=w^argmin(y−Xw^)T(y−Xw^)令Ew^=(y−Xw^)T(y−Xw^)E_{\hat w}=(y-X\hat w)^T(y-X \hat w)Ew^=(y−Xw^)T(y−Xw^),对w^\hat ww^求导得到∂Ew^∂w^=2XT(Xw^−y).\frac {\partial E_{\hat w}}{\partial \hat w}=2X^T(X\hat w-y).∂w^∂Ew^=2XT(Xw^−y).令上式为零可得w^\hat ww^最优解的闭式解。
- 由于上式涉及到矩阵逆的计算,我们需要讨论:
- 当XTXX^TXXTX为满秩矩阵(full-rank matrix)或正定矩阵(positive definite matrix)时,令∂Ew^∂w^\frac {\partial E_{\hat w}}{\partial \hat w}∂w^∂Ew^为零可得w^∗=(XTX)−1XTy,{\hat w}^*=(X^TX)^{-1}X^Ty,w^∗=(XTX)−1XTy,令xi^=(xi,1)\hat {x_i}=(x_i,1)xi^=(xi,1),则最终学得的多元线性回归模型为f(xi^)=xi^T(XTX)−1XTy.f(\hat {x_i})={\hat {x_i}}^T(X^TX)^{-1}X^Ty.f(xi^)=xi^T(XTX)−1XTy.
- 现实任务中,XTXX^TXXTX一般不是满秩矩阵。此时可解出多个w^\hat ww^,它们都能使均方误差最小化。然后根据学习算法的偏好决定,将选择哪一个解输出,常见的作法是引入正则化项(regularization)。
- 对数线性回归(log-linear regression):
- 当我们希望线性模型的预测值逼近真实标记yyy时,我们把线性回归模型简写为y=wTx+b.y=w^Tx+b.y=wTx+b.
- 假设上式多对应的输出标记是在指数尺度上变化,那就可以将输出标记的对数作为线性模型逼近的目标,即lny=wTx+b.\ln y=w^Tx+b.lny=wTx+b.
- 实际上是在试图让ewTx+be^{w^Tx+b}ewTx+b逼近yyy。
- 广义线性模型(generalized linear model):
- 考虑单调可微函数g(⋅)g(\cdot)g(⋅),令y=g−1(wTx+b),y=g^{-1}(w^Tx+b),y=g−1(wTx+b),其中函数g(⋅)g(\cdot)g(⋅)称为“联系函数”(link function)。
- 显然,对数线性回归是广义线性模型在g(⋅)=ln(⋅)g(\cdot)=ln(\cdot)g(⋅)=ln(⋅)时的特例。
Logistic Regression(对数几率回归)
- 应用于二分类任务。
- 对于二分类任务,输出标记y∈{0,1}y \in \lbrace{0,1}\rbracey∈{0,1},而线性回归产生的预测值z=wTx+bz=w^Tx+bz=wTx+b是实数值,因此,我们需要将实数值转换为0/1值。最理想的是单位跃阶函数(unit-step function):y={0,z<00.5,z=01,z>0y=\begin{cases} 0, \space \space \space \space \space z<0\\ 0.5, \space \space z=0\\ 1, \space \space \space \space \space z>0 \end{cases}y=⎩⎪⎨⎪⎧0, z<00.5, z=01, z>0
- 但是单位跃阶函数不连续,因此,我们需要找到一个近似单位跃阶函数的替代函数(surrogate function),并且是单调可微函数。
- 近似单位跃阶函数的替代函数,我们选择对数几率函数(logistic function):y=11+e−zy=\frac {1}{1+e^{-z}}y=1+e−z1
- 下图显示 单位跃阶函数 和 对数几率函数 的图像:
- 根据图像可知,对数几率函数是一种Sigmoid函数(形似SSS的函数),它将zzz值转换为接近000或111的yyy值,并且其输出值在z=0z=0z=0附近变化很陡。
- 因为y=g−1(wTx+b)y=g^{-1}(w^Tx+b)y=g−1(wTx+b),即g(y)g(y)g(y),将对数几率函数作为g(⋅)g(\cdot)g(⋅)带入得:y=11+e−(wTx+b)y=\frac {1}{1+e^{-(w^Tx+b)}}y=1+e−(wTx+b)1变化得:lny1−y=wTx+b\ln {\frac {y}{1-y}}=w^Tx+bln1−yy=wTx+b
- 若将yyy视为样本xxx作为正例的可能性,则1−y1-y1−y即作为反例的可能性,则二者的比值y1−y\frac {y}{1-y}1−yy称为几率(odds),反映xxx作为正例的相对可能性。对几率取对数,则得到对数几率(log odds,logit):lny1−y.\ln {\frac {y}{1-y}}.ln1−yy.
- 对数几率回归的优点:
- 直接对分类可能性进行建模,无需事先建设数据分布,从而避免假设分布不准确所带来的问题。
- 可以得到近似概率预测,对许多需利用概率辅助决策的任务很有用。
- 对率函数是任意阶可导的凸函数,有很好的数学性质,现有的许多数值优化算法都可直接用于求取最优解。
- 求解y=11+e−(wTx+b)y=\frac {1}{1+e^{-(w^Tx+b)}}y=1+e−(wTx+b)1的www和bbb:
- 若将式y=11+e−(wTx+b)y=\frac {1}{1+e^{-(w^Tx+b)}}y=1+e−(wTx+b)1中的yyy视为类后验概率估计p(y=1∣x)p(y=1|x)p(y=1∣x),则式lny1−y=wTx+b\ln {\frac {y}{1-y}}=w^Tx+bln1−yy=wTx+b可被重写为:lnp(y=1∣x)p(y=0∣x)=wTx+b\ln {\frac {p(y=1|x)}{p(y=0|x)}}=w^Tx+blnp(y=0∣x)p(y=1∣x)=wTx+b
- 显然有:p(y=1∣x)=ewTx+b1+ewTx+b,(1)p(y=1|x)=\frac {e^{w^Tx+b}}{1+e^{w^Tx+b}},\space \space \space \space \space \space \space \space \space \space \space \space \space \space \space (1)p(y=1∣x)=1+ewTx+bewTx+b, (1) p(y=0∣x)=11+ewTx+b.(2)p(y=0|x)=\frac {1}{1+e^{w^Tx+b}}.\space \space \space \space \space \space \space \space \space \space \space \space \space \space \space (2)p(y=0∣x)=1+ewTx+b1. (2)
- 于是,我们可以通过极大似然法(maximum likelihood method)来估计www和bbb.给定数据集{(xi,yi)i=1m}\lbrace{(x_i,y_i)}_{i=1}^m\rbrace{(xi,yi)i=1m},对率回归模型最大化对数似然(log-likelihood):ℓ(w,b)=∑i=1mlnp(yi∣xi;w,b),(3)\ell(w,b)=\sum_{i=1}^m\ln {p(y_i|x_i;w,b)},\space \space \space \space \space \space \space \space \space \space \space \space \space \space \space (3)ℓ(w,b)=i=1∑mlnp(yi∣xi;w,b), (3)即令每个样本属于其真实标记的概率越大越好。
- 为了便于讨论,,令β=(w;b),x^=(x;1)\beta=(w;b),\hat x=(x;1)β=(w;b),x^=(x;1),则wTx+bw^Tx+bwTx+b可以简写为βTx^\beta^T \hat xβTx^,再令p1(x^;β)=p(y=1∣x^;β),p0(x^;β)=p(y=0∣x^;β)=1−p1(x^;β)p_1(\hat x;\beta)=p(y=1|\hat x;\beta),p_0(\hat x;\beta)=p(y=0|\hat x;\beta)=1-p_1(\hat x;\beta)p1(x^;β)=p(y=1∣x^;β),p0(x^;β)=p(y=0∣x^;β)=1−p1(x^;β),则上式中的似然项可重写为:p(yi∣xi;w,b)=yip1(xi^;β)+(1−yi)p0(xi^;β)(4)p(y_i|x_i;w,b)=y_ip_1(\hat {x_i};\beta)+(1-y_i)p_0(\hat {x_i};\beta)\space \space \space \space \space \space \space \space \space \space \space \space \space \space \space (4)p(yi∣xi;w,b)=yip1(xi^;β)+(1−yi)p0(xi^;β) (4)
- 将(4)带入(3),再根据(1)和(2)可知,最大化式(3)等价于最小化:ℓ(−β)=∑i=1m(−yiβTxi^+ln(1+eβTxi^)).\ell (-\beta)=\sum_{i=1}^m\bigg(-y_i\beta^T \hat{x_i}+\ln {(1+e^{\beta^T \hat {x_i}})}\bigg).ℓ(−β)=i=1∑m(−yiβTxi^+ln(1+eβTxi^)).上式是关于β\betaβ的高阶可导连续凸函数,根据凸优化理论,经典的数值优化算法如梯度下降法、牛顿法等都可求得其最优解,于是就得到:β∗arg minβl(β)\beta^*\argmin_{\beta}l(\beta)β∗βargminl(β)
线性判断分析(LDA)
- 线性判断分析(Linear Discriminant Analysis,简称LDA)是一种经典的线性学习方法,在二分类问题上,最早由Fisher提出,也称之为Fisher判别分析。
- LDA思想:
- 给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;
- 在对新鲜本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新鲜本的类别。
- 下图是二位示意图:
- 给定数据集D={(xi,yi)}i=1m,yi∈{0,1}D=\lbrace{(x_i,y_i)}\rbrace_{i=1}^m,y_i \in {\lbrace{0,1}\rbrace}D={(xi,yi)}i=1m,yi∈{0,1},令Xi、μi、ΣiX_i、\mu_i、\Sigma_iXi、μi、Σi分别表示第i∈{0,1}i \in {\lbrace{0,1}\rbrace}i∈{0,1}类示例的集合、均值向量、协方差矩阵。
- 若将数据投影到直线www上,则两类样本的中心在直线上的投影分别为wTΣ0ww^T\Sigma_0wwTΣ0w和wTΣ1w.w^T\Sigma_1w.wTΣ1w.
- 由于直线是一维空间,因此wTμ0、wTμ1、wTΣ0w和wTΣ1ww^T\mu_0、w^T\mu_1、w^T\Sigma_0w和w^T\Sigma_1wwTμ0、wTμ1、wTΣ0w和wTΣ1w均为实数.
- 想要使同类样例的投影点尽可能接近,可以让同类样例投影点的协方差尽可能小,即wTΣ0w+wTΣ1ww^T\Sigma_0w+w^T\Sigma_1wwTΣ0w+wTΣ1w尽可能小;
- 想要使异类样例的投影点尽可能远离,可以让类中心之间的距离尽可能大,即∣∣wTμ0−wTμ1∣∣22||w^T\mu_0-w^T\mu_1||_2^2∣∣wTμ0−wTμ1∣∣22尽可能大.
- 同时考虑,以上两者,则可得到欲最大化的目标::J=∣∣wTμ0−wTμ1∣∣22wTΣ0w+wTΣ1w=wT(μ0−μ1)(μ0−μ1)TwwT(Σ0+Σ1)w.(⋆)J=\frac {||w^T\mu_0-w^T\mu_1||_2^2}{w^T\Sigma_0w+w^T\Sigma_1w}=\frac {w^T(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw}{w^T(\Sigma_0+\Sigma_1)w}.\space \space \space \space \space \space \space \space \space \space \space \space \space \space \space \space \space \space \space (\star)J=wTΣ0w+wTΣ1w∣∣wTμ0−wTμ1∣∣22=wT(Σ0+Σ1)wwT(μ0−μ1)(μ0−μ1)Tw. (⋆)定义类内散度矩阵(within-class scatter matrix)Sw=Σ0+Σ1=∑x∈X0(x−μ0)(x−μ0)T+∑x∈X1(x−μ1)(x−μ1)TS_w=\Sigma_0+\Sigma_1=\sum_{x\in X_0}(x-\mu_0)(x-\mu_0)^T+\sum_{x\in X_1}(x-\mu_1)(x-\mu_1)^TSw=Σ0+Σ1=x∈X0∑(x−μ0)(x−μ0)T+x∈X1∑(x−μ1)(x−μ1)T以及类间散度矩阵(between-class scatter matrix)Sb=(μ0−μ1)(μ0−μ1)T,S_b=(\mu_0-\mu_1)(\mu_0-\mu_1)^T,Sb=(μ0−μ1)(μ0−μ1)T,则(⋆\star⋆)式可重写为J=wTSbwwTSww.(⋆⋆)J=\frac {w^TS_bw}{w^TS_ww}.(\star \star)J=wTSwwwTSbw.(⋆⋆)这就是LDALDALDA欲最大化的目标,即SbS_bSb与SwS_wSw的广义瑞利商(generalized Rayleigh quotient).
- 确定www:
- 式(⋆⋆\star \star⋆⋆)的分子和分母都是关于www的二次项,因此它的解与www的长度无关,只与方向有关。不失一般性,令wTSww=1,w^TS_ww=1,wTSww=1,则式(⋆⋆\star \star⋆⋆)等价于minw−wTSbw,当wTSww=1时.(⋆⋆⋆)\min_w{-w^TS_bw},当w^TS_ww=1时.(\star \star \star)wmin−wTSbw,当wTSww=1时.(⋆⋆⋆)
- 对上式及约束条件构造拉格朗日函数:L(w,λ)=−wTSbw+λ(wTSww−1)L(w,\lambda)=-w^TS_bw+\lambda(w^TS_ww-1)L(w,λ)=−wTSbw+λ(wTSww−1)对www求偏导可得∂L(w,λ)∂w=−∂(wTSbw)∂w+λ∂(wTSww−1)∂w=−(Sb+SbT)w+λ(Sw+SwT)w\frac {\partial L(w,\lambda)}{\partial w}=-\frac {\partial (w^TS_bw)}{\partial w}+\lambda \frac {\partial(w^TS_ww-1)}{\partial w}=-(S_b+S_b^T)w+\lambda(S_w+S_w^T)w∂w∂L(w,λ)=−∂w∂(wTSbw)+λ∂w∂(wTSww−1)=−(Sb+SbT)w+λ(Sw+SwT)w由于Sb=SbT,Sw=SwTS_b=S_b^T,S_w=S_w^TSb=SbT,Sw=SwT,所以∂L(w,λ)∂w=−2Sbw+2λSww\frac {\partial L(w,\lambda)}{\partial w}=-2S_bw+2\lambda S_ww∂w∂L(w,λ)=−2Sbw+2λSww令上式等于0即可得−2Sbw+2λSww=0,-2S_bw+2\lambda S_ww=0,−2Sbw+2λSww=0, Sbw=λSww.S_bw=\lambda S_ww.Sbw=λSww.由于我们求解的只有www,所以λ\lambdaλ的值可以被任意设定,我们注意到Sbw=(μ0−μ1)(μ0−μ1)TwS_bw=(\mu_0-\mu_1)(\mu_0-\mu_1)^TwSbw=(μ0−μ1)(μ0−μ1)Tw如果令www恒等于(μ0−μ1)Tw(\mu_0-\mu_1)^Tw(μ0−μ1)Tw,那么上式即可改写为Sbw=λ(μ0−μ1)S_bw=\lambda(\mu_0-\mu_1)Sbw=λ(μ0−μ1)将其代入Sbw=λSwwS_bw=\lambda S_wwSbw=λSww即可解得w=Sw−1(μ0−μ1)w=S_w^{-1}(\mu_0-\mu_1)w=Sw−1(μ0−μ1)
- 考虑到数值解的稳定性,在实践中通常是对SwS_wSw进行奇异值分解,即Sw=UΣVTS_w=U \Sigma V^TSw=UΣVT,这里的Σ\SigmaΣ是一个实对角矩阵,其对角线上的元素是SwS_wSw的奇异值,然后再由Sw−1=VΣ−1VTS_w^{-1}=V \Sigma^{-1}V^TSw−1=VΣ−1VT得到Sw−1S_w^{-1}Sw−1
- 将LDALDALDA推广到多分类任务中:
- 假定存在NNN个类,且第iii类示例数为mim_imi.
- 我们先定义全局散度矩阵:St=Sb+Sw=∑i=1m(xi−μ)(xi−μ)T,S_t=S_b+S_w=\sum_{i=1}^m(x_i-\mu)(x_i-\mu)^T,St=Sb+Sw=i=1∑m(xi−μ)(xi−μ)T,其中μ\muμ是所有示例的均值向量.
- 将类内散度矩阵SwS_wSw重定义为每个类别的散度矩阵之和,即Sw=∑i=1NSwi,S_w=\sum_{i=1}^NS_{w_i},Sw=i=1∑NSwi,其中Swi=∑x∈Xi(x−μi)(x−μi)T.S_{w_i}=\sum_{x \in X_i}(x-\mu_i)(x-\mu_i)^T.Swi=x∈Xi∑(x−μi)(x−μi)T.
- 综上三式得:Sb=St−Sw=∑i=1Nmi(μi−μ)(μi−μ)TS_b=S_t-S_w=\sum_{i=1}^Nm_i(\mu_i-\mu)(\mu_i-\mu)^TSb=St−Sw=i=1∑Nmi(μi−μ)(μi−μ)T
- 多分类LDALDALDA可以有多种实现方法:使用Sb,Sw,StS_b,S_w,S_tSb,Sw,St三者中的任何两个即可.
- 常见的是采用优化目标:maxWtr(WTSbW)tr(WTSwW),\max_W \frac {tr(W^TS_bW)}{tr(W^TS_wW)},Wmaxtr(WTSwW)tr(WTSbW),其中W∈Rd×(N−1)W \in R^{d×(N-1)}W∈Rd×(N−1),tr(⋅)tr(\cdot)tr(⋅)表示矩阵的迹。
- 上式通过如下广义特征值问题求解:SbW=λSwW.S_bW=\lambda S_w W.SbW=λSwW. WWW的闭式解则是Sw−1SbS_w^{-1}S_bSw−1Sb的N−1N-1N−1个最大广义特征值所对应的特征向量组成的矩阵.
多分类学习
- 考虑NNN个类别C1,C2,⋯,CNC_1,C_2,\cdots,C_NC1,C2,⋯,CN,多分类学习的基本思路是拆解法,即将多分类任务拆为若干个二分类任务求解。
- 具体来说,先对问题进行拆分,然后为拆出的每个二分类任务训练一个分类器;在测试时,对这些分类器的预测结果进行集成以获得最终的多分类结果。
- 问题集中在如何拆分和如何集成。
- 最经典的拆分策略有三种:
给定数据集D={(x1,y1),(x2,y2),⋯,(xm,ym)},yi∈{C1,C2,⋯,CN}.D=\lbrace{(x_1,y_1),(x_2,y_2),\cdots,(x_m,y_m)}\rbrace,y_i \in \lbrace{C_1,C_2,\cdots,C_N}\rbrace.D={(x1,y1),(x2,y2),⋯,(xm,ym)},yi∈{C1,C2,⋯,CN}.- 一对一(One vs. One,OvO):
将NNN个类别两两配对,从而产生N(N−1)/2N(N-1)/2N(N−1)/2个二分类任务。 - 一对其余(One vs. Rest,OvR):
每次将一个类的样例作为正例、所有其他类的样例作为反例来训练NNN个分类器。 - 多对多(Many vs. Many,MvM):
每次将若干个类作为正类,若干个其他类作为反类。
- 一对一(One vs. One,OvO):
类别不平衡问题
- 类别不平衡(class-imbalance)就是指分类任务中不同类别的训练样例数目差别很大的情况。
- 再缩放(rescaling)策略:
- 直接对训练集里的反类样例进行欠采样(undersampling):
去除一些反例使得正、反例数目接近,然后再进行学习。 - 对训练集里的正类样例进行过采样(oversampling):
增加一些正例使得正、反例数目接近,然后再进行学习。 - 直接基于原始训练集进行学习,但在用训练好的分类器进行预测时,将y′1−y′=y1−y×m−m+\frac {y'}{1-y'}=\frac {y}{1-y}×\frac {m^-}{m^+}1−y′y′=1−yy×m+m−嵌入到其决策过程中,称为阈值移动(threshold-moving)。其中,m+m^+m+是正例的数目,m−m^-m−是反例数目,m+m−\frac {m^+}{m^-}m−m+是观测几率,若y1−y>m+m−\frac {y}{1-y}>\frac {m^+}{m^-}1−yy>m−m+则预测为正例。
- 直接对训练集里的反类样例进行欠采样(undersampling):
Machine Learning——Linear Model相关推荐
- 时间序列预测分析(2)How to Develop a Skillful Machine Learning Time Series Forecasting Model
文章目录 Process Overview How to Use This Process 1. Define Problem 分析问题 2. Design Test Harness 设计评估工具 常 ...
- 机器学习面试题合集Collection of Machine Learning Interview Questions
The Machine Learning part of the interview is usually the most elaborate one. That's the reason we h ...
- Machine Learning Review Note
目录 Covariance and correlation How can you select k for k means? Naive Bayes Why is Naive Bayes " ...
- (To Learn More) ML Lecture 0-1: Introduction of Machine Learning
ML Lecture 0-1: Introduction of Machine Learning 视频链接:https://www.youtube.com/watch?v=CXgbekl66jc \q ...
- Machine Learning week 6 quiz: programming assignment-Regularized Linear Regression and Bias/Variance
一.ex5.m %% Machine Learning Online Class % Exercise 5 | Regularized Linear Regression and Bias-Varia ...
- 台大李宏毅Machine Learning 2017Fall学习笔记 (14)Unsupervised Learning:Linear Dimension Reduction
台大李宏毅Machine Learning 2017Fall学习笔记 (14)Unsupervised Learning:Linear Dimension Reduction 本博客整理自: http ...
- The Dimpled Manifold Model of Adversarial Examples in Machine Learning 文献阅读
注:本文是楼主在原文的基础上,结合网上内容理解整理的.该文不一定准确,仅供各位参考,欢迎批评指正!另外,禁止商业用途的转载,谢谢! 目录 写在前面 1. 核心思想 1.1. 概念介绍 (Dimpled ...
- ML:MLOps系列讲解之《基于ML的软件的三个层次之02 Model: Machine Learning Pipelines——2.6 ML Model serialization forma》解读
ML:MLOps系列讲解之<基于ML的软件的三个层次之02 Model: Machine Learning Pipelines--2.6 ML Model serialization forma ...
- ML:MLOps系列讲解之《基于ML的软件的三个层次之02 Model: Machine Learning Pipelines——2.5 Different forms of ML workfl》解读
ML:MLOps系列讲解之<基于ML的软件的三个层次之02 Model: Machine Learning Pipelines--2.5 Different forms of ML workfl ...
最新文章
- [16] 螺旋面(Spire)图形的生成算法
- 投资提升亦令云安全引发高度关注
- 星系炸弹-2015省赛C语言A组第二题
- 协作通信-af df的matlab仿真,协作通信-AF、DF的MATLAB仿真(解压密码yuema1086)
- redis之proxy集群之twemproxy
- 海湾标准汉字码表查询_标准汉字查询软件下载-国家标准信息交换汉字编码查询系统2017官方最新版-东坡下载...
- [原创]:善用佳软(一)
- 利用445 端口渗透
- Coremail邮件安全:2022重保最新钓鱼案件典型攻击手法复盘
- XMLSpy入门实验---第一个XML
- 诺基亚linux系统手机系统下载,智能手机操作平台大翻盘 诺基亚拥抱Linux
- ACL2021_Lexicon Enhanced Chinese Sequence Labelling Using BERT Adapter
- Table表格边框线、样式
- C# 消息盒子 右下角显示窗体
- [技术随笔(一)] 文件分割的两种方法
- 淘宝/天猫API:item_search_coupon-优惠券查询
- 网格环境配置 三 安装SGE
- Rosalind第68题:Counting Optimal Alignments
- 微型计算机原理及应用 湖南大学,长沙理工大学2019考研大纲:823微机(含单片机)原理及应用...
- 【Python】difflib 文本比较,差异对比库
热门文章
- Matlab 7 win7安装步骤
- 网站数据采集的10个经典方法
- mysql 多条件求和_sql多条件求和-sql条件求和-sql求和且和满足条件
- 树莓派外接网卡实现监听wifi
- 基于vue+js的商城、购物网站 毕业设计 毕设源代码的实现和设计(1)首页
- (转)DEDECMS模板原理、模板标签学习 - .Little Hann
- has leaked IntentReceiver ...that was originally registerd here.Are you missing a call to unregister
- HTPPS的域名部署项目请求头xx_xx问题解决
- Excel表格中重要的数据如何隐藏不显示
- LSV加载大面积实景三维模型出现偏移,如何投影变换处理?