本系列博客是我学习周志华的《机器学习(西瓜书)》的自学笔记。
我是零基础学习,因此所写只是书上的知识,肯定不全面,以后随着学习的深入,慢慢补充吧。

基本形式

  • 给定由ddd个属性描述的示例x=(x1;x2;⋯;xd)x=(x_1;x_2;\cdots;x_d)x=(x1​;x2​;⋯;xd​),其中xix_ixi​是xxx在第iii个属性上的取值,线性模型(linearmodel)(linear model)(linearmodel)试图学得一个通过属性的线性组合来进行预测的函数,即f(x)=w1x1+w2x2+⋯+wdxd+b,f(x)=w_1x_1+w_2x_2+\cdots+w_dx_d+b,f(x)=w1​x1​+w2​x2​+⋯+wd​xd​+b,一般用向量形式写成f(x)=wTx+b,f(x)=w^Tx+b,f(x)=wTx+b,其中w=(w1;w2;⋯;wd)w=(w_1;w_2;\cdots;w_d)w=(w1​;w2​;⋯;wd​),即为xxx的权重,www和bbb学得之后,模型就得以确定.

Linear Regression(线性回归)

  • 给定数据集D={(x1,y1),(x2,y2),⋯,(xm,ym)}D=\lbrace{(x_1,y_1),(x_2,y_2),\cdots,(x_m,y_m)}\rbraceD={(x1​,y1​),(x2​,y2​),⋯,(xm​,ym​)},其中xi=(xi1;xi2;⋯;xid),yi∈R.x_i=(x_{i1};x_{i2};\cdots;x_{id}),y_i \in R.xi​=(xi1​;xi2​;⋯;xid​),yi​∈R.
  • 线性回归(linear regression)试图学得一个线性模型以尽可能准确地预测实值输出标记
  • xix_ixi​即为属性,对于离散属性:
    • 若属性值之间存在“序”(order)关系,可以通过连续化将其转化为连续值。比如“高”、“矮”转化为{1.0,0.0};“高”、“中”、“低”可以转化为{1.0,0.5,0.0}.
    • 若属性间不存在序关系,假定有kkk个属性值,则通常转化为kkk维向量。比如“西瓜”、“南瓜”、“黄瓜”转化为(0,0,1),(0,1,0),(1,0,0).
  • 线性回归试图学得f(xi)=wxi+b,使得f(xi)≃yi.f(x_i)=wx_i+b,使得f(x_i)\simeq y_i.f(xi​)=wxi​+b,使得f(xi​)≃yi​.
  • 为了确定www和bbb,我们引入损失函数(Loss Function) 的概念。损失函数有很多种,在回归任务中最常用均方误差(也称为平方损失square loss) 这一性能度量。
  • 台湾大学的李宏毅老师称之为损失函数(Loss Function),斯坦福的吴恩达老师称之为代价函数(Cost Function),我的理解就是,所谓的损失函数指的就是模型的误差,让误差最小,就是让损失函数取最小值。
  • 因此,我们需要让均方误差最小化,即(w∗,b∗)=arg min⁡(w,b)∑i=1m(f(xi)−yi)2=arg min⁡(w,b)∑i=1m(yi−wxi−b)2.(w^*,b^*)=\argmin_{(w,b)}\sum_{i=1}^m(f(x_i)-y_i)^2=\argmin_{(w,b)}\sum_{i=1}^m(y_i-wx_i-b)^2.(w∗,b∗)=(w,b)argmin​i=1∑m​(f(xi​)−yi​)2=(w,b)argmin​i=1∑m​(yi​−wxi​−b)2.
  • 均方误差对应了常用的欧几里得距离或简称欧氏距离(Euclidean distance)。
  • 基于均方误差最小化来进行模型求解的方法称为最小二乘法(least square method)。
  • 在线性回归中,最小二乘法就是试图找到一条直线,使所有样本到直线上的欧氏距离之和最小。
  • 求解www和bbb使E(w,b)=∑i=1m(yi−wxi−b)2E_{(w,b)}=\sum_{i=1}^m(y_i-wx_i-b)^2E(w,b)​=∑i=1m​(yi​−wxi​−b)2最小化的过程,称为线性回归模型的最小二乘“参数估计”(parameter estimation).
  • 我们将E(w,b)E_{(w,b)}E(w,b)​分别对www和bbb求导,得到∂E(w,b)∂w=2(w∑i=1mxi2−∑i=1m(yi−b)xi),\frac {\partial E_{(w,b)}}{\partial w}=2\bigg( w\sum_{i=1}^m x_i^2-\sum_{i=1}^m(y_i-b)x_i \bigg),∂w∂E(w,b)​​=2(wi=1∑m​xi2​−i=1∑m​(yi​−b)xi​), ∂E(w,b)∂b=2(mb−∑i=1m(yi−wxi)),\frac {\partial E_{(w,b)}}{\partial b}=2\bigg( mb-\sum_{i=1}^m(y_i-wx_i) \bigg),∂b∂E(w,b)​​=2(mb−i=1∑m​(yi​−wxi​)),然后令上述两式为零,可得www和bbb最优解的闭式(closed-form)解:w=∑i=1myi(xi−xˉ)∑i=1mxi2−1m(∑i=1mxi)2,w=\frac {\sum_{i=1}^m y_i(x_i-\bar x)}{\sum_{i=1}^m x_i^2-\frac {1}{m}\bigg( \sum_{i=1}^m x_i \bigg)^2},w=∑i=1m​xi2​−m1​(∑i=1m​xi​)2∑i=1m​yi​(xi​−xˉ)​, b=1m∑i=1m(yi−wxi),b=\frac {1}{m} \sum_{i=1}^m(y_i-wx_i),b=m1​i=1∑m​(yi​−wxi​),其中xˉ=1m∑i=1mxi\bar x=\frac {1}{m} \sum_{i=1}^m x_ixˉ=m1​∑i=1m​xi​为xxx的均值.
  • 当样本由ddd个属性描述,此时我们试图学得f(xi)=wTxi+b,使得f(xi)≃yi,f(x_i)=w^Tx_i+b,使得f(x_i)\simeq y_i,f(xi​)=wTxi​+b,使得f(xi​)≃yi​,这称为多元线性回归(multivariate linear regression).此时的“多元”指的是样本属性。
  • 对于多元线性回归,我们把数据集DDD表示为一个m×(d+1)m×(d+1)m×(d+1)大小的矩阵XXX,其中每行对应一个示例,该行前ddd个元素对应于示例的ddd个属性值,最后一个元素恒置为1,即X=[x11x12⋯x1d1x21x22⋯x2d1⋮⋮⋱⋮xm1xm2⋯xmd1]=[x1T1x2T1⋮⋮xmT1]X=\begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1d} & 1 \\ x_{21} & x_{22} & \cdots & x_{2d} & 1 \\ \vdots & \vdots & \ddots & \vdots \\ x_{m1} & x_{m2} & \cdots & x_{md} & 1 \\ \end{bmatrix}=\begin{bmatrix} x_1^T & 1\\ x_2^T & 1\\ \vdots & \vdots\\ x_m^T & 1 \end{bmatrix}X=⎣⎢⎢⎢⎡​x11​x21​⋮xm1​​x12​x22​⋮xm2​​⋯⋯⋱⋯​x1d​x2d​⋮xmd​​111​⎦⎥⎥⎥⎤​=⎣⎢⎢⎢⎡​x1T​x2T​⋮xmT​​11⋮1​⎦⎥⎥⎥⎤​把www和bbb吸收入向量的形式w^=(w;b)\hat w=(w;b)w^=(w;b),把yyy也写成向量形式y=(y1;y2;⋯;ym)y=(y_1;y_2;\cdots;y_m)y=(y1​;y2​;⋯;ym​),有w^2=arg min⁡w^(y−Xw^)T(y−Xw^){\hat w}^2=\argmin_{\hat w}(y-X\hat w)^T(y-X \hat w)w^2=w^argmin​(y−Xw^)T(y−Xw^)令Ew^=(y−Xw^)T(y−Xw^)E_{\hat w}=(y-X\hat w)^T(y-X \hat w)Ew^​=(y−Xw^)T(y−Xw^),对w^\hat ww^求导得到∂Ew^∂w^=2XT(Xw^−y).\frac {\partial E_{\hat w}}{\partial \hat w}=2X^T(X\hat w-y).∂w^∂Ew^​​=2XT(Xw^−y).令上式为零可得w^\hat ww^最优解的闭式解。
  • 由于上式涉及到矩阵逆的计算,我们需要讨论:
    • 当XTXX^TXXTX为满秩矩阵(full-rank matrix)或正定矩阵(positive definite matrix)时,令∂Ew^∂w^\frac {\partial E_{\hat w}}{\partial \hat w}∂w^∂Ew^​​为零可得w^∗=(XTX)−1XTy,{\hat w}^*=(X^TX)^{-1}X^Ty,w^∗=(XTX)−1XTy,令xi^=(xi,1)\hat {x_i}=(x_i,1)xi​^​=(xi​,1),则最终学得的多元线性回归模型为f(xi^)=xi^T(XTX)−1XTy.f(\hat {x_i})={\hat {x_i}}^T(X^TX)^{-1}X^Ty.f(xi​^​)=xi​^​T(XTX)−1XTy.
    • 现实任务中,XTXX^TXXTX一般不是满秩矩阵。此时可解出多个w^\hat ww^,它们都能使均方误差最小化。然后根据学习算法的偏好决定,将选择哪一个解输出,常见的作法是引入正则化项(regularization)。
  • 对数线性回归(log-linear regression):
    • 当我们希望线性模型的预测值逼近真实标记yyy时,我们把线性回归模型简写为y=wTx+b.y=w^Tx+b.y=wTx+b.
    • 假设上式多对应的输出标记是在指数尺度上变化,那就可以将输出标记的对数作为线性模型逼近的目标,即ln⁡y=wTx+b.\ln y=w^Tx+b.lny=wTx+b.
    • 实际上是在试图让ewTx+be^{w^Tx+b}ewTx+b逼近yyy。
  • 广义线性模型(generalized linear model):
    • 考虑单调可微函数g(⋅)g(\cdot)g(⋅),令y=g−1(wTx+b),y=g^{-1}(w^Tx+b),y=g−1(wTx+b),其中函数g(⋅)g(\cdot)g(⋅)称为“联系函数”(link function)。
    • 显然,对数线性回归是广义线性模型在g(⋅)=ln(⋅)g(\cdot)=ln(\cdot)g(⋅)=ln(⋅)时的特例。

Logistic Regression(对数几率回归)

  • 应用于二分类任务
  • 对于二分类任务,输出标记y∈{0,1}y \in \lbrace{0,1}\rbracey∈{0,1},而线性回归产生的预测值z=wTx+bz=w^Tx+bz=wTx+b是实数值,因此,我们需要将实数值转换为0/1值。最理想的是单位跃阶函数(unit-step function):y={0,z<00.5,z=01,z>0y=\begin{cases} 0, \space \space \space \space \space z<0\\ 0.5, \space \space z=0\\ 1, \space \space \space \space \space z>0 \end{cases}y=⎩⎪⎨⎪⎧​0,     z<00.5,  z=01,     z>0​
  • 但是单位跃阶函数不连续,因此,我们需要找到一个近似单位跃阶函数的替代函数(surrogate function),并且是单调可微函数。
  • 近似单位跃阶函数的替代函数,我们选择对数几率函数(logistic function):y=11+e−zy=\frac {1}{1+e^{-z}}y=1+e−z1​
  • 下图显示 单位跃阶函数 和 对数几率函数 的图像:
  • 根据图像可知,对数几率函数是一种Sigmoid函数(形似SSS的函数),它将zzz值转换为接近000或111的yyy值,并且其输出值在z=0z=0z=0附近变化很陡。
  • 因为y=g−1(wTx+b)y=g^{-1}(w^Tx+b)y=g−1(wTx+b),即g(y)g(y)g(y),将对数几率函数作为g(⋅)g(\cdot)g(⋅)带入得:y=11+e−(wTx+b)y=\frac {1}{1+e^{-(w^Tx+b)}}y=1+e−(wTx+b)1​变化得:ln⁡y1−y=wTx+b\ln {\frac {y}{1-y}}=w^Tx+bln1−yy​=wTx+b
  • 若将yyy视为样本xxx作为正例的可能性,则1−y1-y1−y即作为反例的可能性,则二者的比值y1−y\frac {y}{1-y}1−yy​称为几率(odds),反映xxx作为正例的相对可能性。对几率取对数,则得到对数几率(log odds,logit):ln⁡y1−y.\ln {\frac {y}{1-y}}.ln1−yy​.
  • 对数几率回归的优点:
    • 直接对分类可能性进行建模,无需事先建设数据分布,从而避免假设分布不准确所带来的问题。
    • 可以得到近似概率预测,对许多需利用概率辅助决策的任务很有用。
    • 对率函数是任意阶可导的凸函数,有很好的数学性质,现有的许多数值优化算法都可直接用于求取最优解。
  • 求解y=11+e−(wTx+b)y=\frac {1}{1+e^{-(w^Tx+b)}}y=1+e−(wTx+b)1​的www和bbb:
    • 若将式y=11+e−(wTx+b)y=\frac {1}{1+e^{-(w^Tx+b)}}y=1+e−(wTx+b)1​中的yyy视为类后验概率估计p(y=1∣x)p(y=1|x)p(y=1∣x),则式ln⁡y1−y=wTx+b\ln {\frac {y}{1-y}}=w^Tx+bln1−yy​=wTx+b可被重写为:ln⁡p(y=1∣x)p(y=0∣x)=wTx+b\ln {\frac {p(y=1|x)}{p(y=0|x)}}=w^Tx+blnp(y=0∣x)p(y=1∣x)​=wTx+b
    • 显然有:p(y=1∣x)=ewTx+b1+ewTx+b,(1)p(y=1|x)=\frac {e^{w^Tx+b}}{1+e^{w^Tx+b}},\space \space \space \space \space \space \space \space \space \space \space \space \space \space \space (1)p(y=1∣x)=1+ewTx+bewTx+b​,               (1) p(y=0∣x)=11+ewTx+b.(2)p(y=0|x)=\frac {1}{1+e^{w^Tx+b}}.\space \space \space \space \space \space \space \space \space \space \space \space \space \space \space (2)p(y=0∣x)=1+ewTx+b1​.               (2)
    • 于是,我们可以通过极大似然法(maximum likelihood method)来估计www和bbb.给定数据集{(xi,yi)i=1m}\lbrace{(x_i,y_i)}_{i=1}^m\rbrace{(xi​,yi​)i=1m​},对率回归模型最大化对数似然(log-likelihood):ℓ(w,b)=∑i=1mln⁡p(yi∣xi;w,b),(3)\ell(w,b)=\sum_{i=1}^m\ln {p(y_i|x_i;w,b)},\space \space \space \space \space \space \space \space \space \space \space \space \space \space \space (3)ℓ(w,b)=i=1∑m​lnp(yi​∣xi​;w,b),               (3)即令每个样本属于其真实标记的概率越大越好。
    • 为了便于讨论,,令β=(w;b),x^=(x;1)\beta=(w;b),\hat x=(x;1)β=(w;b),x^=(x;1),则wTx+bw^Tx+bwTx+b可以简写为βTx^\beta^T \hat xβTx^,再令p1(x^;β)=p(y=1∣x^;β),p0(x^;β)=p(y=0∣x^;β)=1−p1(x^;β)p_1(\hat x;\beta)=p(y=1|\hat x;\beta),p_0(\hat x;\beta)=p(y=0|\hat x;\beta)=1-p_1(\hat x;\beta)p1​(x^;β)=p(y=1∣x^;β),p0​(x^;β)=p(y=0∣x^;β)=1−p1​(x^;β),则上式中的似然项可重写为:p(yi∣xi;w,b)=yip1(xi^;β)+(1−yi)p0(xi^;β)(4)p(y_i|x_i;w,b)=y_ip_1(\hat {x_i};\beta)+(1-y_i)p_0(\hat {x_i};\beta)\space \space \space \space \space \space \space \space \space \space \space \space \space \space \space (4)p(yi​∣xi​;w,b)=yi​p1​(xi​^​;β)+(1−yi​)p0​(xi​^​;β)               (4)
    • 将(4)带入(3),再根据(1)和(2)可知,最大化式(3)等价于最小化:ℓ(−β)=∑i=1m(−yiβTxi^+ln⁡(1+eβTxi^)).\ell (-\beta)=\sum_{i=1}^m\bigg(-y_i\beta^T \hat{x_i}+\ln {(1+e^{\beta^T \hat {x_i}})}\bigg).ℓ(−β)=i=1∑m​(−yi​βTxi​^​+ln(1+eβTxi​^​)).上式是关于β\betaβ的高阶可导连续凸函数,根据凸优化理论,经典的数值优化算法如梯度下降法、牛顿法等都可求得其最优解,于是就得到:β∗arg min⁡βl(β)\beta^*\argmin_{\beta}l(\beta)β∗βargmin​l(β)

线性判断分析(LDA)

  • 线性判断分析(Linear Discriminant Analysis,简称LDA)是一种经典的线性学习方法,在二分类问题上,最早由Fisher提出,也称之为Fisher判别分析
  • LDA思想:
    • 给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离;
    • 在对新鲜本进行分类时,将其投影到同样的这条直线上,再根据投影点的位置来确定新鲜本的类别。
    • 下图是二位示意图:
  • 给定数据集D={(xi,yi)}i=1m,yi∈{0,1}D=\lbrace{(x_i,y_i)}\rbrace_{i=1}^m,y_i \in {\lbrace{0,1}\rbrace}D={(xi​,yi​)}i=1m​,yi​∈{0,1},令Xi、μi、ΣiX_i、\mu_i、\Sigma_iXi​、μi​、Σi​分别表示第i∈{0,1}i \in {\lbrace{0,1}\rbrace}i∈{0,1}类示例的集合、均值向量、协方差矩阵。
    • 若将数据投影到直线www上,则两类样本的中心在直线上的投影分别为wTΣ0ww^T\Sigma_0wwTΣ0​w和wTΣ1w.w^T\Sigma_1w.wTΣ1​w.
    • 由于直线是一维空间,因此wTμ0、wTμ1、wTΣ0w和wTΣ1ww^T\mu_0、w^T\mu_1、w^T\Sigma_0w和w^T\Sigma_1wwTμ0​、wTμ1​、wTΣ0​w和wTΣ1​w均为实数.
  • 想要使同类样例的投影点尽可能接近,可以让同类样例投影点的协方差尽可能小,即wTΣ0w+wTΣ1ww^T\Sigma_0w+w^T\Sigma_1wwTΣ0​w+wTΣ1​w尽可能小;
  • 想要使异类样例的投影点尽可能远离,可以让类中心之间的距离尽可能大,即∣∣wTμ0−wTμ1∣∣22||w^T\mu_0-w^T\mu_1||_2^2∣∣wTμ0​−wTμ1​∣∣22​尽可能大.
  • 同时考虑,以上两者,则可得到欲最大化的目标::J=∣∣wTμ0−wTμ1∣∣22wTΣ0w+wTΣ1w=wT(μ0−μ1)(μ0−μ1)TwwT(Σ0+Σ1)w.(⋆)J=\frac {||w^T\mu_0-w^T\mu_1||_2^2}{w^T\Sigma_0w+w^T\Sigma_1w}=\frac {w^T(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw}{w^T(\Sigma_0+\Sigma_1)w}.\space \space \space \space \space \space \space \space \space \space \space \space \space \space \space \space \space \space \space (\star)J=wTΣ0​w+wTΣ1​w∣∣wTμ0​−wTμ1​∣∣22​​=wT(Σ0​+Σ1​)wwT(μ0​−μ1​)(μ0​−μ1​)Tw​.                   (⋆)定义类内散度矩阵(within-class scatter matrix)Sw=Σ0+Σ1=∑x∈X0(x−μ0)(x−μ0)T+∑x∈X1(x−μ1)(x−μ1)TS_w=\Sigma_0+\Sigma_1=\sum_{x\in X_0}(x-\mu_0)(x-\mu_0)^T+\sum_{x\in X_1}(x-\mu_1)(x-\mu_1)^TSw​=Σ0​+Σ1​=x∈X0​∑​(x−μ0​)(x−μ0​)T+x∈X1​∑​(x−μ1​)(x−μ1​)T以及类间散度矩阵(between-class scatter matrix)Sb=(μ0−μ1)(μ0−μ1)T,S_b=(\mu_0-\mu_1)(\mu_0-\mu_1)^T,Sb​=(μ0​−μ1​)(μ0​−μ1​)T,则(⋆\star⋆)式可重写为J=wTSbwwTSww.(⋆⋆)J=\frac {w^TS_bw}{w^TS_ww}.(\star \star)J=wTSw​wwTSb​w​.(⋆⋆)这就是LDALDALDA欲最大化的目标,即SbS_bSb​与SwS_wSw​的广义瑞利商(generalized Rayleigh quotient).
  • 确定www
    • 式(⋆⋆\star \star⋆⋆)的分子和分母都是关于www的二次项,因此它的解与www的长度无关,只与方向有关。不失一般性,令wTSww=1,w^TS_ww=1,wTSw​w=1,则式(⋆⋆\star \star⋆⋆)等价于min⁡w−wTSbw,当wTSww=1时.(⋆⋆⋆)\min_w{-w^TS_bw},当w^TS_ww=1时.(\star \star \star)wmin​−wTSb​w,当wTSw​w=1时.(⋆⋆⋆)
    • 对上式及约束条件构造拉格朗日函数:L(w,λ)=−wTSbw+λ(wTSww−1)L(w,\lambda)=-w^TS_bw+\lambda(w^TS_ww-1)L(w,λ)=−wTSb​w+λ(wTSw​w−1)对www求偏导可得∂L(w,λ)∂w=−∂(wTSbw)∂w+λ∂(wTSww−1)∂w=−(Sb+SbT)w+λ(Sw+SwT)w\frac {\partial L(w,\lambda)}{\partial w}=-\frac {\partial (w^TS_bw)}{\partial w}+\lambda \frac {\partial(w^TS_ww-1)}{\partial w}=-(S_b+S_b^T)w+\lambda(S_w+S_w^T)w∂w∂L(w,λ)​=−∂w∂(wTSb​w)​+λ∂w∂(wTSw​w−1)​=−(Sb​+SbT​)w+λ(Sw​+SwT​)w由于Sb=SbT,Sw=SwTS_b=S_b^T,S_w=S_w^TSb​=SbT​,Sw​=SwT​,所以∂L(w,λ)∂w=−2Sbw+2λSww\frac {\partial L(w,\lambda)}{\partial w}=-2S_bw+2\lambda S_ww∂w∂L(w,λ)​=−2Sb​w+2λSw​w令上式等于0即可得−2Sbw+2λSww=0,-2S_bw+2\lambda S_ww=0,−2Sb​w+2λSw​w=0, Sbw=λSww.S_bw=\lambda S_ww.Sb​w=λSw​w.由于我们求解的只有www,所以λ\lambdaλ的值可以被任意设定,我们注意到Sbw=(μ0−μ1)(μ0−μ1)TwS_bw=(\mu_0-\mu_1)(\mu_0-\mu_1)^TwSb​w=(μ0​−μ1​)(μ0​−μ1​)Tw如果令www恒等于(μ0−μ1)Tw(\mu_0-\mu_1)^Tw(μ0​−μ1​)Tw,那么上式即可改写为Sbw=λ(μ0−μ1)S_bw=\lambda(\mu_0-\mu_1)Sb​w=λ(μ0​−μ1​)将其代入Sbw=λSwwS_bw=\lambda S_wwSb​w=λSw​w即可解得w=Sw−1(μ0−μ1)w=S_w^{-1}(\mu_0-\mu_1)w=Sw−1​(μ0​−μ1​)
  • 考虑到数值解的稳定性,在实践中通常是对SwS_wSw​进行奇异值分解,即Sw=UΣVTS_w=U \Sigma V^TSw​=UΣVT,这里的Σ\SigmaΣ是一个实对角矩阵,其对角线上的元素是SwS_wSw​的奇异值,然后再由Sw−1=VΣ−1VTS_w^{-1}=V \Sigma^{-1}V^TSw−1​=VΣ−1VT得到Sw−1S_w^{-1}Sw−1​
  • 将LDALDALDA推广到多分类任务中:
    • 假定存在NNN个类,且第iii类示例数为mim_imi​.
    • 我们先定义全局散度矩阵:St=Sb+Sw=∑i=1m(xi−μ)(xi−μ)T,S_t=S_b+S_w=\sum_{i=1}^m(x_i-\mu)(x_i-\mu)^T,St​=Sb​+Sw​=i=1∑m​(xi​−μ)(xi​−μ)T,其中μ\muμ是所有示例的均值向量.
    • 将类内散度矩阵SwS_wSw​重定义为每个类别的散度矩阵之和,即Sw=∑i=1NSwi,S_w=\sum_{i=1}^NS_{w_i},Sw​=i=1∑N​Swi​​,其中Swi=∑x∈Xi(x−μi)(x−μi)T.S_{w_i}=\sum_{x \in X_i}(x-\mu_i)(x-\mu_i)^T.Swi​​=x∈Xi​∑​(x−μi​)(x−μi​)T.
    • 综上三式得:Sb=St−Sw=∑i=1Nmi(μi−μ)(μi−μ)TS_b=S_t-S_w=\sum_{i=1}^Nm_i(\mu_i-\mu)(\mu_i-\mu)^TSb​=St​−Sw​=i=1∑N​mi​(μi​−μ)(μi​−μ)T
    • 多分类LDALDALDA可以有多种实现方法:使用Sb,Sw,StS_b,S_w,S_tSb​,Sw​,St​三者中的任何两个即可.
    • 常见的是采用优化目标:max⁡Wtr(WTSbW)tr(WTSwW),\max_W \frac {tr(W^TS_bW)}{tr(W^TS_wW)},Wmax​tr(WTSw​W)tr(WTSb​W)​,其中W∈Rd×(N−1)W \in R^{d×(N-1)}W∈Rd×(N−1),tr(⋅)tr(\cdot)tr(⋅)表示矩阵的迹。
    • 上式通过如下广义特征值问题求解:SbW=λSwW.S_bW=\lambda S_w W.Sb​W=λSw​W. WWW的闭式解则是Sw−1SbS_w^{-1}S_bSw−1​Sb​的N−1N-1N−1个最大广义特征值所对应的特征向量组成的矩阵.

多分类学习

  • 考虑NNN个类别C1,C2,⋯,CNC_1,C_2,\cdots,C_NC1​,C2​,⋯,CN​,多分类学习的基本思路是拆解法,即将多分类任务拆为若干个二分类任务求解。
  • 具体来说,先对问题进行拆分,然后为拆出的每个二分类任务训练一个分类器;在测试时,对这些分类器的预测结果进行集成以获得最终的多分类结果。
  • 问题集中在如何拆分如何集成
  • 最经典的拆分策略有三种:
    给定数据集D={(x1,y1),(x2,y2),⋯,(xm,ym)},yi∈{C1,C2,⋯,CN}.D=\lbrace{(x_1,y_1),(x_2,y_2),\cdots,(x_m,y_m)}\rbrace,y_i \in \lbrace{C_1,C_2,\cdots,C_N}\rbrace.D={(x1​,y1​),(x2​,y2​),⋯,(xm​,ym​)},yi​∈{C1​,C2​,⋯,CN​}.

    • 一对一(One vs. One,OvO):
      将NNN个类别两两配对,从而产生N(N−1)/2N(N-1)/2N(N−1)/2个二分类任务。
    • 一对其余(One vs. Rest,OvR):
      每次将一个类的样例作为正例、所有其他类的样例作为反例来训练NNN个分类器。
    • 多对多(Many vs. Many,MvM):
      每次将若干个类作为正类,若干个其他类作为反类。

类别不平衡问题

  • 类别不平衡(class-imbalance)就是指分类任务中不同类别的训练样例数目差别很大的情况。
  • 再缩放(rescaling)策略:
    • 直接对训练集里的反类样例进行欠采样(undersampling):
      去除一些反例使得正、反例数目接近,然后再进行学习。
    • 对训练集里的正类样例进行过采样(oversampling):
      增加一些正例使得正、反例数目接近,然后再进行学习。
    • 直接基于原始训练集进行学习,但在用训练好的分类器进行预测时,将y′1−y′=y1−y×m−m+\frac {y'}{1-y'}=\frac {y}{1-y}×\frac {m^-}{m^+}1−y′y′​=1−yy​×m+m−​嵌入到其决策过程中,称为阈值移动(threshold-moving)。其中,m+m^+m+是正例的数目,m−m^-m−是反例数目,m+m−\frac {m^+}{m^-}m−m+​是观测几率,若y1−y>m+m−\frac {y}{1-y}>\frac {m^+}{m^-}1−yy​>m−m+​则预测为正例。

Machine Learning——Linear Model相关推荐

  1. 时间序列预测分析(2)How to Develop a Skillful Machine Learning Time Series Forecasting Model

    文章目录 Process Overview How to Use This Process 1. Define Problem 分析问题 2. Design Test Harness 设计评估工具 常 ...

  2. 机器学习面试题合集Collection of Machine Learning Interview Questions

    The Machine Learning part of the interview is usually the most elaborate one. That's the reason we h ...

  3. Machine Learning Review Note

    目录 Covariance and correlation How can you select k for k means? Naive Bayes Why is Naive Bayes " ...

  4. (To Learn More) ML Lecture 0-1: Introduction of Machine Learning

    ML Lecture 0-1: Introduction of Machine Learning 视频链接:https://www.youtube.com/watch?v=CXgbekl66jc \q ...

  5. Machine Learning week 6 quiz: programming assignment-Regularized Linear Regression and Bias/Variance

    一.ex5.m %% Machine Learning Online Class % Exercise 5 | Regularized Linear Regression and Bias-Varia ...

  6. 台大李宏毅Machine Learning 2017Fall学习笔记 (14)Unsupervised Learning:Linear Dimension Reduction

    台大李宏毅Machine Learning 2017Fall学习笔记 (14)Unsupervised Learning:Linear Dimension Reduction 本博客整理自: http ...

  7. The Dimpled Manifold Model of Adversarial Examples in Machine Learning 文献阅读

    注:本文是楼主在原文的基础上,结合网上内容理解整理的.该文不一定准确,仅供各位参考,欢迎批评指正!另外,禁止商业用途的转载,谢谢! 目录 写在前面 1. 核心思想 1.1. 概念介绍 (Dimpled ...

  8. ML:MLOps系列讲解之《基于ML的软件的三个层次之02 Model: Machine Learning Pipelines——2.6 ML Model serialization forma》解读

    ML:MLOps系列讲解之<基于ML的软件的三个层次之02 Model: Machine Learning Pipelines--2.6 ML Model serialization forma ...

  9. ML:MLOps系列讲解之《基于ML的软件的三个层次之02 Model: Machine Learning Pipelines——2.5 Different forms of ML workfl》解读

    ML:MLOps系列讲解之<基于ML的软件的三个层次之02 Model: Machine Learning Pipelines--2.5 Different forms of ML workfl ...

最新文章

  1. [16] 螺旋面(Spire)图形的生成算法
  2. 投资提升亦令云安全引发高度关注
  3. 星系炸弹-2015省赛C语言A组第二题
  4. 协作通信-af df的matlab仿真,协作通信-AF、DF的MATLAB仿真(解压密码yuema1086)
  5. redis之proxy集群之twemproxy
  6. 海湾标准汉字码表查询_标准汉字查询软件下载-国家标准信息交换汉字编码查询系统2017官方最新版-东坡下载...
  7. [原创]:善用佳软(一)
  8. 利用445 端口渗透
  9. Coremail邮件安全:2022重保最新钓鱼案件典型攻击手法复盘
  10. XMLSpy入门实验---第一个XML
  11. 诺基亚linux系统手机系统下载,智能手机操作平台大翻盘 诺基亚拥抱Linux
  12. ACL2021_Lexicon Enhanced Chinese Sequence Labelling Using BERT Adapter
  13. Table表格边框线、样式
  14. C# 消息盒子 右下角显示窗体
  15. [技术随笔(一)] 文件分割的两种方法
  16. 淘宝/天猫API:item_search_coupon-优惠券查询
  17. 网格环境配置 三 安装SGE
  18. Rosalind第68题:Counting Optimal Alignments
  19. 微型计算机原理及应用 湖南大学,长沙理工大学2019考研大纲:823微机(含单片机)原理及应用...
  20. 【Python】difflib 文本比较,差异对比库

热门文章

  1. Matlab 7 win7安装步骤
  2. 网站数据采集的10个经典方法
  3. mysql 多条件求和_sql多条件求和-sql条件求和-sql求和且和满足条件
  4. 树莓派外接网卡实现监听wifi
  5. 基于vue+js的商城、购物网站 毕业设计 毕设源代码的实现和设计(1)首页
  6. (转)DEDECMS模板原理、模板标签学习 - .Little Hann
  7. has leaked IntentReceiver ...that was originally registerd here.Are you missing a call to unregister
  8. HTPPS的域名部署项目请求头xx_xx问题解决
  9. Excel表格中重要的数据如何隐藏不显示
  10. LSV加载大面积实景三维模型出现偏移,如何投影变换处理?