本系列博客是我学习周志华的《机器学习（西瓜书）》的自学笔记。
我是零基础学习，因此所写只是书上的知识，肯定不全面，以后随着学习的深入，慢慢补充吧。

基本形式

给定由ddd个属性描述的示例x=(x1;x2;⋯;xd)x=(x_1;x_2;\cdots;x_d)x=(x1;x2;⋯;xd)，其中xix_ixi是xxx在第iii个属性上的取值，线性模型(linearmodel)(linear model)(linearmodel)试图学得一个通过属性的线性组合来进行预测的函数，即f(x)=w1x1+w2x2+⋯+wdxd+b,f(x)=w_1x_1+w_2x_2+\cdots+w_dx_d+b,f(x)=w1x1+w2x2+⋯+wdxd+b,一般用向量形式写成f(x)=wTx+b,f(x)=w^Tx+b,f(x)=wTx+b,其中w=(w1;w2;⋯;wd)w=(w_1;w_2;\cdots;w_d)w=(w1;w2;⋯;wd)，即为xxx的权重，www和bbb学得之后，模型就得以确定.

Linear Regression（线性回归）

给定数据集D={(x1,y1),(x2,y2),⋯,(xm,ym)}D=\lbrace{(x_1,y_1),(x_2,y_2),\cdots,(x_m,y_m)}\rbraceD={(x1,y1),(x2,y2),⋯,(xm,ym)}，其中xi=(xi1;xi2;⋯;xid),yi∈R.x_i=(x_{i1};x_{i2};\cdots;x_{id}),y_i \in R.xi=(xi1;xi2;⋯;xid),yi∈R.
线性回归（linear regression）试图学得一个线性模型以尽可能准确地预测实值输出标记。
xix_ixi即为属性，对于离散属性：
- 若属性值之间存在“序”（order）关系，可以通过连续化将其转化为连续值。比如“高”、“矮”转化为{1.0，0.0}；“高”、“中”、“低”可以转化为{1.0，0.5，0.0}.
- 若属性间不存在序关系，假定有kkk个属性值，则通常转化为kkk维向量。比如“西瓜”、“南瓜”、“黄瓜”转化为(0,0,1)，(0,1,0)，(1,0,0).
线性回归试图学得f(xi)=wxi+b,使得f(xi)≃yi.f(x_i)=wx_i+b,使得f(x_i)\simeq y_i.f(xi)=wxi+b,使得f(xi)≃yi.
为了确定www和bbb，我们引入损失函数（Loss Function） 的概念。损失函数有很多种，在回归任务中最常用均方误差（也称为平方损失square loss） 这一性能度量。
台湾大学的李宏毅老师称之为损失函数（Loss Function），斯坦福的吴恩达老师称之为代价函数（Cost Function），我的理解就是，所谓的损失函数指的就是模型的误差，让误差最小，就是让损失函数取最小值。
因此，我们需要让均方误差最小化，即(w∗,b∗)=arg min⁡(w,b)∑i=1m(f(xi)−yi)2=arg min⁡(w,b)∑i=1m(yi−wxi−b)2.(w^*,b^*)=\argmin_{(w,b)}\sum_{i=1}^m(f(x_i)-y_i)^2=\argmin_{(w,b)}\sum_{i=1}^m(y_i-wx_i-b)^2.(w∗,b∗)=(w,b)argmini=1∑m(f(xi)−yi)2=(w,b)argmini=1∑m(yi−wxi−b)2.
均方误差对应了常用的欧几里得距离或简称欧氏距离（Euclidean distance）。
基于均方误差最小化来进行模型求解的方法称为最小二乘法（least square method）。
在线性回归中，最小二乘法就是试图找到一条直线，使所有样本到直线上的欧氏距离之和最小。
求解www和bbb使E(w,b)=∑i=1m(yi−wxi−b)2E_{(w,b)}=\sum_{i=1}^m(y_i-wx_i-b)^2E(w,b)=∑i=1m(yi−wxi−b)2最小化的过程，称为线性回归模型的最小二乘“参数估计”（parameter estimation）.
我们将E(w,b)E_{(w,b)}E(w,b)分别对www和bbb求导，得到∂E(w,b)∂w=2(w∑i=1mxi2−∑i=1m(yi−b)xi),\frac {\partial E_{(w,b)}}{\partial w}=2\bigg( w\sum_{i=1}^m x_i^2-\sum_{i=1}^m(y_i-b)x_i \bigg),∂w∂E(w,b)=2(wi=1∑mxi2−i=1∑m(yi−b)xi), ∂E(w,b)∂b=2(mb−∑i=1m(yi−wxi)),\frac {\partial E_{(w,b)}}{\partial b}=2\bigg( mb-\sum_{i=1}^m(y_i-wx_i) \bigg),∂b∂E(w,b)=2(mb−i=1∑m(yi−wxi)),然后令上述两式为零，可得www和bbb最优解的闭式(closed-form)解：w=∑i=1myi(xi−xˉ)∑i=1mxi2−1m(∑i=1mxi)2,w=\frac {\sum_{i=1}^m y_i(x_i-\bar x)}{\sum_{i=1}^m x_i^2-\frac {1}{m}\bigg( \sum_{i=1}^m x_i \bigg)^2},w=∑i=1mxi2−m1(∑i=1mxi)2∑i=1myi(xi−xˉ), b=1m∑i=1m(yi−wxi),b=\frac {1}{m} \sum_{i=1}^m(y_i-wx_i),b=m1i=1∑m(yi−wxi),其中xˉ=1m∑i=1mxi\bar x=\frac {1}{m} \sum_{i=1}^m x_ixˉ=m1∑i=1mxi为xxx的均值.
当样本由ddd个属性描述，此时我们试图学得f(xi)=wTxi+b,使得f(xi)≃yi,f(x_i)=w^Tx_i+b,使得f(x_i)\simeq y_i,f(xi)=wTxi+b,使得f(xi)≃yi,这称为多元线性回归（multivariate linear regression）.此时的“多元”指的是样本属性。
对于多元线性回归，我们把数据集DDD表示为一个m×(d+1)m×(d+1)m×(d+1)大小的矩阵XXX，其中每行对应一个示例，该行前ddd个元素对应于示例的ddd个属性值，最后一个元素恒置为1，即X=[x11x12⋯x1d1x21x22⋯x2d1⋮⋮⋱⋮xm1xm2⋯xmd1]=[x1T1x2T1⋮⋮xmT1]X=\begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1d} & 1 \\ x_{21} & x_{22} & \cdots & x_{2d} & 1 \\ \vdots & \vdots & \ddots & \vdots \\ x_{m1} & x_{m2} & \cdots & x_{md} & 1 \\ \end{bmatrix}=\begin{bmatrix} x_1^T & 1\\ x_2^T & 1\\ \vdots & \vdots\\ x_m^T & 1 \end{bmatrix}X=⎣⎢⎢⎢⎡x11x21⋮xm1x12x22⋮xm2⋯⋯⋱⋯x1dx2d⋮xmd111⎦⎥⎥⎥⎤=⎣⎢⎢⎢⎡x1Tx2T⋮xmT11⋮1⎦⎥⎥⎥⎤把www和bbb吸收入向量的形式w^=(w;b)\hat w=(w;b)w^=(w;b)，把yyy也写成向量形式y=(y1;y2;⋯;ym)y=(y_1;y_2;\cdots;y_m)y=(y1;y2;⋯;ym)，有w^2=arg min⁡w^(y−Xw^)T(y−Xw^){\hat w}^2=\argmin_{\hat w}(y-X\hat w)^T(y-X \hat w)w^2=w^argmin(y−Xw^)T(y−Xw^)令Ew^=(y−Xw^)T(y−Xw^)E_{\hat w}=(y-X\hat w)^T(y-X \hat w)Ew^=(y−Xw^)T(y−Xw^)，对w^\hat ww^求导得到∂Ew^∂w^=2XT(Xw^−y).\frac {\partial E_{\hat w}}{\partial \hat w}=2X^T(X\hat w-y).∂w^∂Ew^=2XT(Xw^−y).令上式为零可得w^\hat ww^最优解的闭式解。
由于上式涉及到矩阵逆的计算，我们需要讨论：
- 当XTXX^TXXTX为满秩矩阵(full-rank matrix)或正定矩阵(positive definite matrix)时，令∂Ew^∂w^\frac {\partial E_{\hat w}}{\partial \hat w}∂w^∂Ew^为零可得w^∗=(XTX)−1XTy,{\hat w}^*=(X^TX)^{-1}X^Ty,w^∗=(XTX)−1XTy,令xi^=(xi,1)\hat {x_i}=(x_i,1)xi^=(xi,1)，则最终学得的多元线性回归模型为f(xi^)=xi^T(XTX)−1XTy.f(\hat {x_i})={\hat {x_i}}^T(X^TX)^{-1}X^Ty.f(xi^)=xi^T(XTX)−1XTy.
- 现实任务中，XTXX^TXXTX一般不是满秩矩阵。此时可解出多个w^\hat ww^，它们都能使均方误差最小化。然后根据学习算法的偏好决定，将选择哪一个解输出，常见的作法是引入正则化项(regularization)。
对数线性回归(log-linear regression)：
- 当我们希望线性模型的预测值逼近真实标记yyy时，我们把线性回归模型简写为y=wTx+b.y=w^Tx+b.y=wTx+b.
- 假设上式多对应的输出标记是在指数尺度上变化，那就可以将输出标记的对数作为线性模型逼近的目标，即ln⁡y=wTx+b.\ln y=w^Tx+b.lny=wTx+b.
- 实际上是在试图让ewTx+be^{w^Tx+b}ewTx+b逼近yyy。
广义线性模型(generalized linear model)：
- 考虑单调可微函数g(⋅)g(\cdot)g(⋅)，令y=g−1(wTx+b),y=g^{-1}(w^Tx+b),y=g−1(wTx+b),其中函数g(⋅)g(\cdot)g(⋅)称为“联系函数”（link function）。
- 显然，对数线性回归是广义线性模型在g(⋅)=ln(⋅)g(\cdot)=ln(\cdot)g(⋅)=ln(⋅)时的特例。

Logistic Regression（对数几率回归）

应用于二分类任务。
对于二分类任务，输出标记y∈{0,1}y \in \lbrace{0,1}\rbracey∈{0,1}，而线性回归产生的预测值z=wTx+bz=w^Tx+bz=wTx+b是实数值，因此，我们需要将实数值转换为0/1值。最理想的是单位跃阶函数(unit-step function)：y={0,z<00.5,z=01,z>0y=\begin{cases} 0, \space \space \space \space \space z<0\\ 0.5, \space \space z=0\\ 1, \space \space \space \space \space z>0 \end{cases}y=⎩⎪⎨⎪⎧0, z<00.5, z=01, z>0
但是单位跃阶函数不连续，因此，我们需要找到一个近似单位跃阶函数的替代函数(surrogate function)，并且是单调可微函数。
近似单位跃阶函数的替代函数，我们选择对数几率函数(logistic function)：y=11+e−zy=\frac {1}{1+e^{-z}}y=1+e−z1
下图显示单位跃阶函数和对数几率函数的图像：
根据图像可知，对数几率函数是一种Sigmoid函数（形似SSS的函数），它将zzz值转换为接近000或111的yyy值，并且其输出值在z=0z=0z=0附近变化很陡。
因为y=g−1(wTx+b)y=g^{-1}(w^Tx+b)y=g−1(wTx+b)，即g(y)g(y)g(y)，将对数几率函数作为g(⋅)g(\cdot)g(⋅)带入得：y=11+e−(wTx+b)y=\frac {1}{1+e^{-(w^Tx+b)}}y=1+e−(wTx+b)1变化得：ln⁡y1−y=wTx+b\ln {\frac {y}{1-y}}=w^Tx+bln1−yy=wTx+b
若将yyy视为样本xxx作为正例的可能性，则1−y1-y1−y即作为反例的可能性，则二者的比值y1−y\frac {y}{1-y}1−yy称为几率(odds)，反映xxx作为正例的相对可能性。对几率取对数，则得到对数几率(log odds，logit)：ln⁡y1−y.\ln {\frac {y}{1-y}}.ln1−yy.
对数几率回归的优点：
- 直接对分类可能性进行建模，无需事先建设数据分布，从而避免假设分布不准确所带来的问题。
- 可以得到近似概率预测，对许多需利用概率辅助决策的任务很有用。
- 对率函数是任意阶可导的凸函数，有很好的数学性质，现有的许多数值优化算法都可直接用于求取最优解。
求解y=11+e−(wTx+b)y=\frac {1}{1+e^{-(w^Tx+b)}}y=1+e−(wTx+b)1的www和bbb：
- 若将式y=11+e−(wTx+b)y=\frac {1}{1+e^{-(w^Tx+b)}}y=1+e−(wTx+b)1中的yyy视为类后验概率估计p(y=1∣x)p(y=1|x)p(y=1∣x)，则式ln⁡y1−y=wTx+b\ln {\frac {y}{1-y}}=w^Tx+bln1−yy=wTx+b可被重写为：ln⁡p(y=1∣x)p(y=0∣x)=wTx+b\ln {\frac {p(y=1|x)}{p(y=0|x)}}=w^Tx+blnp(y=0∣x)p(y=1∣x)=wTx+b
- 显然有：p(y=1∣x)=ewTx+b1+ewTx+b,(1)p(y=1|x)=\frac {e^{w^Tx+b}}{1+e^{w^Tx+b}},\space \space \space \space \space \space \space \space \space \space \space \space \space \space \space (1)p(y=1∣x)=1+ewTx+bewTx+b, (1) p(y=0∣x)=11+ewTx+b.(2)p(y=0|x)=\frac {1}{1+e^{w^Tx+b}}.\space \space \space \space \space \space \space \space \space \space \space \space \space \space \space (2)p(y=0∣x)=1+ewTx+b1. (2)
- 于是，我们可以通过极大似然法(maximum likelihood method)来估计www和bbb.给定数据集{(xi,yi)i=1m}\lbrace{(x_i,y_i)}_{i=1}^m\rbrace{(xi,yi)i=1m}，对率回归模型最大化对数似然(log-likelihood)：ℓ(w,b)=∑i=1mln⁡p(yi∣xi;w,b),(3)\ell(w,b)=\sum_{i=1}^m\ln {p(y_i|x_i;w,b)},\space \space \space \space \space \space \space \space \space \space \space \space \space \space \space (3)ℓ(w,b)=i=1∑mlnp(yi∣xi;w,b), (3)即令每个样本属于其真实标记的概率越大越好。
- 为了便于讨论，，令β=(w;b),x^=(x;1)\beta=(w;b),\hat x=(x;1)β=(w;b),x^=(x;1)，则wTx+bw^Tx+bwTx+b可以简写为βTx^\beta^T \hat xβTx^，再令p1(x^;β)=p(y=1∣x^;β),p0(x^;β)=p(y=0∣x^;β)=1−p1(x^;β)p_1(\hat x;\beta)=p(y=1|\hat x;\beta),p_0(\hat x;\beta)=p(y=0|\hat x;\beta)=1-p_1(\hat x;\beta)p1(x^;β)=p(y=1∣x^;β),p0(x^;β)=p(y=0∣x^;β)=1−p1(x^;β)，则上式中的似然项可重写为：p(yi∣xi;w,b)=yip1(xi^;β)+(1−yi)p0(xi^;β)(4)p(y_i|x_i;w,b)=y_ip_1(\hat {x_i};\beta)+(1-y_i)p_0(\hat {x_i};\beta)\space \space \space \space \space \space \space \space \space \space \space \space \space \space \space (4)p(yi∣xi;w,b)=yip1(xi^;β)+(1−yi)p0(xi^;β) (4)
- 将（4）带入（3），再根据（1）和（2）可知，最大化式（3）等价于最小化：ℓ(−β)=∑i=1m(−yiβTxi^+ln⁡(1+eβTxi^)).\ell (-\beta)=\sum_{i=1}^m\bigg(-y_i\beta^T \hat{x_i}+\ln {(1+e^{\beta^T \hat {x_i}})}\bigg).ℓ(−β)=i=1∑m(−yiβTxi^+ln(1+eβTxi^)).上式是关于β\betaβ的高阶可导连续凸函数，根据凸优化理论，经典的数值优化算法如梯度下降法、牛顿法等都可求得其最优解，于是就得到：β∗arg min⁡βl(β)\beta^*\argmin_{\beta}l(\beta)β∗βargminl(β)

线性判断分析（LDA）

线性判断分析(Linear Discriminant Analysis，简称LDA)是一种经典的线性学习方法，在二分类问题上，最早由Fisher提出，也称之为Fisher判别分析。
LDA思想：
- 给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离；
- 在对新鲜本进行分类时，将其投影到同样的这条直线上，再根据投影点的位置来确定新鲜本的类别。
- 下图是二位示意图：
给定数据集D={(xi,yi)}i=1m,yi∈{0,1}D=\lbrace{(x_i,y_i)}\rbrace_{i=1}^m,y_i \in {\lbrace{0,1}\rbrace}D={(xi,yi)}i=1m,yi∈{0,1}，令Xi、μi、ΣiX_i、\mu_i、\Sigma_iXi、μi、Σi分别表示第i∈{0,1}i \in {\lbrace{0,1}\rbrace}i∈{0,1}类示例的集合、均值向量、协方差矩阵。
- 若将数据投影到直线www上，则两类样本的中心在直线上的投影分别为wTΣ0ww^T\Sigma_0wwTΣ0w和wTΣ1w.w^T\Sigma_1w.wTΣ1w.
- 由于直线是一维空间，因此wTμ0、wTμ1、wTΣ0w和wTΣ1ww^T\mu_0、w^T\mu_1、w^T\Sigma_0w和w^T\Sigma_1wwTμ0、wTμ1、wTΣ0w和wTΣ1w均为实数.
想要使同类样例的投影点尽可能接近，可以让同类样例投影点的协方差尽可能小，即wTΣ0w+wTΣ1ww^T\Sigma_0w+w^T\Sigma_1wwTΣ0w+wTΣ1w尽可能小；
想要使异类样例的投影点尽可能远离，可以让类中心之间的距离尽可能大，即∣∣wTμ0−wTμ1∣∣22||w^T\mu_0-w^T\mu_1||_2^2∣∣wTμ0−wTμ1∣∣22尽可能大.
同时考虑，以上两者，则可得到欲最大化的目标：：J=∣∣wTμ0−wTμ1∣∣22wTΣ0w+wTΣ1w=wT(μ0−μ1)(μ0−μ1)TwwT(Σ0+Σ1)w.（⋆）J=\frac {||w^T\mu_0-w^T\mu_1||_2^2}{w^T\Sigma_0w+w^T\Sigma_1w}=\frac {w^T(\mu_0-\mu_1)(\mu_0-\mu_1)^Tw}{w^T(\Sigma_0+\Sigma_1)w}.\space \space \space \space \space \space \space \space \space \space \space \space \space \space \space \space \space \space \space （\star）J=wTΣ0w+wTΣ1w∣∣wTμ0−wTμ1∣∣22=wT(Σ0+Σ1)wwT(μ0−μ1)(μ0−μ1)Tw. （⋆）定义类内散度矩阵(within-class scatter matrix)Sw=Σ0+Σ1=∑x∈X0(x−μ0)(x−μ0)T+∑x∈X1(x−μ1)(x−μ1)TS_w=\Sigma_0+\Sigma_1=\sum_{x\in X_0}(x-\mu_0)(x-\mu_0)^T+\sum_{x\in X_1}(x-\mu_1)(x-\mu_1)^TSw=Σ0+Σ1=x∈X0∑(x−μ0)(x−μ0)T+x∈X1∑(x−μ1)(x−μ1)T以及类间散度矩阵(between-class scatter matrix)Sb=(μ0−μ1)(μ0−μ1)T,S_b=(\mu_0-\mu_1)(\mu_0-\mu_1)^T,Sb=(μ0−μ1)(μ0−μ1)T,则（⋆\star⋆）式可重写为J=wTSbwwTSww.(⋆⋆)J=\frac {w^TS_bw}{w^TS_ww}.(\star \star)J=wTSwwwTSbw.(⋆⋆)这就是LDALDALDA欲最大化的目标，即SbS_bSb与SwS_wSw的广义瑞利商(generalized Rayleigh quotient).
确定www：
- 式（⋆⋆\star \star⋆⋆）的分子和分母都是关于www的二次项，因此它的解与www的长度无关，只与方向有关。不失一般性，令wTSww=1,w^TS_ww=1,wTSww=1,则式（⋆⋆\star \star⋆⋆）等价于min⁡w−wTSbw,当wTSww=1时.（⋆⋆⋆）\min_w{-w^TS_bw},当w^TS_ww=1时.（\star \star \star）wmin−wTSbw,当wTSww=1时.（⋆⋆⋆）
- 对上式及约束条件构造拉格朗日函数：L(w,λ)=−wTSbw+λ(wTSww−1)L(w,\lambda)=-w^TS_bw+\lambda(w^TS_ww-1)L(w,λ)=−wTSbw+λ(wTSww−1)对www求偏导可得∂L(w,λ)∂w=−∂(wTSbw)∂w+λ∂(wTSww−1)∂w=−(Sb+SbT)w+λ(Sw+SwT)w\frac {\partial L(w,\lambda)}{\partial w}=-\frac {\partial (w^TS_bw)}{\partial w}+\lambda \frac {\partial(w^TS_ww-1)}{\partial w}=-(S_b+S_b^T)w+\lambda(S_w+S_w^T)w∂w∂L(w,λ)=−∂w∂(wTSbw)+λ∂w∂(wTSww−1)=−(Sb+SbT)w+λ(Sw+SwT)w由于Sb=SbT,Sw=SwTS_b=S_b^T,S_w=S_w^TSb=SbT,Sw=SwT，所以∂L(w,λ)∂w=−2Sbw+2λSww\frac {\partial L(w,\lambda)}{\partial w}=-2S_bw+2\lambda S_ww∂w∂L(w,λ)=−2Sbw+2λSww令上式等于0即可得−2Sbw+2λSww=0,-2S_bw+2\lambda S_ww=0,−2Sbw+2λSww=0, Sbw=λSww.S_bw=\lambda S_ww.Sbw=λSww.由于我们求解的只有www，所以λ\lambdaλ的值可以被任意设定，我们注意到Sbw=(μ0−μ1)(μ0−μ1)TwS_bw=(\mu_0-\mu_1)(\mu_0-\mu_1)^TwSbw=(μ0−μ1)(μ0−μ1)Tw如果令www恒等于(μ0−μ1)Tw(\mu_0-\mu_1)^Tw(μ0−μ1)Tw，那么上式即可改写为Sbw=λ(μ0−μ1)S_bw=\lambda(\mu_0-\mu_1)Sbw=λ(μ0−μ1)将其代入Sbw=λSwwS_bw=\lambda S_wwSbw=λSww即可解得w=Sw−1(μ0−μ1)w=S_w^{-1}(\mu_0-\mu_1)w=Sw−1(μ0−μ1)
考虑到数值解的稳定性，在实践中通常是对SwS_wSw进行奇异值分解，即Sw=UΣVTS_w=U \Sigma V^TSw=UΣVT，这里的Σ\SigmaΣ是一个实对角矩阵，其对角线上的元素是SwS_wSw的奇异值，然后再由Sw−1=VΣ−1VTS_w^{-1}=V \Sigma^{-1}V^TSw−1=VΣ−1VT得到Sw−1S_w^{-1}Sw−1
将LDALDALDA推广到多分类任务中：
- 假定存在NNN个类，且第iii类示例数为mim_imi.
- 我们先定义全局散度矩阵：St=Sb+Sw=∑i=1m(xi−μ)(xi−μ)T,S_t=S_b+S_w=\sum_{i=1}^m(x_i-\mu)(x_i-\mu)^T,St=Sb+Sw=i=1∑m(xi−μ)(xi−μ)T,其中μ\muμ是所有示例的均值向量.
- 将类内散度矩阵SwS_wSw重定义为每个类别的散度矩阵之和，即Sw=∑i=1NSwi,S_w=\sum_{i=1}^NS_{w_i},Sw=i=1∑NSwi,其中Swi=∑x∈Xi(x−μi)(x−μi)T.S_{w_i}=\sum_{x \in X_i}(x-\mu_i)(x-\mu_i)^T.Swi=x∈Xi∑(x−μi)(x−μi)T.
- 综上三式得：Sb=St−Sw=∑i=1Nmi(μi−μ)(μi−μ)TS_b=S_t-S_w=\sum_{i=1}^Nm_i(\mu_i-\mu)(\mu_i-\mu)^TSb=St−Sw=i=1∑Nmi(μi−μ)(μi−μ)T
- 多分类LDALDALDA可以有多种实现方法：使用Sb,Sw,StS_b,S_w,S_tSb,Sw,St三者中的任何两个即可.
- 常见的是采用优化目标：max⁡Wtr(WTSbW)tr(WTSwW),\max_W \frac {tr(W^TS_bW)}{tr(W^TS_wW)},Wmaxtr(WTSwW)tr(WTSbW),其中W∈Rd×(N−1)W \in R^{d×(N-1)}W∈Rd×(N−1)，tr(⋅)tr(\cdot)tr(⋅)表示矩阵的迹。
- 上式通过如下广义特征值问题求解：SbW=λSwW.S_bW=\lambda S_w W.SbW=λSwW. WWW的闭式解则是Sw−1SbS_w^{-1}S_bSw−1Sb的N−1N-1N−1个最大广义特征值所对应的特征向量组成的矩阵.

多分类学习

考虑NNN个类别C1,C2,⋯,CNC_1,C_2,\cdots,C_NC1,C2,⋯,CN，多分类学习的基本思路是拆解法，即将多分类任务拆为若干个二分类任务求解。
具体来说，先对问题进行拆分，然后为拆出的每个二分类任务训练一个分类器；在测试时，对这些分类器的预测结果进行集成以获得最终的多分类结果。
问题集中在如何拆分和如何集成。
最经典的拆分策略有三种：
给定数据集D={(x1,y1),(x2,y2),⋯,(xm,ym)},yi∈{C1,C2,⋯,CN}.D=\lbrace{(x_1,y_1),(x_2,y_2),\cdots,(x_m,y_m)}\rbrace,y_i \in \lbrace{C_1,C_2,\cdots,C_N}\rbrace.D={(x1,y1),(x2,y2),⋯,(xm,ym)},yi∈{C1,C2,⋯,CN}.
- 一对一（One vs. One，OvO）：
  将NNN个类别两两配对，从而产生N(N−1)/2N(N-1)/2N(N−1)/2个二分类任务。
- 一对其余（One vs. Rest，OvR）：
  每次将一个类的样例作为正例、所有其他类的样例作为反例来训练NNN个分类器。
- 多对多（Many vs. Many，MvM）：
  每次将若干个类作为正类，若干个其他类作为反类。

类别不平衡问题

类别不平衡（class-imbalance）就是指分类任务中不同类别的训练样例数目差别很大的情况。
再缩放（rescaling）策略：
- 直接对训练集里的反类样例进行欠采样（undersampling）：
  去除一些反例使得正、反例数目接近，然后再进行学习。
- 对训练集里的正类样例进行过采样（oversampling）：
  增加一些正例使得正、反例数目接近，然后再进行学习。
- 直接基于原始训练集进行学习，但在用训练好的分类器进行预测时，将y′1−y′=y1−y×m−m+\frac {y'}{1-y'}=\frac {y}{1-y}×\frac {m^-}{m^+}1−y′y′=1−yy×m+m−嵌入到其决策过程中，称为阈值移动（threshold-moving）。其中，m+m^+m+是正例的数目，m−m^-m−是反例数目，m+m−\frac {m^+}{m^-}m−m+是观测几率，若y1−y>m+m−\frac {y}{1-y}>\frac {m^+}{m^-}1−yy>m−m+则预测为正例。

Machine Learning——Linear Model相关推荐

时间序列预测分析（2）How to Develop a Skillful Machine Learning Time Series Forecasting Model
文章目录 Process Overview How to Use This Process 1. Define Problem 分析问题 2. Design Test Harness 设计评估工具常 ...
机器学习面试题合集Collection of Machine Learning Interview Questions
The Machine Learning part of the interview is usually the most elaborate one. That's the reason we h ...
Machine Learning Review Note
目录 Covariance and correlation How can you select k for k means? Naive Bayes Why is Naive Bayes " ...
(To Learn More) ML Lecture 0-1: Introduction of Machine Learning
ML Lecture 0-1: Introduction of Machine Learning 视频链接:https://www.youtube.com/watch?v=CXgbekl66jc \q ...
Machine Learning week 6 quiz: programming assignment-Regularized Linear Regression and Bias/Variance
一.ex5.m %% Machine Learning Online Class % Exercise 5 | Regularized Linear Regression and Bias-Varia ...
台大李宏毅Machine Learning 2017Fall学习笔记 (14)Unsupervised Learning:Linear Dimension Reduction
台大李宏毅Machine Learning 2017Fall学习笔记 (14)Unsupervised Learning:Linear Dimension Reduction 本博客整理自: http ...
The Dimpled Manifold Model of Adversarial Examples in Machine Learning 文献阅读
注:本文是楼主在原文的基础上,结合网上内容理解整理的.该文不一定准确,仅供各位参考,欢迎批评指正!另外,禁止商业用途的转载,谢谢! 目录写在前面 1. 核心思想 1.1. 概念介绍 (Dimpled ...
ML：MLOps系列讲解之《基于ML的软件的三个层次之02 Model： Machine Learning Pipelines——2.6 ML Model serialization forma》解读
ML:MLOps系列讲解之<基于ML的软件的三个层次之02 Model: Machine Learning Pipelines--2.6 ML Model serialization forma ...
ML：MLOps系列讲解之《基于ML的软件的三个层次之02 Model： Machine Learning Pipelines——2.5 Different forms of ML workfl》解读
ML:MLOps系列讲解之<基于ML的软件的三个层次之02 Model: Machine Learning Pipelines--2.5 Different forms of ML workfl ...

Machine Learning——Linear Model

基本形式

Linear Regression（线性回归）

Logistic Regression（对数几率回归）

线性判断分析（LDA）

多分类学习

类别不平衡问题

Machine Learning——Linear Model相关推荐

最新文章

热门文章