坐标变换

已知b1, b2 为新的基向量。A为基变换矩阵。

变换矩阵怎么来的？
对于e1，e2而言，实际上就是b1,b2本身。
变换矩阵 乘上 新的基向量下的坐标 的意义是什么？
是原基向量下的坐标。所以变换矩阵的意义就在于此。

主成分分析

它主要是以“提取出特征的主要成分”这一方式来实现降维的。
如下所示一矩阵。

n行的特征，m列的样本。
[x1,x2,...,xm]=[x11x12⋯x1mx21⋮⋮⋮xn1⋯⋯xnm]\left[ x_1,x_2,...,x_m \right] =\left[ \begin{matrix}{} x_{11}& x_{12}& \cdots& x_{1m}\\ x_{21}& & & \vdots\\ \vdots& & & \vdots\\ x_{n1}& \cdots& \cdots& x_{nm}\\ \end{matrix} \right] [x1,x2,...,xm]=⎣⎡x11x21⋮xn1x12⋯⋯⋯x1m⋮⋮xnm⎦⎤
对每一个特征进行零均值化。就是把每个数减去该行的均值，得到一个新的矩阵。（这是为了对特征一视同仁）
求协方差矩阵。
cov(X,Y)=E((X−E(X))(Y−E(Y)))cov\left( X,Y \right) =E\left( \left( X-E\left( X \right) \right) \left( Y-E\left( Y \right) \right) \right) cov(X,Y)=E((X−E(X))(Y−E(Y)))
由于之前已经经过零均值化处理，所以
cov(X,Y)=E(XY)=1n∑1nxiyicov\left( X,Y \right) =E\left( XY \right) =\frac{1}{n}\sum_1^n{x_iy_i} cov(X,Y)=E(XY)=n11∑nxiyi
而协方差矩阵如下，注意是特征与特征的比较，也就是行与行的比较。
[cov(x1,x1)cov(x1,x2)⋯cov(x1,xn)cov(x2,x1)⋮⋮⋮cov(xn,x1)⋯⋯cov(xn,xn)]=1nXXT\left[ \begin{matrix} cov\left( x_1,x_1 \right)& cov\left( x_1,x_2 \right)& \cdots& cov\left( x_1,x_n \right)\\ cov\left( x_2,x_1 \right)& & & \vdots\\ \vdots& & & \vdots\\ cov\left( x_n,x_1 \right)& \cdots& \cdots& cov\left( x_n,x_n \right)\\ \end{matrix} \right] =\frac{1}{n}XX^T ⎣⎡cov(x1,x1)cov(x2,x1)⋮cov(xn,x1)cov(x1,x2)⋯⋯⋯cov(x1,xn)⋮⋮cov(xn,xn)⎦⎤=n1XXT
求出协方差矩阵的特征值和特征向量，将特征值从大到小排列，特征向量依次对应（特征向量要标准化）。
怎么特征分解可以看我这篇博客
取前k行组成新的矩阵P。
Y = PX，得到的Y就是新的降维的矩阵。相当于P是一个降维矩阵，是将X投影到低维度上。

解释一下为什么协方差矩阵的特征值越大，越能成为主成分。
1）在信号处理中认为信号具有较大的方差，噪声有较小的方差。如果样本在X上的投影方差较大，在Y上的投影方差较小，那么可认为Y上的投影是由噪声引起的。
2）方差越大，数据越分散，也就意味着信息量越多，信号越强，也可以说熵越大，该特征越有区分度。协方差代表维度x和维度y之间的相关程度，协方差越大，也就意味着噪声越大，信息的冗余程度越高。
因此n维的数据降低到k维，在k维上的每一维的样本方差都很大。

贝叶斯决策

贝叶斯公式
P(Bi∣A)=P(Bi)P(A∣Bi)P(A)=P(Bi)P(A∣Bi)∑j=1nP(A∣Bj)P(Bj)P\left( B_i|A \right) =\frac{P\left( B_i \right) P\left( A|B_i \right)}{P\left( A \right)}=\frac{P\left( B_i \right) P\left( A|B_i \right)}{\sum_{j=1}^n{P\left( A|B_j \right) P\left( B_j \right)}} P(Bi∣A)=P(A)P(Bi)P(A∣Bi)=∑j=1nP(A∣Bj)P(Bj)P(Bi)P(A∣Bi)

P（A），P（B）：事件A、B的先验概率。
P（A|B），P（B|A）：事件A，B的后验概率。
P（A|B）/ P(A) ：调整因子。

贝叶斯决策：扔进去一个先验概率P（B），若调整因子大于1，P（B）变大，若小于1，P（B）变小，实际上是利用已知的信息（后验概率）起到对B的一个修正的作用，

最小错误率贝叶斯决策

最小错误率———错误的概率最小———正确的概率最大。
对二类决策问题，假设可以分成w1，w2两类。x表示样本，错误率为e。决策在x样本上的错误率：
P(e∣x)={P(w2∣x)x∈w1P(w1∣x)x∈w2P\left( e|x \right) =\begin{cases} P\left( w_2|x \right) \,\,x\in w_1\\ P\left( w_1|x \right) \,\,x\in w_2\\ \end{cases} P(e∣x)={P(w2∣x)x∈w1P(w1∣x)x∈w2
一个类的错误率等于另一个类的正确率。那其实可以认为：
若P(w1∣x)>P(w2∣x)则x∈w1;否则x∈w2\text{若}P\left( w_1|x \right) >P\left( w_2|x \right) \text{则}x\in w_1;\text{否则}x\in w_2 若P(w1∣x)>P(w2∣x)则x∈w1;否则x∈w2

最小风险贝叶斯决策

最小风险：决策的错误带来的损失最小！
损失：需要把不同决策看成行，真实的状态看成列，创建一个损失决策表（一般专家才能给出），实际上就是定义不同的损失函数。
怎么决策：让损失最小，最小化期望风险。

朴素贝叶斯分类

朴素：各个特征相互独立，满足属性条件独立性假设。
样本x属于yk类的后验概率P(yk∣x)=P(yk)P(x∣yk)P(x)P\left( y_k|x \right) =\frac{P\left( y_k \right) P\left( x|y_k \right)}{P\left( x \right)} P(yk∣x)=P(x)P(yk)P(x∣yk)
P（yk）可由训练样本集中该类样本出现的频率来估计
P（x）样本的概率，与类别无关，可以直接算。
P（x|yk）可由yk类内属性为x的样本的比例来估计。
看下面这个式子就可以明白了。训练集会告诉你右边式子的所有的概率。
先把嫁的筛选出来，再求不帅的频率
图片来源
有些概率逼近于0怎么办。
扩大样本容量：增加m个等效样本。得到新的类条件概率：（ni是yk类内样本xi的个数，p为之前的概率）
P(xi∣yk)=ni+mpn+mP\left( x_i|y_k \right) =\frac{n_i+mp}{n+m} P(xi∣yk)=n+mni+mp

参数估计

估计量的评价

无偏性
E(θ~)=θE\left( \widetilde{\theta } \right) =\theta E(θ)=θ
可以这么理解，题目证明：某样本统计值是总体统计值的无偏估计量。
E套进去。例如，证明样本均值是期望u的无偏估计量。
E(Xˉ)=E(1n∑i=1nE(Xi))=1n∑i=1nμ=μE\left( \bar{X} \right) =E\left( \frac{1}{n}\sum_{i=1}^n{E\left( X_i \right)} \right) =\frac{1}{n}\sum_{i=1}^n{\mu}=\mu E(Xˉ)=E(n1i=1∑nE(Xi))=n1i=1∑nμ=μ
有效性

点估计

矩估计

样本K阶原点矩收敛于期望
1n∑i=1nXik=E(Xk)\frac{1}{n}\sum_{i=1}^n{X_{i}^{k}=E\left( X^k \right)} n1i=1∑nXik=E(Xk)

最大似然估计

对L（）取对数，然后求导，然后导数等于0，因为要求最大值。以此估计。

最小二乘估计

坐标变换、主成分分析、贝叶斯决策、参数估计相关推荐

史上最萌最认真的机器学习/深度学习/模式识别入门指导手册(三)
能够坚持走到阶段三的喵一定是很有毅力的喵!也是很合格的机器学习/人工智能研究者啦~但是走到这里,也意味着您不满足于使用看似孤立的机器学习模型来生硬的完成一些任务,那么,大一统的理论体系就在这一阶段建立 ...
模式识别笔记（一）概论、贝叶斯决策（参数估计、非参数估计）
概论人工智能:机器对人类智能的模仿人类智能:感知.学习.思考.语言.行动模式识别(机器感知):将非结构化数据转化为结构化知识模式识别基本方法: 特征提取.特征选择特征空间上的分类器分类器设 ...
机器学习 —— 基础整理（一）贝叶斯决策论；二次判别函数；贝叶斯错误率；生成式模型的参数方法...
本文简单整理了以下内容: (一)贝叶斯决策论:最小错误率决策.最小风险决策:经验风险与结构风险 (二)判别函数:生成式模型:多元高斯密度下的判别函数:线性判别函数LDF.二次判别函数QDF (三)贝叶 ...
贝叶斯决策理论对CIFAR-10数据图像分类
1:数据集介绍 CIFAR-10 是一个用于普世物体识别的数据集,分为airplane.automobile.bird.cat.deer. dog.frog.horse.ship.truck共10 类 ...
主成分分析、因子分析、聚类分析的比较与应用
听说这是一篇论文不过我没详细看. 一.概述主成分分析就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差- 协方差结构.综合指标即为主成分.所得出的少数几个主成分,要尽可能多地保留原 ...
主成分分析二级指标权重_羡慕神仙权重？主成分与因子分析带你揭开权重的秘密...
文末领取[世界500强面试题及评点50题] 01 主成分分析 1.主成分分析流程原始数据标准化计算标准化变量间的相关系数矩阵计算相关系数矩阵的特征值和特征向量计算主成分变量值统计结果分析,提 ...
lda 吗样本中心化需要_机器学习 —— 基础整理（四）：特征提取之线性方法——主成分分析PCA、独立成分分析ICA、线性判别分析LDA...
本文简单整理了以下内容: (一)维数灾难 (二)特征提取--线性方法 1. 主成分分析PCA 2. 独立成分分析ICA 3. 线性判别分析LDA (一)维数灾难(Curse of dimensiona ...
【数学基础】参数估计之贝叶斯估计
从统计推断讲起统计推断是根据样本信息对总体分布或总体的特征数进行推断,事实上,这经典学派对统计推断的规定,这里的统计推断使用到两种信息:总体信息和样本信息:而贝叶斯学派认为,除了上述两种信息以外,统 ...
【数学基础】参数估计之极大似然估计
背景先来看看几个小例子: 猎人师傅和徒弟一同去打猎,遇到一只兔子,师傅和徒弟同时放枪,兔子被击中一枪,那么是师傅打中的,还是徒弟打中的? 一个袋子中总共有黑白两种颜色100个球,其中一种颜色90个, ...

坐标变换、主成分分析、贝叶斯决策、参数估计

我真的会忘（2）