协方差和协方差矩阵详解

理解协方差矩阵的关键就在于牢记它计算的是不同维度之间的协方差，而不是不同样本之间，拿到一个样本矩阵，我们最先要明确的就是一行是一个样本还是一个维度，心中明确这个整个计算过程就会顺流而下，这么一来就不会迷茫了。

统计学的基本概念：

学过概率统计的孩子都知道，统计里最基本的概念就是样本的均值，方差，或者再加个标准差。首先我们给你一个含有n个样本的集X={X1,X2,...,Xn}X=\{X_1,X_2,...,X_n\},依次给出均值（期望）、标准差和方差的公式描述：
均值：

X¯¯¯=∑ni=1Xin

\overline{X} = \frac{\sum_{i=1}^n Xi}{n}
标准差：

∑ni=1(Xi−X¯¯¯)2n−1−−−−−−−−−−−−−√

\sqrt{ \frac{\sum_{i=1}^n (X_i- \overline{X})^2}{n-1}}
方差：

∑ni=1(Xi−X¯¯¯)2n−1

\frac{\sum_{i=1}^n (X_i- \overline{X})^2}{n-1}

很显然,均值描述的是样本集合的中间点，它告诉我们的信息是很有限的，而标准差给我们描述的则是样本集合的各个样本点到均值的距离之平均。以这两个集合为例，[0，8，12，20]和[8，9，11，12]，两个集合的均值都是10，但显然两个集合差别是很大的，计算两者的标准差，前者是8.3，后者是 1.8，显然后者较为集中，故其标准差小一些，标准差描述的就是这种“散布度”。之所以除以n-1而不是除以n，是因为这样能使我们以较小的样本集更好的逼近总体的标准差，即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。

为什么需要协方差？:

上面几个统计量看似已经描述的差不多了，但我们应该注意到，标准差和方差一般是用来描述一维数据的，但现实生活我们常常遇到含有多维数据的数据集，最简单的大家上学时免不了要统计多个学科的考试成绩。面对这样的数据集，我们当然可以按照每一维独立的计算其方差，但是通常我们还想了解更多，比如，一个男孩子的猥琐程度跟他受女孩子欢迎程度是否存在一些联系啊，嘿嘿~协方差就是这样一种用来度量两个随机变量关系的统计量。
我们可以仿照方差的定义：

var(X)=∑ni=1(Xi−X¯¯¯)(Xi−X¯¯¯)n−1

var(X)=\frac{\sum_{i=1}^n(X_i- \overline{X})(X_i- \overline{X})}{n-1}
来度量各个维度偏离其均值的程度，标准差可以这么来定义：

cov(X，Y)=∑ni=1(Xi−X¯¯¯)(Yi−Y¯¯¯)n−1

cov(X，Y)=\frac{\sum_{i=1}^n(X_i- \overline{X})(Y_i- \overline{Y})}{n-1}
协方差的结果有什么意义呢？如果结果为正值，则说明两者是正相关的(从协方差可以引出“相关系数”的定义)，也就是说一个人越猥琐就越受女孩子欢迎，嘿嘿，那必须的~结果为负值就说明负相关的，越猥琐女孩子越讨厌，可能吗？如果为0，也是就是统计上说的“相互独立”。

从协方差的定义上我们也可以看出一些显而易见的性质，如：
cov(X,X)=var(X)cov(X,X)=var(X)
cov(X,Y)=cov(Y,X)cov(X,Y)=cov(Y,X)

协方差多了就是协方差矩阵

上一节提到的猥琐和受欢迎的问题是典型二维问题，而协方差也只能处理二维问题，那维数多了自然就需要计算多个协方差，比如n维的数据集就需要计算C2nC_n^2 个协方差，那自然而然的我们会想到使用矩阵来组织这些数据。给出协方差矩阵的定义：

Cn∗n=⎛⎝⎜⎜⎜⎜C11C21⋮Cn1C12C22⋮Cn2⋯⋯⋯⋯C1nC2n⋮Cnn⎞⎠⎟⎟⎟⎟其中Cij=cov(Dimi,Dimj)

C_{n*n}=\begin{pmatrix}C_{11} & C_{12} & \cdots & C_{1n} \\C_{21} & C_{22} & \cdots & C_{2n} \\\vdots & \vdots & \cdots & \vdots \\C_{n1} & C_{n2} & \cdots & C_{nn} \\\end{pmatrix} 其中C_{ij}=cov(Dim_i,Dim_j)
DimiDim_i 是指第i维向量。

这个定义还是很容易理解的，我们可以举一个简单的三维的例子，假设数据集有{x,y,z}\{x,y,z\} 三个维度，则协方差矩阵为：

C=⎛⎝⎜cov(x,x)cov(y,x)cov(z,x)cov(x,y)cov(y,y)cov(z,y)cov(x,z)cov(y,z)cov(z,z)⎞⎠⎟

C=\begin{pmatrix}cov(x,x) & cov(x,y) & cov(x,z) \\cov(y,x) & cov(y,y) & cov(y,z) \\cov(z,x) & cov(z,y) & cov(z,z) \\\end{pmatrix}
可见，协方差矩阵是一个对称的矩阵，而且对角线是各个维度上的方差。

协方差矩阵还可以这样计算，先让样本矩阵中心化，即每一维度减去该维度的均值，使每一维度上的均值为0，然后直接用新的到的样本矩阵乘上它的转置，然后除以(N-1)即可。其实这种方法也是由前面的公式通道而来，只不过理解起来不是很直观，但在抽象的公式推导时还是很常用的！