协方差与相关系数介绍

文章目录

1. 协方差
2. 相关系数

1. 协方差

定义

量E{[X−E(X)][Y−E(Y)]}E\{[X-E(X)][Y-E(Y)]\}E{[X−E(X)][Y−E(Y)]} 称为随机变量XXX与YYY的协方差。记为Cov(X,Y)Cov(X,Y)Cov(X,Y) ,即Cov(X,Y)=E{[X−E(X)][Y−E(Y)]}Cov(X,Y) = E\{[X-E(X)][Y-E(Y)]\}Cov(X,Y)=E{[X−E(X)][Y−E(Y)]}
1)1)1) 由定义很容易知道Cov(X,Y)=Cov(Y,X)，Cov(X,X)=D(X)Cov(X,Y) = Cov(Y,X)，Cov(X,X) = D(X)Cov(X,Y)=Cov(Y,X)，Cov(X,X)=D(X)
2)2)2) 我们在介绍方差时，有性质 D(X+Y)=D(X)+D(Y)+2E{[X−E(X)][Y−E(Y)]}=D(X)+D(Y)+2Cov(X,Y)D(X+Y)=D(X)+D(Y)+2E\{[X-E(X)][Y-E(Y)]\} = D(X)+D(Y)+2Cov(X,Y)D(X+Y)=D(X)+D(Y)+2E{[X−E(X)][Y−E(Y)]}=D(X)+D(Y)+2Cov(X,Y)
3)3)3) 往往使用下面的式子计算协方差的值Cov(X,Y)=E{[X−E(X)][Y−E(Y)]}=E(XY)−E(X)E(Y)Cov(X,Y) = E\{[X-E(X)][Y-E(Y)]\} = E(XY)-E(X)E(Y)Cov(X,Y)=E{[X−E(X)][Y−E(Y)]}=E(XY)−E(X)E(Y)
性质

1oCov(aX,bY)=abCov(X,Y),a、b1^o \quad Cov(aX,bY) = abCov(X,Y), a、b1oCov(aX,bY)=abCov(X,Y),a、b 为常数

证明

Cov(aX,bY)=E(aXbY)−E(aX)E(bY)=ab[E(XY)−E(X)E(Y)]=abCov(X,Y)Cov(aX,bY) = E(aXbY)-E(aX)E(bY) = ab[E(XY)-E(X)E(Y)] = abCov(X,Y)Cov(aX,bY)=E(aXbY)−E(aX)E(bY)=ab[E(XY)−E(X)E(Y)]=abCov(X,Y)

2oCov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)2^o \quad Cov(X_1+X_2,Y)= Cov(X_1,Y)+Cov(X_2,Y)2oCov(X1+X2,Y)=Cov(X1,Y)+Cov(X2,Y)

证明

Cov(X1+X2,Y)=E[(X1+X2)Y−E(X1+X2)E(Y)=E(X1Y)+E(X2Y)−E(X1)E(Y)−E(X2)E(Y)=Cov(X1,Y)+Cov(X2,Y)Cov(X_1+X_2,Y)= E[(X_1+X_2)Y-E(X_1+X_2)E(Y) = E(X_1Y)+E(X_2Y)-E(X_1)E(Y)-E(X_2)E(Y)=Cov(X_1,Y)+Cov(X_2,Y)Cov(X1+X2,Y)=E[(X1+X2)Y−E(X1+X2)E(Y)=E(X1Y)+E(X2Y)−E(X1)E(Y)−E(X2)E(Y)=Cov(X1,Y)+Cov(X2,Y)

2. 相关系数

定义

协方差反映了变量之间的某种线性关系，但是这个关系结果会受到度量单位的影响，举个简单的例子，XXX表示一些人的身高，YYY 表示这些人的体重，我们想知道身高和体重的关系，如果身高使用单位为cmcmcm，当体重用kgkgkg和ggg时会得到数值完全不同的关系数值，为了消除这种影响，我们需要对随机变量X,YX,YX,Y 进行标准化就可以了，则令X∗=X−E(X)D(X)，Y∗=Y−E(Y)D(Y)X^* = \frac{X-E(X)}{\sqrt{D(X)}}，Y^* = \frac{Y-E(Y)}{\sqrt{D(Y)}}X∗=D(X)X−E(X)，Y∗=D(Y)Y−E(Y)，此时有Cov(X∗,Y∗)=E(X∗Y∗)−E(X∗)E(Y∗)=E[X−E(X)D(X)Y−E(Y)D(Y)]−E(X−E(X)D(X))E(Y−E(Y)D(Y))=E{[X−E(X)][Y−E(Y)]}D(X)D(Y)−0=Cov(X,Y)D(X)D(Y)\begin{aligned}Cov(X^*,Y^*) &= E(X^*Y^*)-E(X^*)E(Y^*) \\&= E[\frac{X-E(X)}{\sqrt{D(X)}}\frac{Y-E(Y)}{\sqrt{D(Y)}}]-E(\frac{X-E(X)}{\sqrt{D(X)}})E(\frac{Y-E(Y)}{\sqrt{D(Y)}}) \\&= \frac{E\{[X-E(X)][Y-E(Y)]\}}{\sqrt{D(X)}\sqrt{D(Y)}}-0 = \frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}\end{aligned}Cov(X∗,Y∗)=E(X∗Y∗)−E(X∗)E(Y∗)=E[D(X)X−E(X)D(Y)Y−E(Y)]−E(D(X)X−E(X))E(D(Y)Y−E(Y))=D(X)D(Y)E{[X−E(X)][Y−E(Y)]}−0=D(X)D(Y)Cov(X,Y)

我们称ρXY=Cov(X,Y)D(X)D(Y)，\rho_{XY} = \frac{Cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}}，ρXY=D(X)D(Y)Cov(X,Y)，为随机变量XXX与YYY的相关系数
性质

1o∣ρXY∣≤1.1^o \quad |\rho_{XY}|\leq1.1o∣ρXY∣≤1.

证明：

考虑以XXX的线性函数a+bXa+bXa+bX 来近似表示YYY，以均方误差e=E[Y−(a+bX)]2e = E[Y-(a+bX)]^2e=E[Y−(a+bX)]2 来表示以a+bXa+bXa+bX近似表达YYY的好坏程度，很明显，eee越小，说明a+bXa+bXa+bX与YYY的近似程度越高，由此我们的目标变为计算均方误差eee的最小值。求解过程如下

e=E[Y−(a+bX)]2=E(Y2+a2+b2X2+2abX−2aY−2bXY)=E(Y2)+b2E(X2)+2abE(X)−2aE(Y)−2bE(XY)+a2\begin{aligned} e &= E[Y-(a+bX)]^2 = E(Y^2+a^2+b^2X^2+2abX-2aY-2bXY)\\&=E(Y^2)+b^2E(X^2)+2abE(X)-2aE(Y)-2bE(XY)+a^2\\ & \end{aligned}e=E[Y−(a+bX)]2=E(Y2+a2+b2X2+2abX−2aY−2bXY)=E(Y2)+b2E(X2)+2abE(X)−2aE(Y)−2bE(XY)+a2

将eee 分别对a,ba,ba,b求偏导并令它们等于000，得到

{∂e∂a=2a+2bE(X)−2E(Y)=0∂e∂b=2bE(X2)+2aE(X)−2E(XY)=0\begin{cases} \frac{\partial e}{\partial a} = 2a + 2bE(X) - 2E(Y) = 0 \\ \\ \frac{\partial e}{\partial b} = 2bE(X^2)+2aE(X)-2E(XY) = 0 \end{cases}⎩⎪⎨⎪⎧∂a∂e=2a+2bE(X)−2E(Y)=0∂b∂e=2bE(X2)+2aE(X)−2E(XY)=0

很容易解得 b0=Cov(X,Y)D(X)b_0 = \frac{Cov(X,Y)}{D(X)}b0=D(X)Cov(X,Y) （方程组中式2−2-2−式1∗E(X)1*E(X)1∗E(X)）， a0=E(Y)−b0E(X)=E(Y)−E(X)Cov(X,Y)D(X)a_0=E(Y)-b_0E(X) = E(Y)-E(X)\frac{Cov(X,Y)}{D(X)}a0=E(Y)−b0E(X)=E(Y)−E(X)D(X)Cov(X,Y)

∴min⁡a,be=E[Y−(a0+b0X)]2=D(Y−a0−b0X)+{E[Y−a0−b0X]}2=D(Y)+b02D(X)−2b0Cov(X,Y)+[E(Y)−a0−b0E(X)]2=D(Y)+[Cov(X,Y)]2D(X)−2[Cov(X,Y)]2D(X)+[−12∂e∂a∣a=a0,b=b0]2=D(Y){1−[Cov(X,Y)]2D(X)D(Y)}+0=(1−ρXY2)D(Y)\begin{aligned} \therefore \min_{a,b}e &= E[Y-(a_0+b_0X)]^2 = D(Y-a_0-b_0X)+\{E[Y-a_0-b_0X]\}^2\\&=D(Y)+b_0^2D(X)-2b_0Cov(X,Y) + [E(Y)-a_0-b_0E(X)]^2 \\&=D(Y)+ \frac{[Cov(X,Y)]^2}{D(X)}- \frac{2[Cov(X,Y)]^2}{D(X)} + \bigg[-\frac{1}{2}\frac{\partial e}{\partial a}\bigg|_{a=a_0, b=b_0}\bigg]^2 \\&= D(Y)\{1- \frac{[Cov(X,Y)]^2}{D(X)D(Y)}\}+0 \\&= (1-\rho_{XY}^2)D(Y) \end{aligned}∴a,bmine=E[Y−(a0+b0X)]2=D(Y−a0−b0X)+{E[Y−a0−b0X]}2=D(Y)+b02D(X)−2b0Cov(X,Y)+[E(Y)−a0−b0E(X)]2=D(Y)+D(X)[Cov(X,Y)]2−D(X)2[Cov(X,Y)]2+[−21∂a∂e∣∣∣∣a=a0,b=b0]2=D(Y){1−D(X)D(Y)[Cov(X,Y)]2}+0=(1−ρXY2)D(Y)

∵[Y−(a+bX)]2≥0∴E(e)≥0,因此有(1−ρXY2)D(Y)≥0,而D(Y)≥0∴1−ρXY2≥0即∣ρxy∣≤1.\because [Y-(a+bX)]^2 \geq0 \quad \therefore E(e)\geq0 , 因此有 (1-\rho_{XY}^2)D(Y) \geq0,而 D(Y)\geq0\\ \therefore 1-\rho_{XY}^2 \geq 0 \quad即 \quad |\rho_{xy}|\leq1.∵[Y−(a+bX)]2≥0∴E(e)≥0,因此有(1−ρXY2)D(Y)≥0,而D(Y)≥0∴1−ρXY2≥0即∣ρxy∣≤1.

十分推荐这种方法来证明∣ρXY∣≤1|\rho_{XY}|\leq1∣ρXY∣≤1 ，原因是这种证明方式，很清楚的表达了ρXY\rho_{XY}ρXY 的含义，当∣ρXY∣|\rho_{XY}|∣ρXY∣较大时，均方误差eee 较小，表示X,YX,YX,Y的线性关系越紧密。不仅如此，该证明方式还给出了，均方误差eee 最小时，a,ba,ba,b的取值，也就很明确了随机变量X,YX,YX,Y之间的线性关系。

证明方法二：

利用柯西−-−施瓦兹不等式进行证明，对于两个随机变量V,WV,WV,W，若E(V2),E(W2)E(V^2),E(W^2)E(V2),E(W2)存在，则E(VW)2≤E(V2)E(W2),E(VW)^2\leq E(V^2)E(W^2) ,E(VW)2≤E(V2)E(W2),这个不等式称为柯西−\pmb -−−−施瓦兹不等式

我们先证明这个不等式：

令 g(t)=E[(V+tW)2]=t2E(W2)+2tE(VW)+E(V2)g(t)=E[(V+tW)^2] = t^2E(W^2)+ 2tE(VW) +E(V^2)g(t)=E[(V+tW)2]=t2E(W2)+2tE(VW)+E(V2)

则g(t)≥0g(t)\geq0g(t)≥0必然成立，即有g(t)=t2E(W2)+2tE(VW)+E(V2)≥0g(t) = t^2E(W^2)+ 2tE(VW) +E(V^2) \geq0g(t)=t2E(W2)+2tE(VW)+E(V2)≥0 恒成立，这里将g(t)g(t)g(t) 看做是关于ttt的抛物线，高中知识就知道，要满足抛物线大于等于000成立，需要Δ=b2−4ac=[2E(VW)]2−4E(W2)E(V2)≤0\Delta = b^2-4ac = [2E(VW)]^2-4E(W^2)E(V^2)\leq 0Δ=b2−4ac=[2E(VW)]2−4E(W2)E(V2)≤0 即 E(VW)2≤E(V2)E(W2)E(VW)^2\leq E(V^2)E(W^2)E(VW)2≤E(V2)E(W2) 恒成立，因此柯西−-−施瓦兹不等式得到证明。

下面利用柯西−-−施瓦兹不等式证明∣ρxy∣≤1|\rho_{xy}|\leq1∣ρxy∣≤1

ρXY=Cov(X,X)D(X)D(Y)\begin{aligned} \rho_{XY} &= \frac{Cov(X,X)}{\sqrt{D(X)}\sqrt{D(Y)}} \end{aligned}ρXY=D(X)D(Y)Cov(X,X) 我们要利用柯西−-−施瓦兹不等式进行证明，因此考虑两边同时取平方，此时有

ρxy2=[Cov(X,Y)]2D(X)D(Y)={E[X−E(X)][Y−E(Y)]}2D(X)D(Y)≤E[X−E(X)]2E[Y−E(Y)]2D(X)D(Y)=D(X)D(Y)D(X)D(Y)=1∴∣ρXY∣≤1\begin{aligned} \rho_{xy}^2 &= \frac{[Cov(X,Y)]^2}{D(X)D(Y)} = \frac{\{E[X-E(X)][Y-E(Y)]\}^2}{D(X)D(Y)} \\&\leq \frac{E[X-E(X)]^2E[Y-E(Y)]^2}{D(X)D(Y)} = \frac{D(X)D(Y)}{D(X)D(Y)} = 1 \\ \therefore |\rho_{XY}|\leq1 \end{aligned}ρxy2∴∣ρXY∣≤1=D(X)D(Y)[Cov(X,Y)]2=D(X)D(Y){E[X−E(X)][Y−E(Y)]}2≤D(X)D(Y)E[X−E(X)]2E[Y−E(Y)]2=D(X)D(Y)D(X)D(Y)=1

2o∣ρXY∣=1.2^o \quad |\rho_{XY}|=1.2o∣ρXY∣=1.的充要条件是存在常数a,ba,ba,b使 P{Y=a+bX}=1P\{Y=a+bX\}=1P{Y=a+bX}=1

证明

1.1. \quad1. 已知 ∣ρXY∣=1|\rho_{XY}|=1∣ρXY∣=1

我们在证明性质111 时知道，

E[Y−(a0+b0X)]2=D(Y−a0−b0X)+{E[Y−a0−b0X]}2=0∵D(Y−a0−b0X)≥0{E[Y−a0−b0X]}2≥0∴D(Y−a0−b0X)=0E[Y−a0−b0X]=0\begin{aligned} &E[Y-(a_0+b_0X)]^2 =D(Y-a_0-b_0X)+\{E[Y-a_0-b_0X]\}^2= 0 \\&\because D(Y-a_0-b_0X) \geq0 \quad \{E[Y-a_0-b_0X]\}^2 \geq0 \\ &\therefore D(Y-a_0-b_0X) = 0 \quad E[Y-a_0-b_0X] = 0\end{aligned}E[Y−(a0+b0X)]2=D(Y−a0−b0X)+{E[Y−a0−b0X]}2=0∵D(Y−a0−b0X)≥0{E[Y−a0−b0X]}2≥0∴D(Y−a0−b0X)=0E[Y−a0−b0X]=0

由方差性质可知，有P{Y−a0−b0X=E(Y−a0−b0X)}=1P\{Y-a_0-b_0X=E(Y-a_0-b_0X)\} = 1P{Y−a0−b0X=E(Y−a0−b0X)}=1 即 P{Y−a0−b0X=0}=1P\{Y-a_0-b_0X=0\} = 1P{Y−a0−b0X=0}=1

∴\therefore \quad∴ 存在常数a,ba,ba,b使 P{Y=a+bX}=1P\{Y=a+bX\}=1P{Y=a+bX}=1

2.2. \quad2. 已知存在常数a,ba,ba,b,设为a0,b0a_0,b_0a0,b0 使 P{Y=a0+b0X}=1P\{Y=a_0+b_0X\}=1P{Y=a0+b0X}=1 。

由方差性质可知，D(Y−a0−b0X)=0D(Y-a_0-b_0X) = 0D(Y−a0−b0X)=0

∵P{Y=a0+b0X}=1∴E(Y−a0−b0X)=0,P{[Y−a0−b0X]2=0}=1∴E{[Y−a0−b0X]2}=0∴D(Y−a0−b0X)=E[Y−(a0+b0X)]2−{E[Y−a0−b0X]}2=0−0=0∴D(Y−a0−b0X)=D(Y)+b02D(X)−2b0Cov(X,Y)=0\because P\{Y=a_0+b_0X\}=1 \quad \therefore E(Y-a_0-b_0X) = 0,\ \quad P\{[Y-a_0-b_0X]^2=0\}=1 \\\therefore E\{[Y-a_0-b_0X]^2\} = 0 \quad \therefore D(Y-a_0-b_0X) = E[Y-(a_0+b_0X)]^2- \{E[Y-a_0-b_0X]\}^2 = 0-0 = 0\\\therefore D(Y-a_0-b_0X)=D(Y)+b_0^2D(X)-2b_0Cov(X,Y) = 0∵P{Y=a0+b0X}=1∴E(Y−a0−b0X)=0, P{[Y−a0−b0X]2=0}=1∴E{[Y−a0−b0X]2}=0∴D(Y−a0−b0X)=E[Y−(a0+b0X)]2−{E[Y−a0−b0X]}2=0−0=0∴D(Y−a0−b0X)=D(Y)+b02D(X)−2b0Cov(X,Y)=0

令 g(b)=D(Y)+b2D(X)−2bCov(X,Y)g(b) = D(Y)+b^2D(X)-2bCov(X,Y)g(b)=D(Y)+b2D(X)−2bCov(X,Y)，应满足Δ=[−2Cov(X,Y)]2−4D(X)D(Y)≥0.\Delta = [-2Cov(X,Y)]^2-4D(X)D(Y) \geq0.Δ=[−2Cov(X,Y)]2−4D(X)D(Y)≥0. 即 ρXY2≥1\rho_{XY}^2\geq1ρXY2≥1

由性质1o(∣ρXY∣≤1)1^o (|\rho_{XY}|\leq1)1o(∣ρXY∣≤1)可知，此时有 ∣ρXY∣=1|\rho_{XY}|=1∣ρXY∣=1 成立

该性质表明随机变量X,YX,YX,Y之间以概率111存在着线性关系，当∣ρXY∣|\rho_{XY}|∣ρXY∣ 较大时，通常说X,YX,YX,Y的线性相关程度较好；反之，则说X,YX,YX,Y的线性相关程度较差
特殊的相关系数值
- 当ρXY=0\rho_{XY} = 0ρXY=0 时，表示X,YX,YX,Y 没有线性关系，注意这里是没有线性关系，没有说不可以有非线性关系
- 当ρXY>0\rho_{XY} > 0ρXY>0 时，表示X,YX,YX,Y 正相关
- 当ρXY=1\rho_{XY} = 1ρXY=1 时，表示X,YX,YX,Y 完全正相关
- 当ρXY<0\rho_{XY} < 0ρXY<0 时，表示X,YX,YX,Y 负相关
- 当ρXY=−1\rho_{XY} = -1ρXY=−1 时，表示X,YX,YX,Y 完全负相关

相关与独立

两个变量独立，此时有 Cov(X,Y)=E(XY)−E(X)E(Y)=0,Cov(X,Y) = E(XY)-E(X)E(Y) = 0,Cov(X,Y)=E(XY)−E(X)E(Y)=0,所以有ρXY=0\rho_{XY}=0ρXY=0,即 独立一定不相关

两个随机变量不相关，此时虽然有 ρXY=0\rho_{XY}=0ρXY=0 但却不一定独立。字面理解的话，就是当ρXY=0\rho_{XY} = 0ρXY=0 时，表示X,YX,YX,Y 没有线性关系，注意这里是没有线性关系，没有说不可以有非线性关系

下面给出一个两个随机变量不相关，也不独立的例子，加深理解

Y/XY/XY/X	−2-2−2	−1-1−1	111	222
111	000	14\frac{1}{4}41	14\frac{1}{4}41	000
444	14\frac{1}{4}41	000	000	14\frac{1}{4}41

由表格可知

E(X)=−2∗14+(−1)∗14+1∗14+2∗14=0.E(Y)=1∗(0+14+14+0)+4∗(14+0+0+14)=2.5E(XY)=(1∗−2)∗0+(−2∗4)∗14+(−1∗1)∗14+(−1∗4)∗0+(1∗1)14+(1∗4)∗0+(1∗2)∗0+(2∗4)∗14=0则ρXY=0E(X) = -2*\frac{1}{4}+(-1)*\frac{1}{4}+1*\frac{1}{4}+2*\frac{1}{4} = 0. \quad E(Y) = 1*(0+\frac{1}{4}+\frac{1}{4}+0)+4*(\frac{1}{4}+0+0+\frac{1}{4}) = 2.5 \\E(XY) = (1*-2)*0+(-2*4)*\frac{1}{4}+(-1*1)*\frac{1}{4}+(-1*4)*0+(1*1)\frac{1}{4}+(1*4)*0+(1*2)*0+(2*4)*\frac{1}{4} = 0 \\ 则 \rho_{XY}=0E(X)=−2∗41+(−1)∗41+1∗41+2∗41=0.E(Y)=1∗(0+41+41+0)+4∗(41+0+0+41)=2.5E(XY)=(1∗−2)∗0+(−2∗4)∗41+(−1∗1)∗41+(−1∗4)∗0+(1∗1)41+(1∗4)∗0+(1∗2)∗0+(2∗4)∗41=0则ρXY=0

∵P{X=−2,Y=1}=0≠P{X=−2}∗P{Y=1}\because \quad P\{X=-2,Y=1\} = 0 \neq P\{X=-2\}*P\{Y=1\} \quad∵P{X=−2,Y=1}=0=P{X=−2}∗P{Y=1} ，因此随机变量X,YX,YX,Y 并不独立。

特例，设(X,Y)(X,Y)(X,Y) 服从二维正态分布，记作(X,Y)∼N(μ1,μ2,σ12,σ22,ρ)(X,Y)\sim N(\mu_1,\mu_2,\sigma_1^2,\sigma_2^2,\rho)(X,Y)∼N(μ1,μ2,σ12,σ22,ρ),其中 μ1,μ2,σ1,σ2,ρ\mu_1,\mu_2,\sigma_1,\sigma_2,\rhoμ1,μ2,σ1,σ2,ρ均为常数，且 σ1>0,σ2>0,−1<ρ<1.\sigma_1>0,\sigma_2>0,-1<\rho<1.σ1>0,σ2>0,−1<ρ<1. 则X,YX,YX,Y的不相关与独立是等价的

证明

(X,Y)(X,Y)(X,Y) 服从二维正态分布，则

f(x,y)=12πσ1σ21−ρ2exp{−12(1−ρ2)[(x−μ1)2σ12−2ρ(x−μ1)(y−μ2)σ1σ2+(y−μ2)2σ22]}fX(x)=∫−∞+∞f(x,y)dy=∫−∞+∞12πσ1σ21−ρ2exp{−12(1−ρ2)[(y−μ2σ2−ρx−μ1σ1)2+(1−ρ2)(x−μ1)2σ12]}dy=12πσ1σ21−ρ2e−(x−μ1)22σ12∫−∞+∞e−12(1−ρ2)(y−μ2σ2−ρx−μ1σ1)2dy令t=11−ρ2(y−μ2σ2−ρx−μ1σ1),则dy=σ21−ρ2dt∴fX(x)=12πσ1σ21−ρ2e−(x−μ1)22σ12σ21−ρ2∫−∞+∞e−t22dt=12πσ1e−(x−μ1)22σ122π=12πσ1e−(x−μ1)22σ12同理fY(y)=12πσ2e−(y−μ2)22σ22\begin{aligned} &f(x,y) = \frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}exp{\{\frac{-1}{2(1-\rho^2)}[\frac{(x-\mu_1)^2}{\sigma_1^2}-2\rho\frac{(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\frac{(y-\mu_2)^2}{\sigma_2^2}]\}}\end{aligned} \\ \begin{aligned}f_X(x) &=\int_{-\infty}^{+\infty}f(x,y)dy = \int_{-\infty}^{+\infty}\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}exp{\{\frac{-1}{2(1-\rho^2)}[(\frac{y-\mu_2}{\sigma_2}-\rho\frac{x-\mu_1}{\sigma_1})^2+(1-\rho^2)\frac{(x-\mu_1)^2}{\sigma_1^2}]\}}dy\\ &=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}e^{-\frac{(x-\mu_1)^2}{2\sigma_1^2}}\int_{-\infty}^{+\infty}e^{\frac{-1}{2(1-\rho^2)}(\frac{y-\mu_2}{\sigma_2}-\rho\frac{x-\mu_1}{\sigma_1})^2}dy \quad \\&令 t = \frac{1}{\sqrt{1-\rho^2}}(\frac{y-\mu_2}{\sigma_2}-\rho\frac{x-\mu_1}{\sigma_1}) ,则dy = \sigma_2\sqrt{1-\rho^2}dt \\\therefore \quad f_X(x) &=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}e^{-\frac{(x-\mu_1)^2}{2\sigma_1^2}}\sigma_2\sqrt{1-\rho^2}\int_{-\infty}^{+\infty}e^{-\frac{t^2}{2}}dt\\& = \frac{1}{2\pi\sigma_1}e^{-\frac{(x-\mu_1)^2}{2\sigma_1^2}}\sqrt{2\pi}\\&=\frac{1}{\sqrt{2\pi}\sigma_1}e^{-\frac{(x-\mu_1)^2}{2\sigma_1^2}}\\ 同理 f_Y(y) &=\frac{1}{\sqrt{2\pi}\sigma_2}e^{-\frac{(y-\mu_2)^2}{2\sigma_2^2}} \end{aligned}f(x,y)=2πσ1σ21−ρ21exp{2(1−ρ2)−1[σ12(x−μ1)2−2ρσ1σ2(x−μ1)(y−μ2)+σ22(y−μ2)2]}fX(x)∴fX(x)同理fY(y)=∫−∞+∞f(x,y)dy=∫−∞+∞2πσ1σ21−ρ21exp{2(1−ρ2)−1[(σ2y−μ2−ρσ1x−μ1)2+(1−ρ2)σ12(x−μ1)2]}dy=2πσ1σ21−ρ21e−2σ12(x−μ1)2∫−∞+∞e2(1−ρ2)−1(σ2y−μ2−ρσ1x−μ1)2dy令t=1−ρ21(σ2y−μ2−ρσ1x−μ1),则dy=σ21−ρ2dt=2πσ1σ21−ρ21e−2σ12(x−μ1)2σ21−ρ2∫−∞+∞e−2t2dt=2πσ11e−2σ12(x−μ1)22π=2πσ11e−2σ12(x−μ1)2=2πσ21e−2σ22(y−μ2)2

因此，我们知道二维正态分布的边缘分布为一维正态分布，有E(X)=μ1,E(Y)=μ2,D(X)=σ12,D(Y)=σ22E(X) = \mu_1,E(Y)=\mu_2,D(X)=\sigma_1^2,D(Y)=\sigma_2^2E(X)=μ1,E(Y)=μ2,D(X)=σ12,D(Y)=σ22

Cov(X,Y)=∫−∞+∞∫−∞+∞(x−μ1)(y−μ2)f(x,y)dxdy=∫−∞+∞∫−∞+∞(x−μ1)(y−μ2)12πσ1σ21−ρ2exp{−12(1−ρ2)[(x−μ1)2σ12−2ρ(x−μ1)(y−μ2)σ1σ2+(y−μ2)2σ22]}dxdy=12πσ1σ21−ρ2∫−∞+∞∫−∞+∞exp{−12(1−ρ2)[(y−μ2σ2−ρx−μ1σ1)2+(1−ρ2)(x−μ1)2σ12]}dxdy=12πσ1σ21−ρ2∫−∞+∞∫−∞+∞exp[−12(1−ρ2)(y−μ2σ2−ρx−μ1σ1)2+−(x−μ1)22σ12]dxdy令u=11−ρ2(y−μ2σ2−ρx−μ1σ1)，v=x−μ1σ1，则x−μ1=σ1v，y−μ2=σ21−ρ2u+ρvσ2，dx=σ1dv，dy=σ21−ρ2du∴Cov(X,Y)=12πσ1σ21−ρ2∫−∞+∞∫−∞+∞σ1v(σ21−ρ2u+ρvσ2)e−u22+−v22σ1dvσ21−ρ2du=12π∫−∞+∞∫−∞+∞(σ1σ21−ρ2uv+σ1σ2ρv2)e−u22+−v22dvdu=12π∫−∞+∞∫−∞+∞[σ1σ21−ρ2uve−u22+−v22+σ1σ2ρv2e−u22+−v22]dudv=σ1σ21−ρ22π∫−∞+∞∫−∞+∞uve−u22+−v22dudv+σ1σ2ρ2π∫−∞+∞∫−∞+∞v2e−u22+−v22dudv=σ1σ21−ρ22π∫−∞+∞ue−u22du∫−∞+∞ve−v22dv+σ1σ2ρ2π∫−∞+∞v2e−v22dv∫−∞+∞e−u22du=σ1σ21−ρ22π(−e−u22)∣−∞+∞(−e−v22)∣−∞+∞+σ1σ2ρ2π[−ve−v22∣−∞+∞+∫−∞+∞e−v22dv]2π=0+σ1σ2ρ2π(0+2π)2π=σ1σ2ρ\begin{aligned} Cov(X,Y) &= \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}(x-\mu_1)(y-\mu_2)f(x,y)dxdy \\&= \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}(x-\mu_1)(y-\mu_2)\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}exp{\{\frac{-1}{2(1-\rho^2)}[\frac{(x-\mu_1)^2}{\sigma_1^2}-2\rho\frac{(x-\mu_1)(y-\mu_2)}{\sigma_1\sigma_2}+\frac{(y-\mu_2)^2}{\sigma_2^2}]\}}dxdy\\&=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}exp{\{\frac{-1}{2(1-\rho^2)}[(\frac{y-\mu_2}{\sigma_2}-\rho\frac{x-\mu_1}{\sigma_1})^2+(1-\rho^2)\frac{(x-\mu_1)^2}{\sigma_1^2}]\}}dxdy \\&= \frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}exp{[\frac{-1}{2(1-\rho^2)}(\frac{y-\mu_2}{\sigma_2}-\rho\frac{x-\mu_1}{\sigma_1})^2+\frac{-(x-\mu_1)^2}{2\sigma_1^2}]}dxdy \\&令 \quad u = \frac{1}{\sqrt{1-\rho^2}}(\frac{y-\mu_2}{\sigma_2}-\rho\frac{x-\mu_1}{\sigma_1})，v = \frac{x-\mu_1}{\sigma_1}，\\&则x-\mu_1=\sigma_1v ，y-\mu_2=\sigma_2\sqrt{1-\rho^2}u+\rho v\sigma_2，dx= \sigma_1dv，dy=\sigma_2\sqrt{1-\rho^2}du\end{aligned}\\\begin{aligned} \therefore Cov(X,Y) &=\frac{1}{2\pi\sigma_1\sigma_2\sqrt{1-\rho^2}}\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}\sigma_1v(\sigma_2\sqrt{1-\rho^2}u+\rho v\sigma_2)e^{\frac{-u^2}{2}+\frac{-v^2}{2}}\sigma_1dv\sigma_2\sqrt{1-\rho^2}du \\&= \frac{1}{2\pi}\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}(\sigma_1\sigma_2\sqrt{1-\rho^2}uv+\sigma_1\sigma_2\rho v^2)e^{\frac{-u^2}{2}+\frac{-v^2}{2}}dvdu\\&=\frac{1}{2\pi}\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}\bigg[\sigma_1\sigma_2\sqrt{1-\rho^2}uve^{\frac{-u^2}{2}+\frac{-v^2}{2}}+\sigma_1\sigma_2\rho v^2e^{\frac{-u^2}{2}+\frac{-v^2}{2}}\bigg]dudv \\&=\frac{\sigma_1\sigma_2\sqrt{1-\rho^2}}{2\pi}\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}uve^{\frac{-u^2}{2}+\frac{-v^2}{2}}dudv+\frac{\sigma_1\sigma_2\rho}{2\pi}\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty} v^2e^{\frac{-u^2}{2}+\frac{-v^2}{2}}dudv\\&= \frac{\sigma_1\sigma_2\sqrt{1-\rho^2}}{2\pi}\int_{-\infty}^{+\infty}ue^{\frac{-u^2}{2}}du\int_{-\infty}^{+\infty}ve^{\frac{-v^2}{2}}dv+\frac{\sigma_1\sigma_2\rho}{2\pi}\int_{-\infty}^{+\infty}v^2e^{\frac{-v^2}{2}}dv\int_{-\infty}^{+\infty} e^{\frac{-u^2}{2}}du\\&=\frac{\sigma_1\sigma_2\sqrt{1-\rho^2}}{2\pi}(-e^{\frac{-u^2}{2}})\bigg|_{-\infty}^{+\infty}(-e^{\frac{-v^2}{2}})\bigg|_{-\infty}^{+\infty}+\frac{\sigma_1\sigma_2\rho}{2\pi}\bigg[-ve^{\frac{-v^2}{2}}\bigg|_{-\infty}^{+\infty}+\int_{-\infty}^{+\infty}e^{\frac{-v^2}{2}}dv\bigg]\sqrt{2\pi}\\&=0+\frac{\sigma_1\sigma_2\rho}{2\pi}(0+\sqrt{2\pi})\sqrt{2\pi}\\&=\sigma_1\sigma_2\rho\end{aligned}Cov(X,Y)=∫−∞+∞∫−∞+∞(x−μ1)(y−μ2)f(x,y)dxdy=∫−∞+∞∫−∞+∞(x−μ1)(y−μ2)2πσ1σ21−ρ21exp{2(1−ρ2)−1[σ12(x−μ1)2−2ρσ1σ2(x−μ1)(y−μ2)+σ22(y−μ2)2]}dxdy=2πσ1σ21−ρ21∫−∞+∞∫−∞+∞exp{2(1−ρ2)−1[(σ2y−μ2−ρσ1x−μ1)2+(1−ρ2)σ12(x−μ1)2]}dxdy=2πσ1σ21−ρ21∫−∞+∞∫−∞+∞exp[2(1−ρ2)−1(σ2y−μ2−ρσ1x−μ1)2+2σ12−(x−μ1)2]dxdy令u=1−ρ21(σ2y−μ2−ρσ1x−μ1)，v=σ1x−μ1，则x−μ1=σ1v，y−μ2=σ21−ρ2u+ρvσ2，dx=σ1dv，dy=σ21−ρ2du∴Cov(X,Y)=2πσ1σ21−ρ21∫−∞+∞∫−∞+∞σ1v(σ21−ρ2u+ρvσ2)e2−u2+2−v2σ1dvσ21−ρ2du=2π1∫−∞+∞∫−∞+∞(σ1σ21−ρ2uv+σ1σ2ρv2)e2−u2+2−v2dvdu=2π1∫−∞+∞∫−∞+∞[σ1σ21−ρ2uve2−u2+2−v2+σ1σ2ρv2e2−u2+2−v2]dudv=2πσ1σ21−ρ2∫−∞+∞∫−∞+∞uve2−u2+2−v2dudv+2πσ1σ2ρ∫−∞+∞∫−∞+∞v2e2−u2+2−v2dudv=2πσ1σ21−ρ2∫−∞+∞ue2−u2du∫−∞+∞ve2−v2dv+2πσ1σ2ρ∫−∞+∞v2e2−v2dv∫−∞+∞e2−u2du=2πσ1σ21−ρ2(−e2−u2)∣∣∣∣−∞+∞(−e2−v2)∣∣∣∣−∞+∞+2πσ1σ2ρ[−ve2−v2∣∣∣∣−∞+∞+∫−∞+∞e2−v2dv]2π=0+2πσ1σ2ρ(0+2π)2π=σ1σ2ρ

∴ρXY=Cov(X,X)D(X)D(Y)=ρ\therefore \quad \rho_{XY} = \frac{Cov(X,X)}{\sqrt{D(X)}\sqrt{D(Y)}} = \rho∴ρXY=D(X)D(Y)Cov(X,X)=ρ

也就是说，二维正态随机变量(X,Y)(X,Y)(X,Y)的概率密度中的参数ρ\rhoρ 就是随机变量X,YX,YX,Y的相关系数，因此，二维正态随机变量可由X,YX,YX,Y各自的数学期望，方差和相关系数所确定。若X,YX,YX,Y不相关，即ρ=0\rho=0ρ=0，将其带入f(x,y)f(x,y)f(x,y) 刚好得到f(x,y)=fX(x)fY(y)f(x,y) = f_X(x)f_Y(y)f(x,y)=fX(x)fY(y) ，则X,YX,YX,Y相互独立。因此对于二维正态随机变量(X,Y)(X,Y)(X,Y)来说，X,YX,YX,Y不相关与独立是等价的。