正态分布的由来及推导

一、正态分布
二、二项分布的近似计算
三、De Moivre-Laplace中心极限定理
四、最小二乘法与正态分布
五、基于独立性和旋转对称性的推导
六、Lindeberg-Lévy中心极限定理
七、正态分布的相关定理和性质

一、正态分布

正态分布是一个在数学、物理学、天文学、社会统计学、生物学、工程实践中都有很广泛应用的概率分布。一些概率分布的极限分布为正态分布，许多误差的分布服从正态分布，许多随机变量的叠加也服从正态分布。正态分布有着相当好的稳定性，只要数据中正态分布的形式已经形成，累加其他小的扰动，均比较容易继续保持正态分布。正态分布具有十分优美的性质和公式，总是在生活中或理论中自然而然地出现。
下面给出正态分布的密度函数，并且推导出正态分布矩母函数、特征函数、期望及方差：
若X服从正态分布N(μ,σ2),则f(x)=12πσe−(x−μ)22σ2若X服从正态分布N(\mu,\sigma^2),则f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}若X服从正态分布N(μ,σ2),则f(x)=2πσ1e−2σ2(x−μ)2
引理1.1：∫−∞+∞e−t22dt=2π引理1.1：\int_{-\infin}^{+\infin}e^{-\frac{t^2}{2}}dt=\sqrt{2\pi}引理1.1：∫−∞+∞e−2t2dt=2π
证明：(∫−∞+∞e−t22dt)2=∫−∞+∞∫−∞+∞e−x2+y22dxdy证明：(\int_{-\infin}^{+\infin}e^{-\frac{t^2}{2}}dt)^2=\int_{-\infin}^{+\infin}\int_{-\infin}^{+\infin}e^{-\frac{x^2+y^2}{2}}dxdy证明：(∫−∞+∞e−2t2dt)2=∫−∞+∞∫−∞+∞e−2x2+y2dxdy
=∫02πdθ∫0+∞e−r22rdr=\int_{0}^{2\pi}d\theta \int_{0}^{+\infin}e^{-\frac{r^2}{2}}rdr=∫02πdθ∫0+∞e−2r2rdr
=2π∫0+∞e−r22rdr=2\pi \int_{0}^{+\infin}e^{-\frac{r^2}{2}}rdr=2π∫0+∞e−2r2rdr
=2π(−e−r22∣0+∞)=2\pi (-e^{-\frac{r^2}{2}}\mid_{0}^{+\infin})=2π(−e−2r2∣0+∞)
=2π=2\pi=2π
因此∫−∞+∞e−t22dt=2π因此\int_{-\infin}^{+\infin}e^{-\frac{t^2}{2}}dt=\sqrt{2\pi}因此∫−∞+∞e−2t2dt=2π
定理1.2:M(t)=eμt+t2σ22定理1.2:M(t)=e^{\mu t+\frac{t^2\sigma^2}{2}}定理1.2:M(t)=eμt+2t2σ2
证明:M(t)=∫−∞+∞12πσe−(x−μ)22σ2etxdx证明:M(t)=\int_{-\infin}^{+\infin}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}e^{tx}dx证明:M(t)=∫−∞+∞2πσ1e−2σ2(x−μ)2etxdx
=12πσ∫−∞+∞e−(x−μ)22σ2+txdx=\frac{1}{\sqrt{2\pi}\sigma}\int_{-\infin}^{+\infin}e^{-\frac{(x-\mu)^2}{2\sigma^2}+tx}dx=2πσ1∫−∞+∞e−2σ2(x−μ)2+txdx
令w=x−μσ令w=\frac{x-\mu}{\sigma}令w=σx−μ
原式=12π∫−∞+∞e−w22+t(wσ+μ)dw原式=\frac{1}{\sqrt{2\pi}}\int_{-\infin}^{+\infin}e^{-\frac{w^2}{2}+t(w\sigma+\mu)}dw原式=2π1∫−∞+∞e−2w2+t(wσ+μ)dw
=eμt12π∫−∞+∞e−w22+tσwdw=e^{\mu t}\frac{1}{\sqrt{2\pi}}\int_{-\infin}^{+\infin}e^{-\frac{w^2}{2}+t\sigma w}dw=eμt2π1∫−∞+∞e−2w2+tσwdw
=eμt12π∫−∞+∞e−(w−tσ)2−t2σ22dw=e^{\mu t}\frac{1}{\sqrt{2\pi}}\int_{-\infin}^{+\infin}e^{-\frac{(w-t\sigma)^2-t^2\sigma^2}{2}}dw=eμt2π1∫−∞+∞e−2(w−tσ)2−t2σ2dw
=eμt+t2σ2212π∫−∞+∞e−(w−tσ)22dw=e^{\mu t+\frac{t^2\sigma^2}{2}}\frac{1}{\sqrt{2\pi}}\int_{-\infin}^{+\infin}e^{-\frac{(w-t\sigma)^2}{2}}dw=eμt+2t2σ22π1∫−∞+∞e−2(w−tσ)2dw
=eμt+t2σ2212π2π=e^{\mu t+\frac{t^2\sigma^2}{2}}\frac{1}{\sqrt{2\pi}}\sqrt{2\pi}=eμt+2t2σ22π12π
=eμt+t2σ22=e^{\mu t+\frac{t^2\sigma^2}{2}}=eμt+2t2σ2
定理1.3:φ(t)=eiμt−t2σ22定理1.3:\varphi(t)=e^{i\mu t-\frac{t^2\sigma^2}{2}}定理1.3:φ(t)=eiμt−2t2σ2
φ(t)=∫−∞+∞12πσe−(x−μ)22σ2eitxdx\varphi(t)=\int_{-\infin}^{+\infin}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}e^{itx}dxφ(t)=∫−∞+∞2πσ1e−2σ2(x−μ)2eitxdx
=12πσ∫−∞+∞e−(x−μ)22σ2+itxdx=\frac{1}{\sqrt{2\pi}\sigma}\int_{-\infin}^{+\infin}e^{-\frac{(x-\mu)^2}{2\sigma^2}+itx}dx=2πσ1∫−∞+∞e−2σ2(x−μ)2+itxdx
令w=x−μσ令w=\frac{x-\mu}{\sigma}令w=σx−μ
原式=12π∫−∞+∞e−w22+it(wσ+μ)dw原式=\frac{1}{\sqrt{2\pi}}\int_{-\infin}^{+\infin}e^{-\frac{w^2}{2}+it(w\sigma+\mu)}dw原式=2π1∫−∞+∞e−2w2+it(wσ+μ)dw
=eiμt12π∫−∞+∞e−w22+itσwdw=e^{i\mu t}\frac{1}{\sqrt{2\pi}}\int_{-\infin}^{+\infin}e^{-\frac{w^2}{2}+it\sigma w}dw=eiμt2π1∫−∞+∞e−2w2+itσwdw
=eiμt12π∫−∞+∞e−(w−itσ)2+t2σ22dw=e^{i\mu t}\frac{1}{\sqrt{2\pi}}\int_{-\infin}^{+\infin}e^{-\frac{(w-it\sigma)^2+t^2\sigma^2}{2}}dw=eiμt2π1∫−∞+∞e−2(w−itσ)2+t2σ2dw
=eiμt−t2σ2212π∫−∞+∞e−(w−itσ)22dw=e^{i\mu t-\frac{t^2\sigma^2}{2}}\frac{1}{\sqrt{2\pi}}\int_{-\infin}^{+\infin}e^{-\frac{(w-it\sigma)^2}{2}}dw=eiμt−2t2σ22π1∫−∞+∞e−2(w−itσ)2dw
=eiμt−t2σ2212π2π=e^{i\mu t-\frac{t^2\sigma^2}{2}}\frac{1}{\sqrt{2\pi}}\sqrt{2\pi}=eiμt−2t2σ22π12π
=eiμt−t2σ22=e^{i\mu t-\frac{t^2\sigma^2}{2}}=eiμt−2t2σ2
M′(t)=eμt+t2σ22(μ+σ2t)M'(t)=e^{\mu t+\frac{t^2\sigma^2}{2}}(\mu+\sigma^2t)M′(t)=eμt+2t2σ2(μ+σ2t)
性质1.1:EX=M′(0)=μ性质1.1:EX=M'(0)=\mu性质1.1:EX=M′(0)=μ
M′′(t)=eμt+t2σ22(μ+σ2t)2+eμt+t2σ22σ2M''(t)=e^{\mu t+\frac{t^2\sigma^2}{2}}(\mu+\sigma^2t)^2+e^{\mu t+\frac{t^2\sigma^2}{2}}\sigma^2M′′(t)=eμt+2t2σ2(μ+σ2t)2+eμt+2t2σ2σ2
EX2=M′′(0)=μ2+σ2EX^2=M''(0)=\mu^2+\sigma^2EX2=M′′(0)=μ2+σ2
性质1.2:DX=EX2−(EX)2=σ2性质1.2:DX=EX^2-(EX)^2=\sigma^2性质1.2:DX=EX2−(EX)2=σ2
特别地,X服从标准正态分布N(0,1)时特别地,X服从标准正态分布N(0,1)时特别地,X服从标准正态分布N(0,1)时
M(t)=et22M(t)=e^{\frac{t^2}{2}}M(t)=e2t2
φ(t)=e−t22\varphi(t)=e^{-\frac{t^2}{2}}φ(t)=e−2t2
EX=0,DX=1EX=0,DX=1EX=0,DX=1

二、二项分布的近似计算

独立的重复n次的伯努利实验，每次实验只有成功和失败两种结果，每次实验成功的概率为p，n次实验的成功总次数称为二项分布B(n,p)。二项分布在应用数学中有极其重要的作用
根据组合数学的知识，可以得出二项分布的概率分布
B(n,p;i)=(ni)pi(1−p)n−iB(n,p;i)=\binom{n}{i}p^i(1-p)^{n-i}B(n,p;i)=(in)pi(1−p)n−i
由于二项式系数的计算比较复杂，在n很大的时候采用这个公式计算比较繁琐，而求解∑i=abB(n,p;i)\sum_{i=a}^{b} B(n,p;i)∑i=abB(n,p;i)则更为麻烦，数学家们考虑如何近似计算这个概率。
运用斯特林公式
定理2.1:n!≈2πn(ne)n定理2.1:n!≈ \sqrt{2\pi n}(\frac{n}{e})^n 定理2.1:n!≈2πn(en)n
可以简化单个B(n,p;i)二项式系数的近似计算，但是多个B(n,p;i)的计算还是需要更有效的近似计算方法
不妨设n为偶数,令n=2m,在n趋于无穷大的情况下，考虑B(n,m+d,12)B(n,m+d,\frac{1}{2})B(n,m+d,21)如何计算
定理2.2:B(n,m+d,12)≈B(2m,m,12)e−d2m定理2.2:B(n,m+d,\frac{1}{2})≈B(2m,m,\frac{1}{2})e^{-\frac{d^2}{m}}定理2.2:B(n,m+d,21)≈B(2m,m,21)e−md2
证明：B(n,m+d,12)=B(2m,m+d,12)证明：B(n,m+d,\frac{1}{2})=B(2m,m+d,\frac{1}{2})证明：B(n,m+d,21)=B(2m,m+d,21)
=B(2m,m,12)Πi=1d(m−i+1)Πi=1d(m+i)=B(2m,m,\frac{1}{2})\frac{\Pi_{i=1}^{d}(m-i+1)}{\Pi_{i=1}^{d}(m+i)}=B(2m,m,21)Πi=1d(m+i)Πi=1d(m−i+1)
=B(2m,m,12)Πi=1d(1+−i+1m)Πi=1d(1+im)=B(2m,m,\frac{1}{2})\frac{\Pi_{i=1}^{d}(1+\frac{-i+1}{m})}{\Pi_{i=1}^{d}(1+\frac{i}{m})}=B(2m,m,21)Πi=1d(1+mi)Πi=1d(1+m−i+1)
由于ln(1+x)=x+o(x)由于ln(1+x)=x+o(x)由于ln(1+x)=x+o(x)
因此1+x=ex+o(x)因此1+x=e^{x+o(x)}因此1+x=ex+o(x)
因此B(n,m+d,12)=B(2m,m,12)e∑i=−d+1−1im+∑i=−d−1im+o(dm)因此B(n,m+d,\frac{1}{2})=B(2m,m,\frac{1}{2})e^{\sum_{i=-d+1}^{-1}\frac{i}{m}+\sum_{i=-d}^{-1}\frac{i}{m}+o(\frac{d}{m})}因此B(n,m+d,21)=B(2m,m,21)e∑i=−d+1−1mi+∑i=−d−1mi+o(md)
=B(2m,m,12)e−d2m+o(dm)=B(2m,m,\frac{1}{2})e^{-\frac{d^2}{m}+o(\frac{d}{m})}=B(2m,m,21)e−md2+o(md)
≈B(2m,m,12)e−d2m≈B(2m,m,\frac{1}{2})e^{-\frac{d^2}{m}}≈B(2m,m,21)e−md2
将斯特林公式(2.1)代入(2.2)式，得到将斯特林公式(2.1)代入(2.2)式，得到将斯特林公式(2.1)代入(2.2)式，得到
B(n,m+d,12)≈1πme−d2mB(n,m+d,\frac{1}{2})≈\frac{1}{\sqrt{\pi m}}e^{-\frac{d^2}{m}}B(n,m+d,21)≈πm1e−md2
即B(n,n2+d,12)≈2πne−2d2n即B(n,\frac{n}{2}+d,\frac{1}{2})≈\frac{\sqrt{2}}{\sqrt{\pi n}}e^{-\frac{2d^2}{n}}即B(n,2n+d,21)≈πn2e−n2d2
因此说明了，p=12时，二项分布的极限分布是正态分布。因此说明了，p=\frac{1}{2}时，二项分布的极限分布是正态分布。因此说明了，p=21时，二项分布的极限分布是正态分布。
数学史上正态分布的发展就源于二项分布的近似计算逼近。数学史上正态分布的发展就源于二项分布的近似计算逼近。数学史上正态分布的发展就源于二项分布的近似计算逼近。

三、De Moivre-Laplace中心极限定理

对于p不等于12的一般情况，则可用稍微复杂的类似方法推导，可以得到如下定理对于p不等于\frac{1}{2}的一般情况，则可用稍微复杂的类似方法推导，可以得到如下定理对于p不等于21的一般情况，则可用稍微复杂的类似方法推导，可以得到如下定理
设Sn服从二项分布B(n,p),q=1−p，则对任意实数x有，设S_{n}服从二项分布B(n,p),q=1-p，则对任意实数x有，设Sn服从二项分布B(n,p),q=1−p，则对任意实数x有，
定理3.1：lim⁡n→∞P(Sn−npnpq⩽x)=12π∫−∞xe−t22dt=Φ(x)定理3.1：\lim_{n \rightarrow \infin}P(\frac{S_{n}-np}{\sqrt{npq}}\leqslant x)=\frac{1}{\sqrt{2 \pi}}\int_{-\infin}^{x} e^{-\frac{t^2}{2}}dt=\Phi(x)定理3.1：n→∞limP(npqSn−np⩽x)=2π1∫−∞xe−2t2dt=Φ(x)
其中Φ(x)是标准正态分布的分布函数其中\Phi(x)是标准正态分布的分布函数其中Φ(x)是标准正态分布的分布函数
下面再用矩母函数的方法证明上述定理：下面再用矩母函数的方法证明上述定理：下面再用矩母函数的方法证明上述定理：
设Zn=Sn−npnpq设Z_{n}=\frac{S_{n}-np}{\sqrt{npq}}设Zn=npqSn−np
由于B(1,p)的矩母函数为pet+q由于B(1,p)的矩母函数为pe^t+q由于B(1,p)的矩母函数为pet+q
根据和的分布的矩母函数性质，B(n,p)的矩母函数为(pet+q)n根据和的分布的矩母函数性质，B(n,p)的矩母函数为(pe^t+q)^n根据和的分布的矩母函数性质，B(n,p)的矩母函数为(pet+q)n
因此，Zn的矩母函数为(peqtnpq+qe−ptnpq)n因此，Z_{n}的矩母函数为(pe^{\frac{qt}{\sqrt{npq}}}+qe^{\frac{-pt}{\sqrt{npq}}})^{n}因此，Zn的矩母函数为(penpqqt+qenpq−pt)n
由于ex=1+x+x22!+x33!+o(x3)由于e^{x}=1+x+\frac{x^2}{2!}+\frac{x^3}{3!}+o(x^3)由于ex=1+x+2!x2+3!x3+o(x3)
peqtnpq+qe−ptnpqpe^{\frac{qt}{\sqrt{npq}}}+qe^{\frac{-pt}{\sqrt{npq}}}penpqqt+qenpq−pt
=p(1+qtnpq+(qtnpq)22!+(qtnpq)33!+o((qtnpq)3))+q(1+−ptnpq+(−ptnpq)22!+(−ptnpq)33!+o((−ptnpq)3))=p(1+\frac{qt}{\sqrt{npq}}+\frac{(\frac{qt}{\sqrt{npq}})^2}{2!}+\frac{(\frac{qt}{\sqrt{npq}})^3}{3!}+o((\frac{qt}{\sqrt{npq}})^3))+q(1+\frac{-pt}{\sqrt{npq}}+\frac{(\frac{-pt}{\sqrt{npq}})^2}{2!}+\frac{(\frac{-pt}{\sqrt{npq}})^3}{3!}+o((\frac{-pt}{\sqrt{npq}})^3))=p(1+npqqt+2!(npqqt)2+3!(npqqt)3+o((npqqt)3))+q(1+npq−pt+2!(npq−pt)2+3!(npq−pt)3+o((npq−pt)3))
=1+t22n+o(t3n32)n=1+\frac{t^2}{2n}+\frac{o(\frac{t^3}{n^{\frac{3}{2}}})}{n}=1+2nt2+no(n23t3)
因此lim⁡n→∞MZn=lim⁡n→∞(peqtnpq+qe−ptnpq)n=et22因此\lim_{n \rightarrow \infin}M_{Z_{n}}=\lim_{n \rightarrow \infin}(pe^{\frac{qt}{\sqrt{npq}}}+qe^{\frac{-pt}{\sqrt{npq}}})^{n}=e^{\frac{t^2}{2}}因此n→∞limMZn=n→∞lim(penpqqt+qenpq−pt)n=e2t2
根据定理1.2,MZn的极限与标准正态分布的矩母函数相同根据定理1.2,M_{Z_{n}}的极限与标准正态分布的矩母函数相同根据定理1.2,MZn的极限与标准正态分布的矩母函数相同
因此Zn依概率收敛于标准正态分布，定理3.1成立因此Z_{n}依概率收敛于标准正态分布，定理3.1成立因此Zn依概率收敛于标准正态分布，定理3.1成立

四、最小二乘法与正态分布

日常生活中经常会遇到曲线拟合问题，也就是给定若干组观测数据，需要找到一个函数，对这些观测数据进行拟合。
为了比较拟合方法的优劣，我们需要找到一种方法度量拟合的优良性。
有如下几种度量方法：
(1)max⁡i=1n∣f(xi)−yi∣(1)\max_{i=1}^{n} |f(x_{i})-y_{i}|(1)i=1maxn∣f(xi)−yi∣
(2)∑i=1n∣f(xi)−yi∣(2)\sum_{i=1}^{n} |f(x_{i})-y_{i}|(2)i=1∑n∣f(xi)−yi∣
(2)∑i=1n(f(xi)−yi)2(2)\sum_{i=1}^{n} (f(x_{i})-y_{i})^2(2)i=1∑n(f(xi)−yi)2
第一种度量方法有比较复杂的逻辑比较关系，不能用普通的初等分析方法来分析，而且误差分析结果会完全被误差最大的点主导
第二种度量方法依然含有绝对值函数，绝对值函数是不可导的，需要很多种分类讨论的情况
第三种度量方法是初等函数，可以用求导等方法来分析。在各组数据误差间建立了平衡，能充分地考虑所有数据的信息。
第三种方法就是最小二乘法，在曲线拟合优良性评估中有广泛应用。
最小二乘法可以导出测量值的最优估计值是算术平均值。
L(θ)=∑i=1n(θ−xi)2L(\theta)=\sum_{i=1}^{n} (\theta-x_{i})^2L(θ)=i=1∑n(θ−xi)2
∂L(θ)∂θ=∑i=1n2(θ−xi)\frac{\partial L(\theta)}{\partial \theta}=\sum_{i=1}^{n}2(\theta-x_{i})∂θ∂L(θ)=i=1∑n2(θ−xi)
∂L(θ)∂θ=0时\frac{\partial L(\theta)}{\partial \theta}=0时∂θ∂L(θ)=0时
L(θ)最小，此时θ^=∑i=1nxin=xˉL(\theta)最小，此时\hat{\theta}=\frac{\sum_{i=1}^{n}x_{i}}{n}=\bar{x}L(θ)最小，此时θ^=n∑i=1nxi=xˉ
算术平均值非常优美简洁，等权重地考虑了所有独立重复测量值的情况。而高斯在研究误差分布函数时，假定误差分布导出的极大似然估计=算数平均值，然后作出了如下推导
记误差为e,则误差的密度函数为f(e)记误差为e,则误差的密度函数为f(e)记误差为e,则误差的密度函数为f(e)
L(θ)=Πi=1nf(ei)=Πi=1nf(xi−θ)L(\theta)=\Pi_{i=1}^{n}f(e_i)=\Pi_{i=1}^{n}f(x_i-\theta)L(θ)=Πi=1nf(ei)=Πi=1nf(xi−θ)
求极大似然估计，令∂ln(L(θ))∂θ=0,则有求极大似然估计，令\frac{\partial ln(L(\theta))}{\partial \theta}=0,则有求极大似然估计，令∂θ∂ln(L(θ))=0,则有
∑i=1nf′(xi−θ)f(xi−θ)=0\sum_{i=1}^{n}\frac{f'(x_i-\theta)}{f(x_i-\theta)}=0i=1∑nf(xi−θ)f′(xi−θ)=0
令g(xi−θ)=f′(xi−θ)f(xi−θ)令g(x_i-\theta)=\frac{f'(x_i-\theta)}{f(x_i-\theta)}令g(xi−θ)=f(xi−θ)f′(xi−θ)
则∑i=1ng(xi−θ)=0则\sum_{i=1}^{n}g(x_i-\theta)=0则i=1∑ng(xi−θ)=0
将θ^=xˉ代入上式，则有将\hat{\theta}=\bar{x}代入上式，则有将θ^=xˉ代入上式，则有
式4.1:∑i=1ng(xi−xˉ)=0式4.1:\sum_{i=1}^{n}g(x_i-\bar{x})=0式4.1:i=1∑ng(xi−xˉ)=0
在式4.1中取n=2在式4.1中取n=2在式4.1中取n=2
g(x1−xˉ)+g(x2−xˉ)=0g(x_1-\bar{x})+g(x_2-\bar{x})=0g(x1−xˉ)+g(x2−xˉ)=0
由于x1−xˉ=−(x2−xˉ)由于x_1-\bar{x}=-(x_2-\bar{x})由于x1−xˉ=−(x2−xˉ)
因此g(x)+g(−x)=0,g(x)为奇函数因此g(x)+g(-x)=0,g(x)为奇函数因此g(x)+g(−x)=0,g(x)为奇函数
在令式4.1中n=m+1,令x1=x2=...=xm=−x,xm+1=mx,则在令式4.1中n=m+1,令x_1=x_2=...=x_m=-x,x_{m+1}=mx,则在令式4.1中n=m+1,令x1=x2=...=xm=−x,xm+1=mx,则
mg(−x)+g(mx)=0mg(-x)+g(mx)=0mg(−x)+g(mx)=0
因此,有式4.2:g(mx)=mg(x)因此,有式4.2:g(mx)=mg(x)因此,有式4.2:g(mx)=mg(x)
唯一满足式4.2的连续函数是g(x)=cx唯一满足式4.2的连续函数是g(x)=cx唯一满足式4.2的连续函数是g(x)=cx
因此f′(x)f(x)=cx因此\frac{f'(x)}{f(x)}=cx因此f(x)f′(x)=cx
(lnf(x))′=cx(ln f(x))'=cx(lnf(x))′=cx
两边进行积分，得两边进行积分，得两边进行积分，得
lnf(x)=cx2+tln f(x)=cx^2+tlnf(x)=cx2+t
f(x)=tecx2f(x)=te^{cx^2}f(x)=tecx2
由于f(x)满足规范性，因此f(x)规范化后就是正态分布N(0,σ2)的密度函数由于f(x)满足规范性，因此f(x)规范化后就是正态分布N(0,\sigma^2)的密度函数由于f(x)满足规范性，因此f(x)规范化后就是正态分布N(0,σ2)的密度函数

五、基于独立性和旋转对称性的推导

天文学家John Hershcel和物理学家麦克斯韦(Maxwell)考虑二维的误差分布时，考虑了两个准则：
(5.1):两个坐标轴x轴和y轴的误差是相互独立的(5.1):两个坐标轴x轴和y轴的误差是相互独立的(5.1):两个坐标轴x轴和y轴的误差是相互独立的
(5.2):误差的分布在空间上具有旋转对称性，即误差的分布与空间中的方位没有关系(5.2):误差的分布在空间上具有旋转对称性，即误差的分布与空间中的方位没有关系(5.2):误差的分布在空间上具有旋转对称性，即误差的分布与空间中的方位没有关系
由(5.1)得，f(x,y)=f(x)f(y)由(5.1)得，f(x,y)=f(x)f(y)由(5.1)得，f(x,y)=f(x)f(y)
在极坐标表示下，f(x,y)=f(rcosθ,rsinθ)=g(r,θ)在极坐标表示下，f(x,y)=f(rcos\theta,rsin\theta)=g(r,\theta)在极坐标表示下，f(x,y)=f(rcosθ,rsinθ)=g(r,θ)
由(5.2)得，g(r,θ)=g(r)由(5.2)得，g(r,\theta)=g(r)由(5.2)得，g(r,θ)=g(r)
因此f(x,y)=f(x)f(y)=g(r)=g(x2+y2)因此f(x,y)=f(x)f(y)=g(r)=g(\sqrt{x^2+y^2})因此f(x,y)=f(x)f(y)=g(r)=g(x2+y2)
令y=0,则有f(x)f(0)=g(x)令y=0,则有f(x)f(0)=g(x)令y=0,则有f(x)f(0)=g(x)
因此f(x)f(y)=f(x2+y2)f(0)因此f(x)f(y)=f(\sqrt{x^2+y^2})f(0)因此f(x)f(y)=f(x2+y2)f(0)
因此f(x)f(0)f(y)f(0)=f(x2+y2)f(0)因此\frac{f(x)}{f(0)}\frac{f(y)}{f(0)}=\frac{f(\sqrt{x^2+y^2})}{f(0)}因此f(0)f(x)f(0)f(y)=f(0)f(x2+y2)
因此ln(f(x)f(0))+ln(f(y)f(0))=ln(f(x2+y2)f(0))因此ln(\frac{f(x)}{f(0)})+ln(\frac{f(y)}{f(0)})=ln(\frac{f(\sqrt{x^2+y^2})}{f(0)})因此ln(f(0)f(x))+ln(f(0)f(y))=ln(f(0)f(x2+y2))
令h(x)=ln(f(x)f(0))令h(x)=ln(\frac{f(x)}{f(0)})令h(x)=ln(f(0)f(x))
所以h(x)+h(y)=h(x2+y2)所以h(x)+h(y)=h(\sqrt{x^2+y^2})所以h(x)+h(y)=h(x2+y2)
这个方程满足两个维度距离合成的公式这个方程满足两个维度距离合成的公式这个方程满足两个维度距离合成的公式
可以得到一个可行解h(x)=ax2可以得到一个可行解h(x)=ax^2可以得到一个可行解h(x)=ax2
因此f(x)f(0)=eax2因此\frac{f(x)}{f(0)}=e^{ax^2}因此f(0)f(x)=eax2
由于f(0)∫−∞+∞eax2dx=1由于f(0)\int_{-\infin}^{+\infin}e^{ax^2}dx=1由于f(0)∫−∞+∞eax2dx=1
解得f(x)=aπe−ax2解得f(x)=\sqrt{\frac{a}{\pi}}e^{-ax^2}解得f(x)=πae−ax2
而f(x)就是正态分布N(0,12a)的概率密度函数,f(x,y)则是二维标准正态分布函数而f(x)就是正态分布N(0,\frac{1}{\sqrt{2a}})的概率密度函数,f(x,y)则是二维标准正态分布函数而f(x)就是正态分布N(0,2a1)的概率密度函数,f(x,y)则是二维标准正态分布函数

六、Lindeberg-Lévy中心极限定理

定理6.1(Lindeberg−Leˊvy中心极限定理):定理6.1(Lindeberg-Lévy中心极限定理):定理6.1(Lindeberg−Leˊvy中心极限定理):
记X1,X2...Xn是相互独立同分布的随机变量序列，且存在均值μ和方差σ2记X_1,X_2...X_n是相互独立同分布的随机变量序列，且存在均值\mu和方差\sigma^2记X1,X2...Xn是相互独立同分布的随机变量序列，且存在均值μ和方差σ2
Sn=∑1nXi,则对于任意的实数x有,S_n=\sum_{1}^{n}X_i,则对于任意的实数x有,Sn=1∑nXi,则对于任意的实数x有,
lim⁡n→∞P(Sn−nμnσ⩽x)=12π∫−∞xe−t22dt=Φ(x)\lim_{n \rightarrow \infin}P(\frac{S_{n}-n\mu}{\sqrt{n}\sigma}\leqslant x)=\frac{1}{\sqrt{2 \pi}}\int_{-\infin}^{x} e^{-\frac{t^2}{2}}dt=\Phi(x)n→∞limP(nσSn−nμ⩽x)=2π1∫−∞xe−2t2dt=Φ(x)
可以用特征函数证明这个定理：可以用特征函数证明这个定理：可以用特征函数证明这个定理：
对于k=1,2..n,令Yk=Xk−μσ对于k=1,2..n,令Y_k=\frac{X_k-\mu}{\sigma}对于k=1,2..n,令Yk=σXk−μ
则Yk独立同分布，记为f(t),EY=0,DY=1则Y_k独立同分布，记为f(t),EY=0,DY=1则Yk独立同分布，记为f(t),EY=0,DY=1
则f′(0)=iEY=0,f′′(0)=i2EY2=−(DX+(EX)2)=−1则f'(0)=iEY=0,f''(0)=i^2EY^2=-(DX+(EX)^2)=-1则f′(0)=iEY=0,f′′(0)=i2EY2=−(DX+(EX)2)=−1
由泰勒公式得f(t)=1−t22+o(t2)由泰勒公式得f(t)=1-\frac{t^2}{2}+o(t^2)由泰勒公式得f(t)=1−2t2+o(t2)
Zn=Sn−nμnσ=∑i=1nYinZ_n=\frac{S_{n}-n\mu}{\sqrt{n}\sigma}=\frac{\sum_{i=1}^{n}Y_i}{\sqrt{n}}Zn=nσSn−nμ=n∑i=1nYi
fZn(t)=(f(tn))nf_{Z_n}(t)=(f(\frac{t}{\sqrt{n}}))^nfZn(t)=(f(nt))n
=(1−t22n+o(t2)n)n=(1-\frac{t^2}{2n}+\frac{o(t^2)}{n})^n=(1−2nt2+no(t2))n
因此得到lim⁡n→∞fZn(t)=e−t22,为正态分布的特征函数因此得到\lim_{n \rightarrow \infin}f_{Z_n}(t)=e^{-\frac{t^2}{2}},为正态分布的特征函数因此得到n→∞limfZn(t)=e−2t2,为正态分布的特征函数
这个定理揭示出了正态分布超乎寻常的稳定性，任意同分布随机变量求和之后极限分布就是正态分布。

七、正态分布的相关定理和性质

定理7.1:若X∼N(μ,σ2),且a和b为实数，则aX+b∼N(aμ+b,a2σ2)定理7.1:若X \sim N(\mu,\sigma^2),且a和b为实数，则aX+b \sim N(a\mu+b,a^2\sigma^2)定理7.1:若X∼N(μ,σ2),且a和b为实数，则aX+b∼N(aμ+b,a2σ2)
证明：MX(t)=eμt+t2σ22证明：M_X(t)=e^{\mu t+\frac{t^2\sigma^2}{2}}证明：MX(t)=eμt+2t2σ2
则MaX+b(t)=E(et(aX+b))=ebtE(e(ta)X))则M_{aX+b}(t)=E(e^{t(aX+b)})=e^{bt}E(e^{(ta)X}))则MaX+b(t)=E(et(aX+b))=ebtE(e(ta)X))
=ebteaμt+a2t2σ22=e^{bt}e^{a\mu t+\frac{a^2t^2\sigma^2}{2}}=ebteaμt+2a2t2σ2
=e(aμ+b)t+t2(aσ)22,为N(aμ+b,a2σ2)的矩母函数=e^{(a\mu+b) t+\frac{t^2(a\sigma)^2}{2}},为N(a\mu+b,a^2\sigma^2)的矩母函数=e(aμ+b)t+2t2(aσ)2,为N(aμ+b,a2σ2)的矩母函数
可见正态分布在线性变换后仍为正态分布可见正态分布在线性变换后仍为正态分布可见正态分布在线性变换后仍为正态分布
因此所有正态分布和退化分布(0)构成一个向量空间。因此所有正态分布和退化分布(0)构成一个向量空间。因此所有正态分布和退化分布(0)构成一个向量空间。
定理7.2(正态分布的加法定理):若X与Y相互独立，且X∼N(μ1,σ12),Y∼N(μ2,σ22)，则有定理7.2(正态分布的加法定理):若X与Y相互独立，且X \sim N(\mu_{1},\sigma_{1}^{2}),Y \sim N(\mu_{2},\sigma_{2}^{2})，则有定理7.2(正态分布的加法定理):若X与Y相互独立，且X∼N(μ1,σ12),Y∼N(μ2,σ22)，则有
X+Y∼N(μ1+μ2,σ12+σ22)X+Y \sim N(\mu_{1}+\mu_{2},\sigma_{1}^{2}+\sigma_{2}^{2})X+Y∼N(μ1+μ2,σ12+σ22)
证明：MX+Y(t)=MX(t)MY(t)=eμ1t+t2σ122eμ2t+t2σ222证明：M_{X+Y}(t)=M_X(t)M_Y(t)=e^{\mu_1 t+\frac{t^2\sigma_1^2}{2}}e^{\mu_2 t+\frac{t^2\sigma_2^2}{2}}证明：MX+Y(t)=MX(t)MY(t)=eμ1t+2t2σ12eμ2t+2t2σ22
=e(μ1+μ2)t+t2(σ12+σ22)2,为正态分布N(μ1+μ2,σ12+σ22)的矩母函数=e^{(\mu_1+\mu_2)t+\frac{t^2(\sigma_1^2+\sigma_2^2)}{2}},为正态分布N(\mu_{1}+\mu_{2},\sigma_{1}^{2}+\sigma_{2}^{2})的矩母函数=e(μ1+μ2)t+2t2(σ12+σ22),为正态分布N(μ1+μ2,σ12+σ22)的矩母函数
定理7.3:若X与Y相互独立，且X∼N(μ1,σ12),Y∼N(μ2,σ22)，则有定理7.3:若X与Y相互独立，且X \sim N(\mu_{1},\sigma_{1}^{2}),Y \sim N(\mu_{2},\sigma_{2}^{2})，则有定理7.3:若X与Y相互独立，且X∼N(μ1,σ12),Y∼N(μ2,σ22)，则有
X−Y∼N(μ1−μ2,σ12+σ22)X-Y \sim N(\mu_{1}-\mu_{2},\sigma_{1}^{2}+\sigma_{2}^{2})X−Y∼N(μ1−μ2,σ12+σ22)
证明：MX−Y(t)=MX+(−Y)(t)=MX(t)M−Y(t)=eμ1t+t2σ122e−μ2t+t2σ222证明：M_{X-Y}(t)=M_{X+(-Y)}(t)=M_X(t)M_{-Y}(t)=e^{\mu_1 t+\frac{t^2\sigma_1^2}{2}}e^{-\mu_2 t+\frac{t^2\sigma_2^2}{2}}证明：MX−Y(t)=MX+(−Y)(t)=MX(t)M−Y(t)=eμ1t+2t2σ12e−μ2t+2t2σ22
=e(μ1−μ2)t+t2(σ12+σ22)2,为正态分布N(μ1−μ2,σ12+σ22)的矩母函数=e^{(\mu_1-\mu_2)t+\frac{t^2(\sigma_1^2+\sigma_2^2)}{2}},为正态分布N(\mu_{1}-\mu_{2},\sigma_{1}^{2}+\sigma_{2}^{2})的矩母函数=e(μ1−μ2)t+2t2(σ12+σ22),为正态分布N(μ1−μ2,σ12+σ22)的矩母函数