UA MATH567 高维统计 专题0 为什么需要高维统计理论?——协方差估计的高维效应与Marcenko-Pastur规则

上一讲我们介绍了在实验中,线性判别分析的判别误差会随着维度的上升而上升,而经典多元统计理论则认为理论误差是与维数无关的常数,于是我们得到启发是我们需要建立适应于高维统计问题的理论。这一讲我们从线性判别分析中的协方差估计的角度,讨论在高维问题中协方差估计会发生什么与经典多元统计理论不同的现象。

我们假设x1,⋯,xnx_1,\cdots,x_nx1​,⋯,xn​是某个ddd维零均值分布的样本,则样本协方差为
Σ^=1n∑i=1nxixiT\hat \Sigma = \frac{1}{n} \sum_{i=1}^n x_ix_i^TΣ^=n1​i=1∑n​xi​xiT​

它是总体协方差的无偏估计。但对于non-asymptotic情形,我们希望知道这个估计的误差。在随机矩阵理论中,我们介绍了一些常用的矩阵范数,可以用它们来表示误差,比如在这个协方差估计的问题中,我们定义估计误差为样本协方差与总体协方差之差的算子范数,即
∥Σ^−Σ∥=λ1(Σ^−Σ)\left\| \hat \Sigma - \Sigma \right\| = \lambda_{1}(\hat \Sigma - \Sigma)∥∥∥​Σ^−Σ∥∥∥​=λ1​(Σ^−Σ)

考虑最简单的一种情况,如果Σ=Id\Sigma=I_dΣ=Id​,那么根据弱大数定律,Σ^\hat \SigmaΣ^会依概率趋近于IdI_dId​,那么Σ^\hat \SigmaΣ^的所有特征值会依概率收敛到1。

Marcenko-Pastur规则
假设d/n→α∈(0,1)d/n \to \alpha \in (0,1)d/n→α∈(0,1),也就是在维数非常高的时候,Marcenko-Pastur规则认为Σ^\hat \SigmaΣ^的特征值的密度满足:
fMP(λ)∝(tmax(α)−λ)(λ−tmin(α))λf_{MP}(\lambda) \propto \frac{\sqrt{(t_{max}(\alpha)-\lambda)(\lambda-t_{min}(\alpha))}}{\lambda}fMP​(λ)∝λ(tmax​(α)−λ)(λ−tmin​(α))​​

其中
tmin(α)=(1−α)2,tmax=(1+α)2t_{min}(\alpha)=(1-\sqrt{\alpha})^2,\ t_{max}=(1+\sqrt{\alpha})^2tmin​(α)=(1−α​)2, tmax​=(1+α​)2

这两个阈值的来源是我们在随机矩阵部分介绍过的不等式
P(λ1(Σ^)≥(1+d/n+δ)2)≤e−nδ22,∀δ≥0P(\lambda_{1}(\hat \Sigma) \ge (1+\sqrt{d/n}+\delta)^2) \le e^{-\frac{n\delta^2}{2}},\forall \delta \ge 0P(λ1​(Σ^)≥(1+d/n​+δ)2)≤e−2nδ2​,∀δ≥0

这幅图是基于这个简单情形的模拟,左图参数是α=0.2,n=4000\alpha=0.2,n=4000α=0.2,n=4000;右图的参数是α=0.5,n=4000\alpha=0.5,n=4000α=0.5,n=4000;灰色部分是特征值的频率直方图,黑色实线是Marcenko-Pastur规则的密度。从这个图可以看出,模拟结果,也就是灰色部分并没有贴近经典多元统计的结果(收敛到1)反而是与Marcenko-Pastur规则基本相符的,而Marcenko-Pastur规则是一个典型的高维统计理论结果。


作为专题0的结尾,我简单阐述一下我对经典多元统计理论与高维统计理论的理解。首先这二者作为统计理论,研究的问题其实是一样的,估计量的一致性、误差、收敛速率等。但经典多元统计理论假设d<<nd<<nd<<n,也就是在做asymptotic analysis的时候,经典统计认为特征的维数ddd关于样本量nnn是无穷小量,即d/n→0d/n \to 0d/n→0,因此经典统计理论的误差、concentration inequality等结果与维数是无关的。在高维统计理论中,假设d/n→α∈(0,1)d/n \to \alpha \in (0,1)d/n→α∈(0,1),这个比例会出现在误差、concentration inequality等结果中,也就是维数对概率分布、对误差等都是有影响的。

除此之外,经典统计与高维统计还有一个很重要的区别,就是在高维统计中,information is sparse in features,即并不是ddd个特征都是一样重要的,重要的特征占比非常小,这种特性被称为sparsity,通常认为重要的特征数目是o(d)o(d)o(d),也就是关于ddd是无穷小量,所以我们总是需要一些技术来做dimensional reduction/feature selection以去除冗余信息提高计算效率。

UA MATH567 高维统计 专题0 为什么需要高维统计理论?——协方差估计的高维效应与Marcenko-Pastur规则相关推荐

  1. UA MATH567 高维统计 专题0 为什么需要高维统计理论?——高维统计理论的常用假设

    UA MATH567 高维统计 专题0 为什么需要高维统计理论?--高维统计理论的常用假设 延续前三讲对线性判别分析的讨论,在高维时,根据中心极限定理 n(Xˉ−μ)→dN(0,Id)\sqrt{n} ...

  2. UA MATH567 高维统计 专题0 为什么需要高维统计理论?——理解稀疏向量与hard-threshold

    UA MATH567 高维统计 专题0 为什么需要高维统计理论?--理解稀疏向量与hard-threshold 稀疏向量的soft-threshold与hard-threshold近似 引入hard- ...

  3. UA MATH567 高维统计 专题0 为什么需要高维统计理论?——以线性判别分析为例

    UA MATH567 高维统计 专题0 为什么需要高维统计理论?--以线性判别分析为例 线性判别分析基础 理论 算法 线性判别分析基础 理论 我们回顾一下二元假设检验问题,它的目标是判断某一个obse ...

  4. UA MATH567 高维统计专题3 含L1-norm的凸优化6 Stochastic Gradient Descent简介

    UA MATH567 高维统计专题3 含L1-norm的凸优化6 Stochastic Gradient Descent简介 Stochastic Gradient Descent的思想 Varian ...

  5. UA MATH567 高维统计专题3 含L1-norm的凸优化4 Nesterov方法与Accelerate Proximal Gradient

    UA MATH567 高维统计专题3 含L1-norm的凸优化4 一阶方法的加速 Nesterov方法 Accelerate Proximal Gradient (APG) 梯度下降与Proximal ...

  6. UA MATH567 高维统计专题3 含L1-norm的凸优化2 Proximal Gradient Descent

    UA MATH567 高维统计专题3 含L1-norm的凸优化2 Proximal Gradient Descent Proximal Gradient Descent的公式推导 Proximal O ...

  7. UA MATH567 高维统计专题2 Low-rank矩阵及其估计3 Rank RIP

    UA MATH567 高维统计专题2 Low-rank矩阵及其估计3 Rank RIP Low-rank matrix completion的模型是rank minimization,上一讲我们介绍了 ...

  8. UA MATH567 高维统计专题2 Low-rank矩阵及其估计2 Rank Minimization与Nuclear Norm

    UA MATH567 高维统计专题2 Low-rank矩阵及其估计2 Rank Minimization与Nuclear Norm 上一讲我们已经提到了用rank-minimization对参数矩阵进 ...

  9. UA MATH567 高维统计专题2 Low-rank矩阵及其估计1 Matrix Completion简介

    UA MATH567 高维统计专题2 Low-rank矩阵及其估计1 Low-rank Matrix简介 例 在推荐系统中,Netflix data是非常经典的数据集.考虑它的电影评分数据,用矩阵的每 ...

最新文章

  1. 最近面试 Java 后端开发的感受!
  2. 澳大利亚悉尼大学徐畅教授招收深度学习方向全奖博士生
  3. 用深度学习模型,解构并重构人类思维
  4. 新年到,献给从一线工程师到CTO的实用指南:《2019区块链开发者报告》
  5. SpringCloud Zuul(八)之ERROR Filter
  6. 新手指导:51CTO微博小技巧
  7. php岗位专业技能,PHP简历专业技能怎么写
  8. JavaScript高级程序设计(4)变量、作用域和内存问题
  9. IPv4与IPv6数据报格式详解
  10. 深度学习:Keras入门(二)之卷积神经网络(CNN)【转】
  11. eclipse的控制台显示有问题,关闭Limit console output
  12. 黑马程序员MySQL-视图SQL笔记
  13. CAN总线标准及协议分析
  14. linux cat命令什么意思
  15. 谷歌邮箱无法登录问题
  16. 杂记 去中心化系统介绍
  17. rainbow与freda染旗
  18. alpha在matlab中的作用,在MATLAB中用alpha值绘制圆圈
  19. 歌名:江湖笑 演唱:周华健
  20. 访问我在BLOGBUS的博客吧

热门文章

  1. 【Python-ML】最小二乘法
  2. VBS脚本和HTML DOM自动操作网页
  3. (转载)Hadoop2.7.1配置
  4. Leetcode 179. 最大数 解题思路及C++实现
  5. Qt 4.7.4 完美动态编译发布动态调试,以及静态编译发布
  6. html在分页功能中如何实现当前页面的页码样式与其他页面不同_如何使用word文档?word文档使用技巧教程?...
  7. Get Started with Apex Unit Tests
  8. Python 技术篇-PyQt5动画功能演示,组件移动、尺寸改变动画演示
  9. CodeBlacks程序调试的那些事
  10. poj 3255 Roadblocks (SPFA)