让人惊叹的Johnson-Lindenstrauss引理：理论篇

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络

今天我们来学习 Johnson-Lindenstrauss 引理，由于名字比较长，下面都简称“JL 引理”。

个人认为，JL 引理是每一个计算机科学的同学都必须了解的神奇结论之一，它是一个关于降维的著名的结果，它也是高维空间中众多反直觉的“维度灾难”现象的经典例子之一。可以说，JL 引理是机器学习中各种降维、Hash 等技术的理论基础，此外，在现代机器学习中，JL 引理也为我们理解、调试模型维度等相关参数提供了重要的理论支撑。

对数的维度

JL 引理，可以非常通俗地表达为：

通俗版 JL 引理：塞下个向量，只需要维空间。

具体来说，JL 引理说的是，不管这个向量原来是多少维的，我们都可以将它们降到，并将相对距离的误差控制在一定范围内。可以想象，这是一个非常强、非常反直觉、非常实用的结论，比如我们要做向量检索，原本的向量维度可能非常大，这样全量检索一次的成本也非常大，而 JL 引理告诉我们，可以将它们变换到维，并且检索效果近似不变，这简直就是“天上掉馅饼”的好事！

可能读者会有疑问：这么强的结论，那么对应的降维方法会不会特别复杂？答案是刚刚相反，降维过程仅仅用到随机线性投影！甚至有评价说，JL 引理是一个“证明比理解更容易的结论”，也就是说，从数学上证明它还真不算特别困难，但如何直观地理解这个反直觉的结论，反而是不那么容易的。

无独有偶，我们之前其实就介绍过两个反直觉的结果：在文章《n 维空间下两个随机向量的夹角分布》[1] 中，我们就介绍过“高维空间中任意两个向量几乎都是垂直的”，这显然与二维、三维空间的结果差距甚远；在文章《从几何视角来理解模型参数的初始化策略》[2] 中，这个结果进一步升级为“从采样出来的矩阵几乎是一个正交矩阵”，这更与我们一直理解的“正交性是非常苛刻的（要求转置等于逆）”有严重出入。

但事实上，这两个结论不仅对，而且还跟 JL 引理直接相关。可以说，JL 引理可以看成是它们的细化和应用。所以，我们需要先用更定量的语言来刻画这两个结论，比如“几乎垂直”，那垂直的概率究竟有多少，比如“近似正交”，那误差究竟有多大。

概率不等式

为此，我们需要一些概率知识，其中最主要是“马尔可夫不等式”：

马尔可夫不等式：如果是非负随机变量，，那么

注意该不等式并没有对所服从的分布有其他特别的限制，只要求随机变量的取值空间是非负的（或者等价地，负的的概率恒为 0），证明其实非常简单：

马尔可夫不等式要求随机变量是非负的，但我们平时要处理的随机变量不一定是非负的，所以通常需要变换一下才能用。比如不是非负的，但是非负的，于是利用马尔可夫不等式有：

这就是“切比雪夫不等式”。

另外一个经典技巧称为“Cramér-Chernoff方法”，也是我们后面主要利用到的方法，它通过指数函数将随机变量变成非负的：对于任意，我们有

所以利用马尔可夫不等式有

最左端是跟无关的，但是最右端有一个，而这不等式是对于任意都成立的。所以理论上，我们可以找到使得最右端最小的，以获得最高的估计精度：

引理的引理

现在，我们可以引入如下结果，它是 JL 引理的引理，甚至可以说，它是本文一切结论的理论基础：

单位模引理：设是独立重复采样自的向量，是给定常数，那么我们有：

该引理告诉我们，当足够大的时候，的模长明显偏离 1 的概率是非常小的（给定后，将以的指数形式递减至 0），所以从采样出来的维向量将会非常接近单位向量。

它的证明正是用到“Cramér-Chernoff方法”：首先意味着或，我们需要分别进行推导，不失一般性，先推导的概率，根据 Cramér-Chernoff 方法，有：

将 u 写成分量形式，其中每个分量都是独立的，分布均为，那么我们有：

而，所以：

右端的极小值在取到，推导过程就留给读者了，然后代入得到：

其中的证明也留给读者了。类似地，我们可以对的概率进行推导，结果为：

其中可证，所以上式沿用了的不等关系。现在两式相加，我们得到。证毕。

从“单位模引理”出发，我们可以证明“正交性引理”：

正交性引理：设是独立重复采样自的两个向量，是给定常数，那么我们有：

该引理告诉我们，当足够大的时候，的内积明显偏离 0 的概率是非常小的（给定后，将以的指数形式递减至 0），所以从采样出来的两个维向量将会非常接近正交。而结合“单位模引理”，我们就得到“从采样出来的矩阵几乎是一个正交矩阵”的结论了。

有了“单位模引理”铺垫，它的证明不算难。我们知道如果，那么，所以根据“单位模引理”的证明，我们有：

注意和两式相加后可以得出，所以：

同理可证，两者结合就得到“正交性引理”。

证明的过程

现在我们就可以着手证明 JL 引理了，下面是它的数学表述：

数学版 JL 引理：给定个向量和，而随机矩阵独立重复采样自，是给定常数，那么至少有的概率，使得对于所有的，都成立：

引理告诉我们，不管原来的向量维数是多少，只需要的维度，我们就可以容纳下个向量，使得它们相对距离的偏离都不超过。而且 JL 引理还告诉我们降维方法：只需要从随机采样一个的矩阵，然后变换就有的可能性达到目的。真可谓是简单实用了。

证明过程也是“单位模引理”的直接应用。首先，如果是给定的单位向量，而独立重复采样自，那么的每个分量都独立地服从。证明也并不难，根据定义每个分量，由于相互独立，所以显然相互独立，并且由于，正态随机变量和的分布依然是正态分布，所以服从正态分布，其均值为，其方差则为。

所以，说白了，相当于从独立重复采样出来的维向量。现在代入，利用“单位模引理”，得到：

此结果对于任意都成立，那么遍历所有的的组合，我们得到至少有一项的概率不超过：

或者反过来说，对于任意，都成立（等价于（16））的概率不小于：

代入，可以得到：

至此，证明已经完成。

上面的 JL 引理中保持的是欧氏距离近似不变，很多时候我们检索用的是内积（比如余弦相似度）而不是欧氏距离。对此，我们有：

内积版 JL 引理：给定个单位向量和，而随机矩阵独立重复采样自，是给定常数，那么至少有的概率，使得对于所有的，都成立：

证明很简单，模仿“正交性引理”的证明即可。根据 JL 引理的证明，我们可以得到在相同的条件下，至少有的概率同时满足对于任意有：

将第一乘上 -1 得到：

然后加到第二式得到：

注意到是单位向量，所以上式等价于。

极度的充分

动手去推过一次 JL 引理证明的同学应该能感觉到，JL 引理的结论中之所以能够出现，本质上是因为“单位模引理”中的概率项是指数衰减的，而我们可以放宽这个衰减速度，让其变成多项式衰减，从而出现了。

总的来说，JL 引理告诉我们，以误差塞下个向量，只需要维的空间，至于前面的常数是多少，其实不大重要。因为事实上 JL 引理是一个非常充分的条件，实际情况中条件往往更加宽松。比如，在 JL 引理的证明中如果我们将条件改为，那么式（16）成立的概率就不小于：

注意虽然小，但终究是大于 0 的，所以此时依然是存在使得（16）成立，只不过寻找的成本更大罢了（每次命中的概率只有），而如果我们只关心存在性，那么这也够了。

而且，JL 引理只考虑了在随机线性投影下的降维，就已经得到了，如果是其他更精细的降维，比如基于 SVD 的降维，是有可能得到更好的结果的（前面的系数更小）；如果非线性的降维方法也考虑进去，那么结果又能变得更优了。所以说，不需要太关心前面的常数是多少，我们只需要知道的量级，如果真要用到它，通常还需要根据实际情况确定前面的常数，而不是调用理论结果。

且待下回续

在这篇文章中，我们介绍了 Johnson–Lindenstrauss 引理（JL 引理），它是关于降维的一个重要而奇妙的结论，是高维空间的不同寻常之处的重要体现之一。它告诉我们“只需要维空间就可以塞下个向量”，使得原本高维空间中的检索问题可以降低到维空间中。

本文主要讨论了 JL 引理的相关理论证明细节，下一篇文章我们则尝试应用它来理解一些机器学习问题，敬请期待。

参考文献

[1] https://kexue.fm/archives/7076

[2] https://kexue.fm/archives/7180

特别鸣谢

感谢 TCCI 天桥脑科学研究院对于 PaperWeekly 的支持。TCCI 关注大脑探知、大脑功能和大脑健康。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

让人惊叹的Johnson-Lindenstrauss引理：理论篇相关推荐

Johnson–Lindenstrauss Lemma
Johnson–Lindenstrauss引理引理:给定ϵ>0\epsilon>0ϵ>0,随机向量模长\color{red}随机向量模长随机向量模长随n以指数收敛到1. 随机向量x ...
25个让人惊叹的 HTML5 应用实验
如今,很多 Web 技术爱好者尝试使用 HTML5 来制作各种丰富的应用.本文将列出25个让人惊叹 HTML5 应用实验,让你体验下一代Web技术的魅力,相信你看完这些例子后会对未来的Web发展充满无 ...
决策树随机森林 xgboost_从决策树到随机森林理论篇从人话到鬼话：看不懂来找我麻烦...
从决策树产生的一些列的问题,过度到随机森林: 全文大概要阅读10分钟: 随机森林算法范畴监督学习分类算法,基模型是由决策树组成决策树决策树模型与学习特征选择决策树生成决策树剪枝 CART算 ...
linux 骇客帝国脚本,Linux下，那些让人惊叹的命令执行效果
Linux下,那些让人惊叹的命令执行效果之前介绍过linux常用命令一文,接下来我们来一起学习一下linux里好玩的命令作者:luckyw2016-12-08 18:23 之前介绍过linux常用命 ...
7款让人惊叹的HTML5粒子动画特效
分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow 也欢迎大家转载本篇文章.分享知识,造福人民,实现我们中华民族伟大复兴! HTML ...
10款让人惊叹的HTML5图片动画特效
现在网页上的图片已经不再是10几年前那种低像素的静态图片了,有了HTML5和jQuery,我们可以让一张普通的图片变得多姿多彩,特别是利用HTML5,还可以实现一些很复杂的图片动画特效.下面分享的10 ...
计算机维修好学,计算机维修有多挣钱？维修小哥无意间透露的话，让人惊叹
原标题:计算机维修有多挣钱?维修小哥无意间透露的话,让人惊叹文|诚实善良小郎君我们都知道,大学里金融专业.计算机专业都是时下最热门的专业,只要你在学校专业学的还不错,等毕业了步入社会,找到一份薪酬 ...
在哪找中国风水墨滴落泼洒视频转场—56组让人惊叹的视频特效
在哪找中国风水墨滴落泼洒视频转场?macdown为您解答,56组让人惊叹的视频特效包含镜像飞溅水墨,纸上水墨,飞溅水墨,泼洒水墨,喷洒水墨等.让人惊叹的视频特效. 分辨率:3840 X 2160 Fp ...
发现让人惊叹，美国教授花半生研究爱迪生实验记录
原创:Intelge鹰谷图1.托马斯·爱迪生托马斯·爱迪生(1847-1931),可以说是全世界的发明之王.从1870年开始发明之路,61年时间获得1093个美国专利授权.他不仅发明了留声机和 ...

让人惊叹的Johnson-Lindenstrauss引理：理论篇

让人惊叹的Johnson-Lindenstrauss引理：理论篇相关推荐

最新文章

热门文章