余弦相似度高维数据_海量高维数据与近似最近邻

在实际工程当中，我们常常会遇到海量的数据，那作为一个数据挖掘准从业人员，如何从海量的数据当中挖掘出他们数据之间的关系和规律就显得尤为重要了。

今天我要讲的时海量高维数据及其近似最近邻方案。

K-近邻算法（KNN）概述

KNN是通过测量不同特征值之间的距离进行分类。它的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别，其中K通常是不大于20的整数。

KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

距离准则

在聊接下去的内容之前，我们首先要了解一个概念，叫距离准则：

距离准则有欧氏距离，Jaccard相似度，余弦相似度，Pearson相似度这几种，我们来分别解释下。

欧式距离就是指在m维空间中两个点之间的真实距离，或者向量的自然长度（即该点到原点的距离）。在二维和三维空间中的欧氏距离就是两点之间的实际距离，所以它实现的是绝对距离。

余弦相似度是通过计算两个向量的夹角余弦值来评估他们的相似度。

Jaccard相似度是用于比较有限样本集之间的相似性与差异性，其中Jaccard系数值越大，样本相似度越高。

Pearson相似度是余弦相似度的升级版，它把每个向量都中心化了，即每个向量会减去所有向量的平均数，来实现数据更好的平衡，所以它实现的是相对距离。

近似最近邻问题（KNN=>ANN）

我们具体在哪些情景中会需要用到近似最近邻呢？举几个简单的例子：

Google/Baidu每天有海量新增的网页，怎么判断内容是否抄袭之前的网页，哪个网页为原创？
论文如何快速查重？
如何快速推荐用户所需要的商品，冷启动问题？
图像检索的问题？

这就轮到我们近似最近邻（ANN）大显身手的时候了！~！

近似最近邻

首先，我们要明白，不管哪种算法，都是需要在空间和时间上做出取舍的。

我们可以事先对数据预先做一些划分和索引，在这个过程中，我们会损失了⼀点准确率（划分和索引会产生错误），但是能换取搜索速度的极大提升。

工程上常用算法：

LSH（Local Sensitive Hash / 局部敏感度哈希）
K-Means Tree
K-D Tree

接下来我们就逐一讨论下这几个算法吧！~！

局部敏感度哈希

LSH保证高维空间相近的点在低维空间相近的概率很高，举个栗子，在高维度上我们有两个样本A,B离得很近，在我们在进行压缩降维，映射到一个低维空间以后，我们还能保证A,B的距离还是很近。这是一个映射，取回的过程。

LSH的直观理解

首先，我们把原始的样本点映射成⻓度为N的⼀个2进制串，这个我相信大家都能理解。其次我们在其中划分多次，平面的上下分别设为0/1。可以理解为每个位次在空间取了⼀个超平面去做。

举个栗子，100这个二进制串，我们怎么划分呢？因为它有三个位次，我们需要划分三次，划一刀x，它在x的1这边。再划一刀y，它在y的0这一边，再划一刀z，它在z的0这边。所以它所代表的点在100，再多划几刀就是超平面了，这个过程和SVM很像。

那会不会有误差呢？当然有了！之前我们就说过，在这个过程中，我们会损失⼀点准确率。比如说000和100所代表的点其实离得很近，但是因为x这一刀恰好划在了两个点之间，所以两个实际上离得很近的点就被分开了。

那有没有办法把精度补偿回来呢？当然有啦！But no pay , no gain ! 你需要付出一些时间成本和计算成本来交换。比如说：多次划分！

下面介绍一个在工业运用中的实例，用LSH来实现相似网页的查找：

Google每天会使用Simhash来完成完成亿级别的网页去重，具体就是将每个网页映射成64bit，当汉明距离<=3的网页就会被认为非常相近的网页。

嗯，我再举个经典的栗子吧，比如说有这么句话，“顾先生是大帅比！”。

我们把这句话分词，分词以后是“顾先生”，“是”，“大帅比”。
我们分别给每个词一个权重，比如说“顾先生”为8，“是”为2，“大帅比”为5。
我们对每个词做一个哈希，比如说“顾先生”为10，“是”为01，“大帅比”为11。
我们在它的基础上乘上权重，(这里要注意一点，如果位置上为0，那就权重*-1，而非*0)，得到(8,-8)，(-1,2)，(5,5)。
将其纵向累加起来，得到(12,-1)，然后做一个降维，得到(1,-1)
这就是LSH的全过程。

这就是LSH的全过程。

再多嘴一句，给每个词的权重不是我瞎给的哦，可以去Google下tf-idf，简单来讲就是“顾先生”这个词在本篇文档里面出现了100次，但在总的文档里面也就出现了200次，那我们就可以认为这个词在这篇文档里面很重要，我们自然就给予它很重的权重。如果像“是”这个词在本篇文档里面出现了100次，但在总的文档里面却足足出现了两万次，那我们就可以认为这个词在这篇文档里面不太重要，我们当然也不会给它太大的权重了。

那除文本之外的其他格式的数据，如何求近似最近邻呢？

其实都是换汤不换药的，先把数据表示成向量格式，比如文本使用bag of words，ti-idf的方式，图像使用GIST，HOG，SIFT，或者卷积神经网络尾层的方式，用户数据使用交互的商品和用户行为的统计值向量来完成从数据到向量的改变。

接下来就是使用库完成向量向低维度2进制空间映射的过程，也就是之前的找到合适的“超平面”切分得到01。

除了LSH算法，我们还有其他的算法，比如说K-means Tree。

K-means Tree

K-means是⼤家都熟知的聚类算法。K-means Tree实际就是对数据做了多层K-means 。每⼀层到当前的划分“叶子节点”包含样本数都少于T个。

具体来说就是在总体上先划分，如果在划分后还剩下很多样本，远大于我们设置的阈值T，那我们对剩下的样本在做划分，直到每⼀层到当前的划分“叶子节点”包含样本数都少于T个。

接下来我们聊一聊ANN里面的K-D Tree。

K-D Tree

K-dimension tree，对数据点在k维空间中划分的⼀种数据结构。K-D tree实际上是⼀种⼆叉树。我们来简单说⼀下构建和检索近似最近邻过程。

举个栗子，我们有{(2,3 ),(5,4),(9,6),(4,7), (8,1), (7,2)} 6个样本点，首先我们要找波动/方差最大的维度做二叉树切分，我们来看，第一个维度是{2，4，5，7，8，9}，第二个维度是{1，2，3，4，6，7}，很显然，第一个维度波动大。接着我们来找一下第一个维度的划分点。划分点要求左右可以平衡，可以直观地理解成中位数，那么第一个维度就是7。第一个维度完成后再找第二个维度，同理，第二个我们选择4。我们递归地完成这个过程。

有时候为了增加多样性，我们会随机取样本来确定哪些维度波动高，从而建立多棵树。

下面介绍几个ANN常用的库：

ANNOY：建索引与最近邻查找，可以直接用list作为向量

举个栗子：

from annoy import AnnoyIndex
import random
f = 40 #建索引的维度
t = AnnoyIndex(f) #初始化一个对象
for i in range(1000): #产出1000个88维度的样本v = [random.gauss(0,1) for z in range(f)] #用高斯分布产生随机数后把它丢进克t.add_item(i,v) #丢进去的是list形式t.build(8) #产生8棵树t.save('test.ann') #保存模型#模型保存好了，如果我们以后要用它时，改怎么调用呢？u = AnnoyIndex(f)u.load('test.ann')print(u.get_nns_by_item(0,1000))

FLANN：

集成了多种最近邻检索方式，可以指定准确率。

可以选择自动模式，它会帮你选最合适的模型和方式。

载入数据量大模型的时候速度稍微有点慢。

举个栗子：

from pyflann import *
from numpy import *
from numpy.random import *dataset = rand(10000, 128) #random生成了10000个128维的向量
testset = rand(1000, 128) #random生成了1000个128维的向量flann = FLANN()
params = flann.build_index(dataset, algorithm="autotuned", target_precision=0.9, log_level = "info"); #自动调优，准确度为90%
print (params)result, dists = flann.nn_index(testset,5, checks=params["checks"]);

差不多就这样了，希望本文能够帮到你！~！

最后打个小广告，我的公众号，喜欢写点学习中的小心得，不介意可以关注下!~!