【annoy】高维空间求近似最近邻

在介绍腾讯词向量时，用到了annoy，这里对annoy的用法详细做一下介绍。

GitHub地址：https://github.com/spotify/annoy

Annoy是Erik Bernhardsson在Hack Week期间花了几个下午写的(github原话)，全称Approximate Nearest Neighbors Oh Yeah(这个Oh Yeah真是亮瞎眼)。这个包的优点就是快，内存占用也小，还可以静态存储索引用于更多任务。目前已经在音乐推荐系统Spotify中应用。

这个工具可以用来计算空间中点的距离，输入某个点，返回最近的若干点。

这个包直接pip install annoy就可以安装，C++版本的直接下载后#include "annoylib.h"。

使用方法：

from annoy import AnnoyIndex
import randomf = 40
t = AnnoyIndex(f, 'angular')  # Length of item vector that will be indexed
for i in range(1000):v = [random.gauss(0, 1) for z in range(f)]t.add_item(i, v)t.build(10) # 10 trees
t.save('test.ann')# ...u = AnnoyIndex(f, 'angular')
u.load('test.ann') # super fast, will just mmap the file
print(u.get_nns_by_item(0, 1000)) # will find the 1000 nearest neighbors

默认的索引是从0到n-1。

API:

AnnoyIndex(f, metric) f 向量维度，metric 距离度量方式，取值 "angular", "euclidean", "manhattan", "hamming", or "dot". 计算angular是使用的sqrt(2(1-cos(u,v)))这个公式，用的欧几里得距离。euc = sqrt(2(1-cos))。

a.add_item(i, v) 添加元素 i 和向量 v

a.build(n_trees, n_jobs=-1) n_trees是森林的树数目，值越大结果越精确，n_jobs 进程数，默认-1使用所有的CPU。build调用之后，就不能再添加元素了。

a.save(fn, prefault=False) 保存到本地

a.load(fn, prefault=False) 从本地读取，prefault是预先读入内存，默认为False.

a.unload() 清除加载内容

a.get_nns_by_item(i, n, search_k=-1, include_distances=False) 返回n个最近元素。在查询过程中，它将检查search_k个节点，如果没有提供，默认为n_trees * n。search_k给了一个速度和准确率的折中。include_distances设为True，会提供一个由两个列表组成的二元组，第二个列表包含所有相关的距离。

a.get_nns_by_vector(v, n, search_k=-1, include_distances=False)结果一样，不过是通过向量v来查询。

a.get_item_vector(i) 返回索引i对应的向量

a.get_distance(i, j) 返回元素i和j的距离，squared distance

a.get_n_items() 返回元素数量

a.get_n_trees() 返回树数目

a.on_disk_build(fn) 指定在除了RAM之外的其他文件上构建索引(在添加元素之前执行)

a.set_seed(seed) 在构建树之前可以指定随机数

这里面主要有两个参数需要调，n_trees和search_k，一个是构建时的参数，一个是搜索时的参数。

下面这是qps和recall值之间的trade-off，使用时要综合考虑准确率和速度。

【annoy】高维空间求近似最近邻相关推荐

余弦相似度高维数据_海量高维数据与近似最近邻
在实际工程当中,我们常常会遇到海量的数据,那作为一个数据挖掘准从业人员,如何从海量的数据当中挖掘出他们数据之间的关系和规律就显得尤为重要了. 今天我要讲的时海量高维数据及其近似最近邻方案. K-近邻算 ...
最近邻查找最优算法_近似最近邻算法-annoy解析
转自https://www.cnblogs.com/futurehau/p/6524396.html Annoy是高维空间求近似最近邻的一个开源库. Annoy构建一棵二叉树,查询时间为O(logn) ...
RBF神经网络——直接看公式，本质上就是非线性变换后的线性变化（RBF神经网络的思想是将低维空间非线性不可分问题转换成高维空间线性可分问题）...
Deeplearning Algorithms tutorial 谷歌的人工智能位于全球前列,在图像识别.语音识别.无人驾驶等技术上都已经落地.而百度实质意义上扛起了国内的人工智能的大旗,覆盖无人驾驶 ...
高维空间最近邻逼近搜索算法评测
高维空间最近邻逼近搜索算法评测最近邻方法是机器学习中一个非常流行的方法,它的原理很容易理解:邻近的数据点是相似的数据点,更可能属于同一分类.然而,在高维空间中快速地应用最近邻方法,却是非常有挑战性的 ...
海量数据索引与近似最近邻随记
最近邻问题(NN) 将次数看成向量,然后我们就可以比对向量的距离(欧式距离,余弦距离).数据中会有一些异常点,这些异常点会导致结果的不稳定.这种思想非常的不稳定,因为他只基于一个样本来做最后类别的判定 ...
快速近似最近邻算法_数据科学家指南，以选择最佳近似最近邻算法
快速近似最近邻算法 by Braden Riggs and George Williams (gwilliams@gsitechnology.com) Braden Riggs和George Will ...
一个点到多边形顶点距离相同_走进高维空间——所有点之间的距离都相等！奇妙、疯狂、不可思议...
欢迎来到高维系列的第三部分,在这里我们将探索高维空间中一些奇怪而不可思议的现象.这是走进高维空间系列的第三部分,感兴趣的朋友可以阅读前两个部分,在文章的末尾我会附上链接. 今天我们将探索一种现象,这种 ...
Computer Science Theory for the Information Age-3: 高维空间中的高斯分布和随机投影
Computer Science Theory for the Information Age-3: 高维空间中的高斯分布和随机投影高维空间中的高斯分布和随机投影 (一)在高维球体表面产生均匀分布点 ...
LSH 近似最近邻查找
一.什么是近似最近邻查找 NN与ANN NN,Nearest Neighbor Search,最近邻查找问题 KNN,K-Nearest Neighbor,k最近邻,查找离目标数据最近的前k个数据项 ...

【annoy】高维空间求近似最近邻

【annoy】高维空间求近似最近邻相关推荐

最新文章

热门文章