原文链接:https://blog.csdn.net/CHIERYU/article/details/81989920

HNSW算法可类比于skip lists数据结构,对于增和查操作,其与skip lists有很多相同之处,下面讲讲HNSW算法中的2个关键问题,即:如何确定待插入点的层次,如何调参。

一、HSNW算法将样本插入到第几层

每个样本属于哪个层呢?

首先要写一个确定层次的函数,样本点属于每一层的概率是确定好的,且是从底层到高层逐渐递减的。

确定每层概率的函数如下:

//from faiss code
//levelMult = 1/log(M)
void HNSW::set_default_probas(int M, float levelMult)
{int nn = 0; cum_nneighbor_per_level.push_back (0); for (int level = 0; ;level++) {float proba = exp(-level / levelMult) * (1 - exp(-1 / levelMult));if (proba < 1e-9) break;assign_probas.push_back(proba);nn += level == 0 ? M * 2 : M;//特别地,第0层要求2M个邻居,以提高recallcum_nneighbor_per_level.push_back (nn);}
}

上述代码的原理可以参考如下图片内容来辅助理解,层次t越大,那么概率应该越小。

确定样本层次的函数如下:

//from faiss code
int HNSW::random_level()
{double f = rng.rand_float();// could be a bit faster with bissectionfor (int level = 0; level < assign_probas.size(); level++) {if (f < assign_probas[level]) {return level;}    f -= assign_probas[level];}    // happens with exponentially low probabilityreturn assign_probas.size() - 1;
}

然后确定n个样本,每个样本的层次,它跟特征无关。

//from faiss code
for (int i = 0; i < n; i++) {int pt_level = hnsw.random_level();hnsw.levels.push_back(pt_level + 1);
}int max_level = 0;
for (int i = 0; i < n; i++) {int pt_level = hnsw.levels[i + n0] - 1;if (pt_level > max_level) max_level = pt_level;hnsw.offsets.push_back(hnsw.offsets.back() + cum_nneighbor_per_level[pt_level + 1]);hnsw.neighbors.resize(hnsw.offsets.back(), -1);
}

上面的代码来自faiss,下面看看 hnswlib上是如何确定样本的层次的。

//from nmslib code
//c++11随机数产生器
std::default_random_engine level_generator_;
size_t random_seed = 100
level_generator_.seed(random_seed);int getRandomLevel(double reverse_size) {//产生U(0,1)的随机数x,那么1-x也是均匀分布,-log(1-x)就是指数分布std::uniform_real_distribution<double> distribution(0.0, 1.0);//逆变换采样?double r = -log(distribution(level_generator_)) * reverse_size;return (int) r;
}//调用
size_t M_ = 16
mult_ = 1 / log(1.0 * M_);// 0.83048202372
int curlevel = getRandomLevel(mult_);

下图中,横坐标表示概率,取值范围在[0,1]区间,对应蓝色的线往横坐标投影值;纵坐标表示某个点所在的最高层次,取值从0到正无穷,对应蓝色的线往纵坐标投影值。从中可以看到一个点对应的最高层次很大概率是第0层:

getRandomLevel函数结果与随机数对应关系

再看看Online-hnsw中是如何确定样本的层次的:

//from online-hnsw code
//https://github.com/andrusha97/online-hnsw/blob/master/include/hnsw/index.hpp
size_t random_level() {// I avoid use of uniform_real_distribution to control how many times random() is called.// This makes inserts reproducible across standard libraries.// NOTE: This works correctly for standard random engines because their value_type is required to be unsigned.auto sample = random() - random_t::min();auto max_rand = random_t::max() - random_t::min();// If max_rand is too large, decrease it so that it can be represented by double.//此处保证max_rand在[0,2^20]之间if (max_rand > 1048576) {sample /= max_rand / 1048576;max_rand /= max_rand / 1048576;}double x = std::min(1.0, std::max(0.0, double(sample) / double(max_rand)));//注意此处系数与hnswlib不同,第0层的是1/log(2M_+1),非0层是1/log(M_+1)return static_cast<size_t>(-std::log(x) / std::log(double(options.max_links + 1)));
}

这样就预先设置了每层有多少样本点,当使用时:

//from faiss code
// build histogram
for (int i = 0; i < n; i++) {storage_idx_t pt_id = i + n0;int pt_level = hnsw.levels[pt_id] - 1;while (pt_level >= hist.size())hist.push_back(0);hist[pt_level] ++;
}// accumulate
std::vector<int> offsets(hist.size() + 1, 0);
for (int i = 0; i < hist.size() - 1; i++) {offsets[i + 1] = offsets[i] + hist[i];
}

每个段的元素数目确定了,那每个段是哪些元素呢?这是由hnsw.random_level()随机确定的。

//from faiss code
// bucket sort
for (int i = 0; i < n; i++) {storage_idx_t pt_id = i + n0;int pt_level = hnsw.levels[pt_id] - 1;order[offsets[pt_level]++] = pt_id;
}

至此,HNSW的插入样本的层次就确定了。

具体添加元素是怎么操作的呢?

调用函数add_with_locks。

二、HNSW的算法性能影响因素

HNSW算法需要调节的参数有哪些:M,efConstruction,levelMult,M_max0

为了获得最佳的性能,那么要求不同层的邻居点之间的重叠要小,为了降低重叠,那么就要降低levelMult,但是会使得每层的hop的个数增加,从而降低速度。在低位数据上调节好的参数到高维空间中很难成立,It is hard to expect the same behavior for high dimensional data since in this case the k-NN graph already has very short greedy algorithm paths.  但是在高维空间增加levelMult会让速度更快却没有负面效果。但是对于128维来说还是有影响的。

Further increase(>100 in a 10M SIFT dataset) of the efConstruction leads to little extra performance but in exchange of significantly longer construction time.

在遍历的过程中,traverse the graph,从1度邻居点,到2度邻居点,不断往外扩,扩的过程中将更近的点加入结果列表中。由于下一个点属于上层的概率为p=exp(-levelMult),因此在搜索该节点的邻居时是有概率为p的可能性到此为止的,代码中bool visisted来标记是否访问过(想想看如何做并行访问)。

想要了解更多关于faiss的线程问题,可以参考:http://houjie13.com/articles/2018/06/25/1529933223485.html

本文原文链接:https://blog.csdn.net/CHIERYU/article/details/81989920

HNSW算法原理(一)相关推荐

  1. HNSW算法原理(二)之删除结点

    原文:https://blog.csdn.net/CHIERYU/article/details/86647014 HNSW算法原理(二)之删除结点 本篇文章继之前的一篇文章 HNSW算法原理(一)  ...

  2. CRF(条件随机场)与Viterbi(维特比)算法原理详解

    摘自:https://mp.weixin.qq.com/s/GXbFxlExDtjtQe-OPwfokA https://www.cnblogs.com/zhibei/p/9391014.html C ...

  3. 三维目标检测算法原理

    三维目标检测算法原理 输入输出接口 Input: (1)图像视频分辨率(整型int) (2)图像视频格式(RGB,YUV,MP4等) (3)左右两边的车道线位置信息摄像头标定参数(中心位置(x,y) ...

  4. 3D-2D:PnP算法原理

    3D-2D:PnP算法原理 1.问题背景-- 什么是PnP问题 ? 2.PnP问题的求解方法 2.1 P3P 2.1.1 算法的实际理解 2.1.2 算法的数学推导 2.1.3 算法的缺陷 2.2 直 ...

  5. MySQL索引背后的数据结构及算法原理【转】

    http://blog.codinglabs.org/articles/theory-of-mysql-index.html MySQL索引背后的数据结构及算法原理[转] 摘要 本文以MySQL数据库 ...

  6. 文本分类的基本思想和朴素贝叶斯算法原理

    文本分类的基本思想和朴素贝叶斯算法原理

  7. Bagging与随机森林算法原理小结

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 在集成学习原理小结中,我们讲到了集成学习有两个流派,一个是boos ...

  8. 干货 | 非常全面的谱聚类算法原理总结

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 谱聚类算法是目前最流行的聚类算法之一,其性能及适用场景优于传统的聚 ...

  9. 层次聚类算法原理总结

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 层次聚类(hierarchical clustering)基于簇间 ...

最新文章

  1. 这可能是史上最全的Python算法集!
  2. 通过练习题学习磁盘知识
  3. spark streaming 5: InputDStream
  4. Five ways to maximize Java NIO and NIO.2--转
  5. Java线程详解(12)-有返回值的线程
  6. NASA重金悬赏 太空尿片最佳解决方案
  7. 从CNN视角看在自然语言处理上的应用
  8. 常见的排序算法(面试经常碰到)
  9. 魅族再发16s预热图 3.5mm耳机接口不要了!
  10. 使用Jenkins在Azure Web App上进行ASP.NET Core应用程序的持续集成和部署(CI/CD)–第2天
  11. [NSUserDefaults]的使用:登陆后不再显示登录界面。
  12. win10更新后开不了机_坚决不更新!被微软雪藏的win10系统版本,只要3GB,老爷机的克星!...
  13. HDU 4031 Attack
  14. python飞机大战源代码百度云_Python版飞机大战源码和素材包括有声音
  15. Intel Core系列CPU架构演变
  16. 笔记本损耗60 计算机提示,笔记本电池损耗60%多怎么处理!
  17. JS入门笔记九:循环精灵图案例
  18. 不安装DBC2000安装架设传奇服务端的方法
  19. TIA西门子博途V17安装教程及注意事项
  20. latex怎么看论文字数_LaTeX | 为学术论文排版而生【公式篇】

热门文章

  1. 计算机在切削加工中的应用,计算机技术在机械制造中的应用
  2. Installing Darknet
  3. DSR (串口通信中的术语)
  4. 你不知道的JavaScript 上卷 Part1
  5. wiki上卷积神经网络(CNN)的理解
  6. 中移(成都)产业研究院2020届校招面经+薪资待遇
  7. PyTorch深度学习入门笔记(五)torchvision中DataLoader的使用
  8. 如何无需开发集成易快报、金蝶等第三方应用
  9. 小型功率放大器的设计与制作——功率放大器电路仿真模型搭建
  10. 在arm开发板上实现播放内存里所有的jpg和bmp格式图片