论文阅读,记录一下自己阅读论文的收获,如有谬误,希望能得到指正!

------------------------------------------------------------------------------------------------------------------------------------------------------------

词汇树在图像检索领域用的比较多,而图像检索在计算机视觉中的3D重建中又是一个比较关键的问题。作者提出这个方法是受到了一个先前被提出的文本检索的方法。

先从训练的图像中局部仿射不变的区域中提取局部描述子,然后对这些描述子进行K-means聚类,聚类中心成为visual words。 visual words的集合使用TD-IDF(Term Frenquency Inverse Document  Frenquency)打分,来评价查询图像和数据库图像的相关性。作者用这些visual words构造了一个词汇树(Vocabulary Tree),并提出了一种层次化的TF-IDF打分策略。词汇树的结构使我们可以使用大量的visual words,因为树的查询起来很快。

------------------------------------------------------------------------------------------------------------------------------------------------------------

一、构造词汇树

使用大量具有代表性的描述子矢量来进行树的无监督训练,在这里使用K-means聚类方法,不过K不是代表最终的聚类中心的数量,而是代表每一层的分类数。首先,对原始的训练数据进行K-means聚类,定义K个聚类中心。然后把训练数据按照聚类中心分为K个组,每个组的数据都有同样的聚类中心。然后同样的聚类过程应用到每个组中,把每个组再划分为K个组,不停地迭代,直到词汇树到达了预设的最大深度L。

在线搜索阶段,每个描述子只用按照跟训练相似的步骤逐层地寻找聚类中心,直到叶结点。

图1.词汇树的生成过程。K=3,每一层都进行聚类,找到最近的类中心,再继续在该区域中聚类。

二、打分的定义

在进行查询的时候,要计算查询图像和数据库图像的相似程度,这是通过比较查询图像和数据库图像的特征在词汇树中的分布相似程度衡量的。一个图像往往会有很多个特征。

图2. K=10的3层词汇树,代表一个有400个特征的图像。

总的来说,是根据熵来定义一个权重wi,给树中的每一个节点i。qi代表查询量,di代表数据库中的值。

ni 和 mi 分别是查询图像和数据库图像的特征描述子中通过节点i的描述子个数。基于归一化的描述子的差得到一个数据库图像和查询图像的打分s:

另外,作者发现上式中 L1-模的效果会比 L2-模的效果要好。

N是数据中图像的总数量,Ni是至少有一个描述子通过节点i的数据库图像数量。

三、打分的实现

使用 Forward file 来记录在每一个图片中出现了哪些 visual words, 一个图片对应一个 Forward file。同样,每一个节点对应一个Inverted file 来存储每个节点中出现的图片的序号(id-number),以及每张图像出现的次数 mi(term-frenquency)。

在实现中,只有叶结点有真正的 Inverted file,内部节点的 Inverted file 是根据叶结点计算出来的。如下图所示:

图3. K=2,L=2 的数据库结构。叶结点有真正的Inverted File,中间的节点只有Virtual inverted file,可以根据叶结点的Inverted file直接串联即可得到。

表示数据库图像的矢量可以被预先计算好,并且归一化,同样,查询矢量也被归一化到单位大小。使用如下方式计算归一化的Lp-模差:

对于每一个非零的查询维度qi,inverted file 可以被用来遍历对应的非零数据库实体 di 并累计数量。

[论文阅读]词汇树 Scalable Recognition with a Vocabulary Tree相关推荐

  1. 论文阅读:ThinLTO: Scalable and Incremental LTO

    ThinLTO: Scalable and Incremental LTO 论文阅读笔记 A little bit of history. SYZYGY – A Framework for Scala ...

  2. 论文阅读 Skeleton-based abnormal gait recognition with spatio-temporal attention enhanced

    Skeleton-based abnormal gait recognition with spatio-temporal attention enhanced gait-structural gra ...

  3. 论文阅读——R树:一种用于空间查找的动态索引结构(算是节译)

    原文地址:http://blog.sina.com.cn/s/blog_672446ba0100t5nx.html 正文之前先吐槽. 这篇文章很老了.最初发表于1984年,比我还大三岁.但它是很多种空 ...

  4. 论文阅读:EfficientDet: Scalable and Efficient Object Detection

    文章目录 1.论文总述 2.各式各样的FPN及其效果 3.BiFPN设计的心路历程 4.Weighted Feature Fusion 4.EfficientDets家族的网络结构图 5.Compou ...

  5. 论文阅读《Block-NeRF: Scalable Large Scene Neural View Synthesis》

    论文地址:https://arxiv.org/pdf/2202.05263.pdf 复现源码:https://github.com/dvlab-research/BlockNeRFPytorch 概述 ...

  6. 【论文阅读】Cancelable Iris recognition system based on comb filter

    1. 介绍 2. 相关工作 3. Preliminaries 3.1 Gabor filter 2D Gabor滤波器起到局部带通滤波器的作用.与仅指示图像中空间频率的傅里叶变换不同,Gabor滤波器 ...

  7. 【论文笔记】SeqSLAM、Fast-SeqSLAM 和 Bow、Incremental Bow、DBoW2、ORB-SLAM 论文阅读笔记

    此篇博客主要重点关注于在闭环检测领域,利用图像序列进行识别的经典算法SeqSLAM和FAST-SeqSLAM.以及词袋模型的发展历史,从06年提出词袋模型,到08年的增量词袋模型,再到12年的二进制词 ...

  8. Action4D:人群和杂物中的在线动作识别:CVPR209论文阅读

    Action4D:人群和杂物中的在线动作识别:CVPR209论文阅读 Action4D: Online Action Recognition in the Crowd and Clutter 论文链接 ...

  9. 论文阅读——译文:PortLand:A Scalable Fault-Tolerant Layer 2 Data Center Network Fabric

    论文标题:PortLand:A Scalable Fault-Tolerant Layer 2 Data Center Network Fabric 会议:sigcom 09 Ref:Radhika ...

最新文章

  1. 经济学人: 低调应用, 高调回报, 亚马逊才是AI技术最大受益企业
  2. Android在xml中定义Shape
  3. 火狐浏览器下点击a标签时出现虚线的解决方案
  4. [脑海成像]科学家利用动态电极绕过眼睛直接刺激大脑,在盲人脑海画出字母
  5. 云效(原RDC)如何构建一个基于Composer的PHP项目
  6. 自动化办公之excel教程(3):数据编辑操作,表格的美化操作,应用表格样式和单元格样式,制作报销汇总单
  7. 琴岛学院计算机应用技术,我院计算机工程系成功晋级“中国高校计算机大赛-网络技术挑战赛”全国总决赛...
  8. java g1 收集调优_Java性能调优:充分利用垃圾收集器
  9. python中常见的15中面试题
  10. android.opengl.GLSurfaceView概述
  11. 置换群burnside引理(bzoj 1004: [HNOI2008]Cards)
  12. 社会工程学之ip获取和定位
  13. 28款超级绿色版杀软,奉献给各位!【迅雷下载】
  14. 重装服务器系统鼠标键盘用不了,win7重装系统后鼠标键盘不能用怎么办
  15. Pandas sample随机抽样
  16. 如何获取mac虚拟机激活码 一步学会
  17. firefox金山词霸取词
  18. [87] 傻B、牛B、装B的英文用法详解
  19. C/C++数据结构——虚虚实实(并查集欧拉路)
  20. 最便捷的港股/A股/美股实时行情API【免费-免费-免费滴,已应用到策略中】

热门文章

  1. 一个简易的B站标签爬虫可视化
  2. 如何root安卓手机_安卓手机内的虚拟安卓系统,带root,非系统分身!
  3. python画动图并保存
  4. 源代码加密系统提供哪些利于软件开发的功能?
  5. 撰写英文文献有哪些技巧?
  6. jQuery的追加节点
  7. 【办公类-19-01-03】办公中的思考——Python,统计孩子名字的同音字(拼音)
  8. 大一时为了恶搞同学写的“诗”
  9. 小白docker入门碎碎念
  10. select_related与prefetch_related django ORM查询速度优化