1.背景

基于CNN的图像搜索的pipeline:端到端的学到输入图片的global feature,然后根据该global feature进行相似性度量。比如人脸识别,person/vehicle re-id等领域,通过metric learning为每张输入图片学到一个固定长度的特征,通过常见距离度量方式进行相似度比对,排序即可。

需要注意的是:人脸,人体,车辆可视为细分领域的细粒度检索,可通过检测得到region of interest,并且均为刚体,有着良好的关键点信息,具有明确语义的关键点信息对细粒度特征挖掘帮助极大。但是对于通用的图像检索,往往没有具有明确语义的关键点信息,比如商品检索,地标检索,cnn很难一把梭了

2.创新点

  • 提出一种用于大规模图像检索的注意力局部特征表达,称之为DELF(DEep Local Feature)。这种新型特征是从训练好的卷积神经网络中提取出来的,该卷积网络是在一个地标数据上使用图像级的标注完成训练的。
  • 为了能够获得具有语义信息的、对图像检索有利的局部特征,本文还提出一种用于关键点提取的注意力机制,该机制和特征表达共享大部分的网络层。本文的方法可以取代图像检索中其他的关键点检测和表达方法,获得更为准确的特征匹配和几何验证。

3.整体框架

3.1 DELF Pipeline

3.1.1 Fine-tune(FT)

我们以在ImageNet上预训练的ResNet50模型为基础,通过微调来提升局部表达的判别能力。如图4(a)所示。

Fine tuning preprocessing:- Center crop to square image- Rescale to 250x250- Randomly crop 224x224

3.1.2 Attention-based Key-point Selection(ATT)

不同于人脸,人体,车辆,将提取的特征直接用于图像检索,论文设计了一种可以有效提取特征子集的方法。因为直接提取的特征有相当一部分对地标识别任务是没有用的,会给检索带来不好的结果,因此关键点检测对检索系统来说就显得尤为重要。论文

在ResNet50 conv4_x的输出后接入attention模块,以此来获得局部特征表达的相关得分。为了能够训练该函数,首先使用加权的求和池化对特征进行降维,该权重是attention网络的预测值。如图4(b)所示,其中attention网络用黄色标注。该方法先对整张输入图像生成嵌入(embedding),之后训练softmax地标分类器。

为了可以解决尺寸变化的问题,构建图像金字塔,对每级分别应用FCN。获得的特征图可以看成是局部表达的一种稠密网格。根据感受野可以对特征进行定位,根据卷积层和池化层的参数可以计算特征图大小。使用感受野中心的像素作为特征的位置,图像感受野的原始尺寸是291 × 291。使用图像金字塔之后,我们可以获得描述不同尺寸的图像区域的特征。

Attention preprocessing:(7 different scales)- Center crop to square image- Rescale to 900x900- Randomly crop 720x720- Randomly rescale with gamma < 1

vs 传统方法

论文关键点挑选是在表达提取之后,这和当前的先进行关键点检测再进行表达的方法有所不同(SIFT 和 LIFT )。传统的特征点检测主要是根据低级特征,在成像条件下进行重复性的关键点检测。然而对于高级识别任务如图像检索来说,挑选出可以判断不同目标的关键点也很重要。本文提出的方法实现了两个目的,第一是训练了一个在特征图中编码更高级语义信息的模型,第二是学习挑选适用于分类任务的判别特征。这和最近提出的根据SIFT 匹配收集训练数据的关键点检测方法LIFT[40]有所不同。尽管我们没有刻意让模型去学习位置和视角的变化,但它却自己主动完成了,这点和基于CNN的图像分类方法很相似。

3.2 检索

  • 局部特征选取:DELF根据每张图像的attention score,选取score最大K个的local feature(论文中选用1000个)。
  • 特征后处理:分为3步,图搜索的常规操作了,首先
    equation?tex=l_%7B2%7D norm,然后PCA将维度降到40,最后对特征再使用一次
    equation?tex=l_%7B2%7D norm,因此每张图片的特征维度为(1000,40)。
  • 检索:
    • 值得一提的是,传统的直接用CNN提取的global特征只有一个,维度可以控制在256d,通常检索难度不大,但是基于delf局部特征的检索,尽管特征维度不高,但特征数量从1升至1000,对特征存储和实际检索带来了更大的挑战。
  • 得到top-k(60)个局部特征,最后采用RANSACA进行几何验证,得到inlier 数目,作为最终特分

,对查询图像和数据库图像提取预先确定数量的局部特征

我们的图像检索系统是基于最近邻搜索方法,该方法是在 KD-tree 和 Product Quantization (PQ) 行近似最近邻搜索。之后对于从索引中检索出的前top K(K取60)个局部特征,我们对数据库中的每张图像的所有匹配进行了聚合。最后,我们使用RANSAC [ 10 ]进行几何验证,用局内点的数量代表检索图像的得分。

4.实验

4.1 Quantitative Results

整个模型(DELF+FT+ATT)与它的变形版本,

DELF-noFT表示提取的特征是基于在ImageNet上预训练的CNN网络,而没有使用微调和attention学习;

DELF+FT表示使用微调但没有使用attention模型,

DELF-noFT+ATT表示使用attention但没有使用微调。

如下图所示,微调和attention模型都有助于性能的提升。特别值得注意的是,使用attention得到的提升比微调得到的多。这表明,从attention层提取的特征,尽管是在ImageNet上预训练的,但仍然可以挑选出对检索任务来说最具有判别能力的特征。

4.2 Qualitative Results

提出的attention模型的优点是可以清晰地进行定性说明,而对微调得到的特征进行

equation?tex=l_%7B2%7D 正则化得到的结果和没有使用微调的结果只有略微的差别。

5 总结

  • 创新点:本文提出的DELF只利用图像级标签信息(不需要检测框等信息)训练的局部特征提取方法,一次前向传播就可以完成关键点检测和特征表达,而非传统的先选择关键点再提取特征。
  • 缺点:
    • 图像金字塔,需要7次前向传播!!!
    • 特征量太大了!1000*40d,这对检索也提出了很大挑战。

detectandcompute 图像尺寸太大_基于深度局部特征的图像检索相关推荐

  1. 基于几何学习图像的三维重建发展_基于深度学习的三维重建算法:MVSNet、RMVSNet、PointMVSNet、Cascade系列...

    欢迎关注微信公众号"3D视觉学习笔记",分享博士期间3D视觉学习收获 MVSNet:香港科技大学的权龙教授团队的MVSNet(2018年ECCV)开启了用深度做多视图三维重建的先河 ...

  2. 毕业设计-基于深度学习的图像检索

    目录 前言 课题背景和意义 实现技术思路 一.基于深度学习的图像检索研究主题 二.基于深度学习的图像检索算法 三.基于深度学习的图像检索模型 实现效果图样例 最后 前言

  3. 深度学习图像融合_基于深度学习的图像超分辨率最新进展与趋势【附PDF】

    因PDF资源在微信公众号关注公众号:人工智能前沿讲习回复"超分辨"获取文章PDF 1.主题简介 图像超分辨率是计算机视觉和图像处理领域一个非常重要的研究问题,在医疗图像分析.生物特 ...

  4. 根据大小分割大文本_基于深度学习的图像分割在高德地图的实践

    一.前言 图像分割(Image Segmentation)是计算机视觉领域中的一项重要基础技术,是图像理解中的重要一环.图像分割是将数字图像细分为多个图像子区域的过程,通过简化或改变图像的表示形式,让 ...

  5. 病虫害模型算法_基于深度学习的目标检测算法综述

    sigai 基于深度学习的目标检测算法综述 导言 目标检测的任务是找出图像中所有感兴趣的目标(物体),确定它们的位置和大小,是机器视觉领域的核心问题之一.由于各类物体有不同的外观,形状,姿态,加上成像 ...

  6. 深度学习:在图像上找到手势_使用深度学习的人类情绪和手势检测器:第1部分

    深度学习:在图像上找到手势 情感手势检测 (Emotion Gesture Detection) Has anyone ever wondered looking at someone and tri ...

  7. 点云的无序性_基于深度学习的激光雷达点云物体识别方法总结

    0. 前言: 激光雷达作为自动驾驶不可或缺的传感器,随着价格不断下降,各种基于深度学习的模型也层出不穷(坐等马斯克打脸); 激光雷达物体识别的任务: 输入: 激光点云(x, y, z, intensi ...

  8. python成绩统计及格学平成_基于深度学习的目标检测算法综述

    导言目标检测的任务是找出图像中所有感兴趣的目标(物体),确定它们的位置和大小,是机器视觉领域的核心问题之一.由于各类物体有不同的外观,形状,姿态,加上成像时光照,遮挡等因素的干扰,目标检测一直是机器视 ...

  9. 基于深度搜索的树路径求解_基于深度学习的自动验证码求解器

    基于深度搜索的树路径求解 计算机视觉,网络安全,深度学习(Computer Vision, Cybersecurity, Deep Learning) Disclaimer: The followin ...

最新文章

  1. poj(2325)线段树
  2. c#接口和抽象类对比学习
  3. Android 的简介和体系结构中每个层的功能。
  4. OAuth2.0授权码认证流程介绍
  5. VS2010 无法计算HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\MSBuild\ToolsVersions\14.0@VCTargetPath处的属性表达式...
  6. jsp需要多少java基础_Java基础——JSP(一)
  7. Could not find a package,configuration file provided by G2O ,G2OConfig.cmake,g2o-config.cmake
  8. Python爬虫自学之第(③)篇——实战:requests+BeautifulSoup实现静态爬取
  9. Oracle创建表_01
  10. python 爬虫_BeautifulSoup详细用法
  11. node服务器给客户端发消息,上的node.js发送消息客户端 - 服务器 - 客户端上socket.io(Sen...
  12. Vmware虚拟机集群设置静态ip
  13. Delphi2007使用心得
  14. 互联网协议理解(入门)
  15. 四轴飞行器——转动惯量
  16. 读易[2]·该出手时就出手(乾卦)
  17. 分享一张职场学习必备的工作法思维导图
  18. AutoHotKey:Shift+ijkl实现方向键
  19. 使用 CMake 解决编译出来的 so 文件过大的问题
  20. Java之JDK环境的安装与配置

热门文章

  1. Numpy基础(part1)--ndarray数组
  2. linux postgresql默认安装目录,PostgreSQL for Linux 安装方式
  3. 11月碎碎念-谈职场礼貌
  4. SAP Commerce Cloud CMS page 和 page template 的概念
  5. Angular jasmine单元测试框架里describe的实现原理
  6. SAP Spartacus B2B页面的BodyContent position
  7. ABAP程序里设置外部断点,调试时断点怎么也触发不了,该怎么办
  8. Angular的HttpClient注入
  9. SAP CRM get_children 方法里面参数 iv_as_copy 有什么用?
  10. 什么是SAP Intelligent Robitic Process Automation - iRPA