• abstract
  • Introduction
  • Related Work
    • Binary Descriptors
  • Approach
    • Overall Learning Objectives
    • Learning Discriminative Binary Descriptors
    • Learning Efficient Binary Descriptors
    • Learning Rotation Invariant Binary Descriptors
    • 整体算法
  • Experimental Results
    • Datasets
    • Results on Image Matching
    • Results on Image Retrieval
    • Results on Object Recognition
  • Conclusions

abstract

本文主要提出了一个无监督的深度神经网络来学习得到二进制描述(二值描述子),相比于之前的有监督或者无监督的二值描述子要好。主要设计三个内容:

  • 最小化量化损失 - minimal loss quantization,
  • 使得二值尽量的均匀分布 - evenly distributed codes
  • 不相关的二值(bits) - uncorrelated bits [不太明白]

代码 是caffe环境下编写的

Introduction

一个好的特征描述子应该具备:高质量的特征表示、低的计算开销,要能够找到图像中的可以用于区分的信息,并且对于图像的旋转变换要有鲁棒性。如果用于移动设备,还需要考虑计算的实时性(real-time)。
CNN、SIFT等描述子能够学习得到更为深层的信息,更具有区分性,缩小了像素层次和语义层次的差距,但是特征描述子常常维度很高,需要的计算开销较大。
几个二值描述子为了减小计算开销:BRIEF , ORB , BRISK , and FREAK,通过这些描述子可以使用汉明距离计算不同图像之间的相似度,但是这些早期的二值描述子是通过简单的亮度对比(intensity comparison)计算得到,对于尺度、旋转、噪声敏感。也有一些方法对其进行了改进,但是都是基于成对的相似标签(pair-wised similarity labels),也就是说训练数据必须要有标签。
所以,本文提出了无监督的方法,DeepBit

Related Work

Binary Descriptors

早期的:BRIEF , ORB , BRISK , and FREAK,基于手动采样以及成对的亮度对比项(a set of pairwise intensity comparisons)
改进:
D-BRIEF:对期望的相似关系进行编码(encodes the desired similarity relationships)并且学习得到一个投影矩阵来计算具有区分性的二值特征
Local Difference Binary (LDB):使用Adaboost得到最有的采样对
Linear Discriminat Analysis (LDA)
BinBoost:使用boosting得到一系列的投影矩阵
这些改进都是基于成对的标签,并且不支持将这些二值描述子迁移到另外的任务上

非监督的方法:
Locality Sensitive Hashing (LSH):使用随机投影的方式将原始数据映射到一个低维度的特征空间,然后对其二值化
Semantic hashing (SH):建立了一个多层的Restricted Boltzmann Machines (RBM) 来学习得到 compact 二值码,针对文本和文档
Spectral hashing (SpeH): 谱分割方法生成二值码
Iterative qauntization (ITQ):使用迭代优化策略找到二值损失最小时的投影
这些无监督的方法的得到的二值码的准确度实值得到准确度还是有差距

深度学习:获得很大的成功,很多方法通过利用中间层的图像表示( mid-level image representation )获得较好的效果。有人通过预训练的CNN以及深度迁移学习提升了比如图像检测、图像分割、图像检索的效果。
SSDH: 通过构建哈希函数作为隐藏层获得了很好的效果
Deep Hashing (DH): 构建了三层分层结构的神经网络(three layers hierarchical neural networks )来学习得到具有区分性的投影矩阵,但是并没有利用到迁移学习,所以二值码不是那么有效,也就是说不太可以迁移到其他的任务上。

Approach

本文提出的方法利用了从ImageNet上预训练的中间层的图像表示( mid-level image representation )并且无监督学习到了二值描述子

之前的一些方式使用 hand-crafted 特征以及 成对的相似信息来优化投影函数(投影函数是什么形式),deepbit 使用一系列的非线性投影函数计算二值描述子,使用到了三个重要的objectives(损失),通过SGD优化,本方法不需要有标签的训练数据

这是整个的框架

Overall Learning Objectives

deepbit 计算二值描述子的方式是: 首先对输入图像进行投影操作,然后得到二值信息。
b=0.5×(sign(F(x;W))+1)b=0.5×(sign(F(x;W))+1)b = 0.5 \times (sign(\mathcal F (x; \mathcal W)) + 1)
其中 F(x;W)=fk(⋅⋅⋅f2(f1(x;w1);w2)⋅⋅⋅;wk)F(x;W)=fk(⋅⋅⋅f2(f1(x;w1);w2)⋅⋅⋅;wk)\mathcal F (x; \mathcal W) = f_k( \cdot \cdot \cdot f_2(f_1(x; w_1);w_2) \cdot \cdot \cdot;w_k)
deepbit 的目的是学习得到 W=(w1,w2,...,wk)W=(w1,w2,...,wk)\mathcal W = (w_1, w_2, ..., w_k),然后得到二值b

对于 WW\mathcal W,需要具有一下性质:

  • 需要保留最后一层结构的局部数据结构(不太懂),在投影操作之后,量化损失应该尽量小
  • 二值描述子应该尽可能的均匀分布
  • 描述子应该对于图像旋转和噪声具有鲁棒性,(这样才能够获取到更多的不相关信息??tend to capture more uncorrelated information from input image)

    NNN 是一个batch中的训练数据
    M" role="presentation">MMM 是二值码的长度
    RRR 指的是图像旋转角度
    bn,θ" role="presentation">bn,θbn,θb_{n, \theta} 指xnxnx_n经过 θθ\theta 旋转投影之后的二值码
    C(θ)C(θ)\mathcal C(\theta) 是惩罚函数,作用在训练数据上,根据旋转角度的不同,损失函数不同。

Learning Discriminative Binary Descriptors

deepbit的目标是找到投影函数可以将输入图像映射到一个二值数据中,同时保留原始图像的具有区分性的信息,量化损失越小,二值描述子保留原始图像信息的效果越好,也就是越接近原始投影值

Learning Efficient Binary Descriptors

尽可能的使二值码均匀分布,熵越大,能够表达的信息越多 ,以 50% 分界

其中

Learning Rotation Invariant Binary Descriptors

我们希望得到的描述能具有旋转不变性,
estimation error 可能会随着角度增大而变得很大,所以增加了一个惩罚项C(θ)C(θ)\mathcal C(\theta), μ=0,σ=1μ=0,σ=1 \mu= 0, \sigma= 1
所以最小化函数:

整体算法


算法主要有两个部分,第一部分是对网络的初始化,本文使用的是预训练的16层的VGGNet中的权重,然后将VGGNet的最后一层换成一个新的全连接层,然后使用这些结果来获得二值码,最后使用SGD以及BP算法来训练网络。
用到的设置项:α=1.0,β=1.0,γ=0.01,θ={10,5,0,−5,−10}α=1.0,β=1.0,γ=0.01,θ={10,5,0,−5,−10}\alpha=1.0, \beta=1.0, \gamma=0.01, \theta=\{10, 5, 0, -5, -10\},mini-batch=32, bit-length=256
image_size= 224×224224×224224 \times 224

Experimental Results

主要测试了deepbit在三种不同任务中的效果,image matching, image retrieval, and image classification.

Datasets

  • Brown Dataset:包含 Liberty, Notredame, Yosemite dataset 三个数据集合,每个400,000 gray-scale patches
  • CIFAR-10 Dataset
  • The Oxford 17 Category Flower Dataset: 包含17个分类,每个分类有80个图像

Results on Image Matching

相比较的方法:

  • unsupervised (BRIEF, ORB, BRISK, and Boosted SSC),
  • supervised methods (D-BRIEF, LDAHash).

Results on Image Retrieval

  • LSH, ITQ ,PCAH, Semantic Hashing (SH) , Spectral hashing (SpeH)), Spherical hashing (SphH), KMH, and Deep Hashing (DH)
  • the CIFAR-10 dataset
  • 16, 32, and 64 hash bits
    实验发现哈希码越长,deepbit的效果越好

Results on Object Recognition

主要说明deepbit是一种无监督的方法
比较对象:

  • real-valued descriptors such as HOG, and SIFT
  • on the flower recognition
  • train the multi-class SVM classifier with the proposed binary descriptor

说明了能够有效学习得到具有区分性并且compact的编码(effective to learn discriminative and compact binary codes)

Conclusions

  • 提出了一个无监督的深度学习框架来得到二值描述子
  • 本文的方法不需要标注的训练数据
  • 比那些有监督的描述子更具有实用性(more practical to real-world applications compared to supervised binary descriptors)

refer:

  • Learning Compact Binary Descriptors with Unsupervised Deep Neural Networks
  • code

论文笔记 - Learning Compact Binary Descriptors with Unsupervised Deep Neural Networks相关推荐

  1. 机器学习入门课程笔记(二)——deeplearning.ai: Improving Deep Neural Networks

    欢迎前往我的个人博客网站:mathscode.top获取更多学习资源. 所有文本内容会在知乎: MathsCode同步 所有开放资源会在Github: MathsCode开放下载 有问题欢迎大家评论或 ...

  2. 1.3读论文笔记:M. Raissi a等人的Physics-informed neural networks:A deep learning framework for solving forw..

    Physics-informed neural networks: A deep learning framework for solving forward and inverse problems ...

  3. 论文笔记 NAACL 2016|Joint Event Extraction via Recurrent Neural Networks

    文章目录 1 简介 1.1 动机 1.2 创新 2 背景知识 3 方法 3.1 编码 3.1.1 句子编码 3.1.2 RNN编码 3.2 预测 3.2.1 触发词预测 3.2.2 论元角色预测 3. ...

  4. 论文阅读之《DeepIlluminance: Contextual IlluminanceEstimation via Deep Neural Networks》

    ArXiv2019 Jun Zhang合肥工业大学 Tong Zheng合肥工业大学 Shengping Zhang哈尔滨工业大学(威海) Meng Wang合肥工业大学 Introduction 回 ...

  5. 论文笔记(一)《Intriguing properties of neural networks》

    对抗样本(一)<Intriguing properties of neural networks> 神经网络的有趣特性 两点: 性质1:单个的深层神经元与随机线性组合的多个深层神经元并没有 ...

  6. 【Deep Learning 五】课程二(mproving Deep Neural Networks),第一周(Setting up your Machine Learning Applicat)答案

    吴恩达深度学习课程课后习题(2课1周) 数据集规模相对小的,可以采用传统三七或二二六分法,但在大量数据的时候,只需要1%的验证和测试就足够了.答案C 有时候我们会遇到训练集和验证/测试集来自不同地方的 ...

  7. 【论文笔记-NER综述】A Survey on Deep Learning for Named Entity Recognition

    本笔记理出来综述中的点,并将大体的论文都列出,方便日后调研使用查找,详细可以看论文. 神经网络的解释: The forward pass com- putes a weighted sum of th ...

  8. 【论文笔记1】von Mises-Fisher Mixture Model-based Deep learning: Application to Face Verification

    [论文笔记1]von Mises-Fisher Mixture Model-based Deep learning: Application to Face Verification 1 介绍 人脸识 ...

  9. [论文阅读笔记58]Learning from Noisy Labels with Deep Neural Networks:A Survey

    1.题目 Learning from Noisy Labels with Deep Neural Networks: A Survey 作者团队:韩国科学技术院(KAIST) Song H , Kim ...

  10. 论文笔记:Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World

    Domain Randomization for Transferring Deep Neural Networks from Simulation to the Real World 文章概况 作者 ...

最新文章

  1. [Hadoop] Error: JAVA_HOME is not set
  2. HBase在阿里搜索中的应用实践
  3. 工程搭建:搭建子工程之搭建环境构造返回实体类
  4. 福禄克中国区高管:高精度和应用性是未来测试主要发展方向
  5. jenkins 手动执行_Jenkins Git client插件命令执行漏洞(CVE201910392)
  6. 2019年最好的前端进阶课,合同保障不过20w年薪全额退款!
  7. angularjs详解
  8. Netscreen204防火墙配置网络设备的SNMP及Syslog配置
  9. tomcat UTF-8格式的HTML文件乱码
  10. 苹果手机录屏软件_手机录屏高清软件下载-手机录屏高清 安卓版v1.0.0
  11. 基础线性代数知识点总结与回顾(三):向量空间和二次型
  12. realtek高清晰音频管理器打不开怎么办?
  13. 外卖点餐管理系统源码
  14. 防火墙、IDS(入侵检测系统)与双机热备
  15. 渗透测试面试问题集合(转载自己看,链接在开头)
  16. TM1637数码管显示STC51单片机驱动程序
  17. 清华计算机系本科毕业起薪,大学本科毕业起薪最高的六大专业
  18. 华为VRRP双机热备(基于接口设置热备)
  19. 教师资格证网站 在mac上无法打开- 看我就够了(踏过太多坑了)
  20. 环信即时通讯SDK集成——环信 uni-app-demo 升级改造计划——整体代码重构优化(二)

热门文章

  1. 使用VGA实现移动方块
  2. 孩子的编程启蒙好伙伴,自己动手打造小世界,长毛象教育AI百变编程积木套件上手
  3. python当中的列表函数和列表推导式
  4. 用于屏幕对比图片jevin
  5. winedit自动换行
  6. ThinkPHP5分页样式
  7. 痞子衡嵌入式:ARM Cortex-M文件那些事(5)- 映射文件(.map)
  8. 传说中的蝴蝶效应?--MAC地址克隆竟然惹祸了!
  9. 《图解TCP/IP》读书笔记
  10. 《后端成长路线》系列 导航篇