读论文,衣物检索:Clothing Retrieval with Visual Attention Model(2017.10.31)
Clothing Retrieval with Visual Attention Model(2017.10.31)
创新点
VAM不需要强监督训练信息的landmark;
提出了Impdrop方法,是将Dropout应用于feature层面
困难:
同样是双域问题
Landmark所对应的多属性的细粒度标注信息的 处理方式。
相关研究
1. Wh方法是为了学习不同域的相似度度量《Where to buy it: Matching street clothing photos in online shops (2015)》
2. 部分参数共享方法parameterpartial-sharing method 是处理不同域的影像是共享部分参数《A parameter partial-sharing cnn architecture for cross-domain clothing retrieval(2016)》。
处理图像中的扰动信息
按顺序->
1. 之前的数据增广data augmentation方法有利于神经网络的训练;
2. 但是数据本身的扰动信息,如相同物体的背景或者遮挡,处理手段目前有限,
3. 作者认为使用事先标注的位置框,可以直接让网络“看到”目标,算是一种处理这种信息扰动形式的方式,具体的是指FashionNet在识别衣服的不同款式时,使用人工标注的landmark指示出了诸如领子/袖子等部位。
4. 作者给出的方法就是attention architecture——让神经网络自动学习一种可寻找目标的attention机制。
具体的实现(attention机制)
1. 首先,训练一个FCN网络,得到attention maps。
2. 然后,attention map和中间结果组合,得到特征向量,用来检索衣物。其中,组合的实施方式是Impdrop connection结构,消除了背景。
3. 最后,由此所得到的loss,既训练主网络又训练VAM
1. 图片同时输入到两个分支里面,具体按照图片中说明的方式得出相应的结果。
2. 其中,feature maps/attention map和attention feature maps有相同的宽高,除attention map外,剩余两个有相同的channel。这儿和DropOut没太多关系,也没有借鉴关系,其实就是简单相称。
3. Upper layers A/B有相同的网络结构和网络参数。
至于为嘛FCN不和原图片组合(就是抠出来):
1. 图片尺寸,FCN的输出尺寸小于原图。
2. 与原图组合的话,产生额外的假边缘。
3. 产生当前中间层的feature map在上面所说的假边缘的地方,感受野是会跨过这条边缘线的。
为嘛叫Impdrop
1. Attention map和Feature maps组合,将重要的部分抠出来,就是使用点乘的方式。
读论文,衣物检索:Clothing Retrieval with Visual Attention Model(2017.10.31)相关推荐
- 【读论文】Loop Closure Detection for Visual SLAM Systems Using Convolutional Neural Network
[读论文]Loop Closure Detection for Visual SLAM Systems Using Convolutional Neural Network 发表于2017年,作者是南 ...
- VideoQA论文阅读笔记——Heterogeneous Memory Enhanced Multimodal Attention Model for Video Question Answering
论文:Heterogeneous Memory Enhanced Multimodal Attention Model for VQA 来源:CVPR2019 作者:京东研究院 源码: Github ...
- 读论文:检索式多轮问答,阿里的ESIM模型
这一篇<Sequential Attention-based Network for Neotic End-to-End Response Selection>,论文地址,是阿里刚刚七月份 ...
- 从2017年顶会论文看Attention Model - PaperWeekly 第50期
作者丨黄瑾 学校丨中国人民大学在读硕士 研究方向丨数据挖掘,人工智能 1. 前言 2017 年 KDD,Sigir 以及 Recsys 会议被接收的论文早已公示,本文对这些会议中 Attention ...
- 【Recurrent Models of Visual Attention】(讲解)
首先给出论文地址:[Recurrent Models of Visual Attention][1](https://arxiv.org/pdf/1406.6247v1.pdf) 先大概从整体上聊聊这 ...
- 读论文3:SELFEXPLAIN: A Self-Explaining Architecture for Neural Text Classifiers
标题 读论文3:SELFEXPLAIN: A Self-Explaining Architecture for Neural Text Classifiers 标题 Abstract:[读论文1](h ...
- Re24:读论文 IOT-Match Explainable Legal Case Matching via Inverse Optimal Transport-based Rationale Ext
诸神缄默不语-个人CSDN博文目录 论文名称:Explainable Legal Case Matching via Inverse Optimal Transport-based Rationale ...
- 覆盖近2亿篇论文还免费!沈向洋旗下团队「读论文神器」登B站热搜
视学算法报道 编辑:小咸鱼 好困 [新智元导读]无意中发现B站上有个叫ReadPaper的在线论文阅读笔记神器冲上了热榜!ReadPaper由沈向洋博士创办的IDEA旗下团队研发,其收录了近2 ...
- 搞科研,从好好读论文开始:沈向洋带你读论文了
「或许你永远不知道你以前读过的书能在什么时候派上用场,但请保持阅读,因为阅读的过程也是在你大脑中建立认知的过程.」 对于科研人员来说,读论文是一种必修技能.去年,沈向洋博士曾在线上公开课<You ...
最新文章
- 模板 - Min_25 筛法求素数和
- tensorflow随笔-读取图像文件数据(2)-TFRecord
- Java 使用GDAL 读写 shapefile
- 《墨子》 —— 兼爱与非攻
- spring 连数据库的配置文件
- 基于微服务和Docker容器技术的PaaS云平台架构设计
- 无监督学习K-means文本聚类实践
- 教你如何保存有妖气漫画
- 使用ffmpeg破解m3u8加密视频文件
- 构建请求header fake_useragent安装以及解决方法
- spring框架知识整理
- 一文快速入门三维人脸重建学习
- live2d_二次元 | live2d为你的网站博客增加萌萌哒的看板娘
- springboot+thymeleaf+bootstrap+mybatis-Plus+mysql 情侣空间网站源代码
- Compose Multiplatform 正式官宣,与 Flutter 迟早必有一战?
- 街霸 隆(Ryu)升龙拳(Syoryuken)动画(四)制作过程中几个版本动画比较一下
- Rust 编程视频教程(进阶)——017_1 消息传递 1
- 昇腾Atlas200DK学习笔记(一)——环境部署
- JS常用代码片段-127个常用罗列-值得收藏
- 软件项目管理Follow Me--如何进行项目估算