VSE++: Improving Visual-Semantic Embeddings with Hard Negatives
一、前言
1.论文要解决的问题:
输入: MSCOCO,Flickr30K
输出: image to text (text to image):rank
2, 本文的方法创新:
提出了一种新的计算loss的方案,主要针对与hard negtive,加大样本与hard negtive 的距离
二、论文方法
Embedding
1) 图像采用VGG19或者ResNet152进行特征提取
2) 文本描述采用GRU将文本与图像映射到同一个子空间
通过卷积网络与序列网络分别得到图像和文本的特征:
二者相似度度量采用二者的内积进行计算:
Loss
在近来的多模态检索、图文匹配、文本描述与图像检索等问题中大多采用triplet loss:
其中 α \alpha α代表margin
VSE++: Improving Visual-Semantic Embeddings with Hard Negatives相关推荐
- Learning the Best Pooling Strategy for Visual Semantic Embedding
学习视觉语义嵌入的最佳池策略 摘要 介绍 多模态匹配的视觉语义嵌入 具有广义池化算子的VSE∞ 概括不同的池策略 实现广义池操作符 使用GPO生成VSE∞ 相关工作 实验 综合检索实验 比较GPO与可 ...
- (四十二):Aligning Linguistic Words and Visual Semantic Units for Image Captioning
(四十二):Aligning Linguistic Words and Visual Semantic Units for Image Captioning 手写笔记 PPT总结 ABSTRACT 1 ...
- 『论文笔记』Two Causal Principles for Improving Visual Dialog
Two Causal Principles for Improving Visual Dialog 一句话总结 从因果图角度审视视觉对话任务,切断对话历史与答案的直接因果效应,添加混杂因子[用户偏好] ...
- 论文阅读:Visual Semantic Localization based on HD Map for AutonomousVehicles in Urban Scenarios
题目:Visual Semantic Localization based on HD Map for Autonomous Vehicles in Urban Scenarios 中文:基于高清地图 ...
- VSO:Visual Semantic Odometry(ECCV 2018)
VSO:Visual Semantic Odometry(ECCV 2018) 推荐另外三篇视觉语义里程计论文: . <Probabilistic Data Association for Se ...
- 论文解读:PromptBERT: Improving BERT Sentence Embeddings with Prompts
论文解读:PromptBERT: Improving BERT Sentence Embeddings with Prompts 一.动机 虽然BERT等语言模型有很大的成果,但在对句子表征方面(se ...
- PromptBERT: Improving BERT Sentence Embeddings with Prompts (通篇翻译)
PromptBERT:使用提示改进BERT句子嵌入 Ting Jiang 1 ∗ , Shaohan Huang 3 , Zihan Zhang 4 , Deqing Wang 1 † , Fuzhe ...
- PromptBERT: Improving BERT Sentence Embeddings with Prompts
这篇文章用Prompt减少偏差token偏差,传统的BERT输出的向量,在句子语义相似度方面的表现是不好的.作者发现原因主要由两点组成:static token embedding biases和in ...
- PyTorch超级资源列表(Github 2.4K星)包罗万象
PyTorch超级资源列表,包罗万象 PyTorch超级资源列表(Github 2.4K星)包罗万象 -v7.x 1 Pytorch官方工程 2 自然语言处理和语音处理(NLP & Speec ...
最新文章
- TensorFlow人工智能引擎入门教程之二 CNN卷积神经网络的基本定义理解。
- pcb二次钻孔_PCB的内层制作流程,你学会了吗?
- 仿射变换 c语言,c语言数字图像处理(三):仿射变换
- 预约清单ui设计_持续交付质量设计所需的UI清单
- Linux环境编译时报错/lib64/libdl.so.2: could not read symbols: Invalid operation
- 为推广5G 4G网络降速?三大运营商回应:不存在的!
- Excel计数(count)可视化
- 韭菜财经大数据:《2019年内容创业市场报告》
- python机器学习案例系列教程——GBDT算法、XGBOOST算法
- java IO流:字节流、字符流
- VS201-无法打开源文件hpp(或链接库文件)的解决方法
- python取数组最后一个元素_python数组最后一个元素
- 5号字对应的数字字号_5号字体是多少pt-字号,尺寸
- 在指定字符串后面插入字符串
- 解决电脑软件可以上网,但是浏览器无法上网的问题
- RabbitMQ面试要点
- html隐藏手机状态栏,如何隐藏iPhone手机状态栏_隐藏iPhone手机状态栏操作方法介绍-果粉控...
- 使用Perl编写协议分析脚本
- 广告点击率预估中的特征选择
- [转帖]美国《工程索引》收录中国科技论文的最新规定
热门文章
- 微信小程序+jsp+Mysql 电影详情的微信小程序 源代码+设计文档+说明文档
- window安装 Ubuntu子系统 和 fish
- codeblocks:: frotran 调用dll(详细)
- java 三个字段修改检验唯一,新增/修改时,唯一性字段检查
- MySQL事务隔离级别:可重复读、读已提交、读未提交。实操
- java中如何删除文件或清除文件夹下的所有文件
- 他山之石——VBA代码封装
- php 字符去掉空格,php字符串如何去掉空格
- 日志易日志平台使用了什么开源软件
- Win10字体大小调整 资源管理器字体 浏览器标签页导航栏字体变大