一、前言

1.论文要解决的问题:
输入: MSCOCO,Flickr30K
输出: image to text (text to image):rank

2, 本文的方法创新:
提出了一种新的计算loss的方案,主要针对与hard negtive,加大样本与hard negtive 的距离

二、论文方法

Embedding

1) 图像采用VGG19或者ResNet152进行特征提取
2) 文本描述采用GRU将文本与图像映射到同一个子空间

通过卷积网络与序列网络分别得到图像和文本的特征:

二者相似度度量采用二者的内积进行计算:

Loss

在近来的多模态检索、图文匹配、文本描述与图像检索等问题中大多采用triplet loss:

其中 α \alpha α代表margin

VSE++: Improving Visual-Semantic Embeddings with Hard Negatives相关推荐

  1. Learning the Best Pooling Strategy for Visual Semantic Embedding

    学习视觉语义嵌入的最佳池策略 摘要 介绍 多模态匹配的视觉语义嵌入 具有广义池化算子的VSE∞ 概括不同的池策略 实现广义池操作符 使用GPO生成VSE∞ 相关工作 实验 综合检索实验 比较GPO与可 ...

  2. (四十二):Aligning Linguistic Words and Visual Semantic Units for Image Captioning

    (四十二):Aligning Linguistic Words and Visual Semantic Units for Image Captioning 手写笔记 PPT总结 ABSTRACT 1 ...

  3. 『论文笔记』Two Causal Principles for Improving Visual Dialog

    Two Causal Principles for Improving Visual Dialog 一句话总结 从因果图角度审视视觉对话任务,切断对话历史与答案的直接因果效应,添加混杂因子[用户偏好] ...

  4. 论文阅读:Visual Semantic Localization based on HD Map for AutonomousVehicles in Urban Scenarios

    题目:Visual Semantic Localization based on HD Map for Autonomous Vehicles in Urban Scenarios 中文:基于高清地图 ...

  5. VSO:Visual Semantic Odometry(ECCV 2018)

    VSO:Visual Semantic Odometry(ECCV 2018) 推荐另外三篇视觉语义里程计论文: . <Probabilistic Data Association for Se ...

  6. 论文解读:PromptBERT: Improving BERT Sentence Embeddings with Prompts

    论文解读:PromptBERT: Improving BERT Sentence Embeddings with Prompts 一.动机 虽然BERT等语言模型有很大的成果,但在对句子表征方面(se ...

  7. PromptBERT: Improving BERT Sentence Embeddings with Prompts (通篇翻译)

    PromptBERT:使用提示改进BERT句子嵌入 Ting Jiang 1 ∗ , Shaohan Huang 3 , Zihan Zhang 4 , Deqing Wang 1 † , Fuzhe ...

  8. PromptBERT: Improving BERT Sentence Embeddings with Prompts

    这篇文章用Prompt减少偏差token偏差,传统的BERT输出的向量,在句子语义相似度方面的表现是不好的.作者发现原因主要由两点组成:static token embedding biases和in ...

  9. PyTorch超级资源列表(Github 2.4K星)包罗万象

    PyTorch超级资源列表,包罗万象 PyTorch超级资源列表(Github 2.4K星)包罗万象 -v7.x 1 Pytorch官方工程 2 自然语言处理和语音处理(NLP & Speec ...

最新文章

  1. TensorFlow人工智能引擎入门教程之二 CNN卷积神经网络的基本定义理解。
  2. pcb二次钻孔_PCB的内层制作流程,你学会了吗?
  3. 仿射变换 c语言,c语言数字图像处理(三):仿射变换
  4. 预约清单ui设计_持续交付质量设计所需的UI清单
  5. Linux环境编译时报错/lib64/libdl.so.2: could not read symbols: Invalid operation
  6. 为推广5G 4G网络降速?三大运营商回应:不存在的!
  7. Excel计数(count)可视化
  8. 韭菜财经大数据:《2019年内容创业市场报告》
  9. python机器学习案例系列教程——GBDT算法、XGBOOST算法
  10. java IO流:字节流、字符流
  11. VS201-无法打开源文件hpp(或链接库文件)的解决方法
  12. python取数组最后一个元素_python数组最后一个元素
  13. 5号字对应的数字字号_5号字体是多少pt-字号,尺寸
  14. 在指定字符串后面插入字符串
  15. 解决电脑软件可以上网,但是浏览器无法上网的问题
  16. RabbitMQ面试要点
  17. html隐藏手机状态栏,如何隐藏iPhone手机状态栏_隐藏iPhone手机状态栏操作方法介绍-果粉控...
  18. 使用Perl编写协议分析脚本
  19. 广告点击率预估中的特征选择
  20. [转帖]美国《工程索引》收录中国科技论文的最新规定

热门文章

  1. 微信小程序+jsp+Mysql 电影详情的微信小程序 源代码+设计文档+说明文档
  2. window安装 Ubuntu子系统 和 fish
  3. codeblocks:: frotran 调用dll(详细)
  4. java 三个字段修改检验唯一,新增/修改时,唯一性字段检查
  5. MySQL事务隔离级别:可重复读、读已提交、读未提交。实操
  6. java中如何删除文件或清除文件夹下的所有文件
  7. 他山之石——VBA代码封装
  8. php 字符去掉空格,php字符串如何去掉空格
  9. 日志易日志平台使用了什么开源软件
  10. Win10字体大小调整 资源管理器字体 浏览器标签页导航栏字体变大