目录

  • 简介
  • 动机
  • 贡献
  • 方法
  • 实验

简介

北大电子工程与计算机科学学院、华科软件工程学院、北航软件学院合作的一篇文章,算是我看到的第二篇ALVC任务方面的论文,看这个版面和参考文献格式,感觉是投了ICML。
下载链接

  • task challenge:如何合理地利用视频和文本中丰富多样的信息。

动机

作者先是分析了相关工作(实际上只有AAAI2019的那一篇,链接),指出该文章中没有将视觉信息和文字信息整合在一起,可能导致信息多样性有限。surrounding comments是基于video生成的,包含video中较为重要的信息。综上,本文致力于从视频和文本中收集多样化的信息。

贡献

  • 提出Diversified CoAttention (DCA)模型,用于从视频和文本中收集多样化的信息。
  • DCA模型中包括三个相互关联的组件:多视角attention(MPA)、参数正交化方法( parameter orthogonalization technique,简称Ortho)、门控attention模块(GAM)。
  • 取得了比以前方法(就一篇)和传统的co-attention更好的结果。

方法

本文方法的整体框架如下图所示,MPA通过多视角设置生成多样化的相互依赖的表示,Ortho用于去除MPA结果中的冗余信息,GAM用于集成来自MPA的各种信息。

门控attention模块的结构如下图所示:

实验

automatic evaluation(其中,带下划线的是Ma et al., 2019的实验结果):

human evaluation:

arXiv 2019 《DCA: Diversified Co-Attention towards Informative Live Video Commenting》论文笔记相关推荐

  1. 【显著性物体检测】【ECCV2018】Reverse Attention for Salient Object Detection【论文笔记】

    简介:在不怎么增加计算量的前提下,采用从粗到精的思想,由高级特征到低级特征,补全显著性检测的轮廓[最近很多都是基于这个思想].模型的速度与效果都占优.具体关注,是怎么实现特征的多级利用的. ECSSD ...

  2. CVPR 2020 HAN:《Hypergraph Attention Networks for Multimodal Learning》论文笔记

    目录 简介 动机 贡献 方法 实验 简介 本文提出了一种用于多模态学习的超图注意力网络,作者来自Kakao公司和首尔大学. Kakao公司的主要产品是Kakao talk,类似于国内的微信,且腾讯是其 ...

  3. Spatially and Temporally Efficient Non-local Attention Net work for Video-based Re-Id 论文笔记

    作者的目标非常明确(刷分),利用注意力机制,首次将Mars数据集的rank-1突破90难关. Abstract 在神经网络中利用注意力机制来学习图像特征是近几年来比较流行的方法,同样地,也适用于视频序 ...

  4. Single Headed Attention RNN: Stop ThinkingWith Your Head 论文笔记

    1 研究动机 选择这篇论文来读,有一点奇文共欣赏的意思. 区别于现在主流的框架比拼算力,本文重新思考是不是可以通过lstm 和 单头的attention就可以在现在的数据集上完成大型框架类似的指标. ...

  5. CVPR 2019 ATOM:《ATOM: Accurate Tracking by Overlap Maximization》论文笔记

    目录 简介 动机 贡献 方法 实验 理解出错之处忘不吝指正. 简介 本文是MD在ECO系列之后的新paper,CVPR2019的oral,文章质量很高. 文章链接 代码链接 动机 目前,目标跟踪领域的 ...

  6. 细粒度分类:Diversified Visual Attention Networks

    一.介绍 本文简单介绍一下一篇细粒度文章的大致思想,题目是Diversified Visual Attention Networks for Fine-Grained Object Classific ...

  7. 【论文笔记】DR-TANet: Dynamic Receptive Temporal Attention Network for Street Scene Change Detection

    论文 论文题目:DR-TANet: Dynamic Receptive Temporal Attention Network for Street Scene Change Detection 收录: ...

  8. 【论文笔记】Dynamic Convolution: Attention over Convolution Kernels

    Dynamic Convolution: Attention over Convolution Kernels,CVPR2020 论文地址:https://openaccess.thecvf.com/ ...

  9. Deep RGB-D Saliency Detection with Depth-Sensitive Attention and Automatic Multi-Modal Fusion论文笔记

    CVPR2021论文笔记 题目:Deep RGB-D Saliency Detection with Depth-Sensitive Attention and Automatic Multi-Mod ...

最新文章

  1. bzoj 4710 [Jsoi2011]分特产 组合数学+容斥原理
  2. java scriptrunner_ScriptRunner.java
  3. MySQL主键学习总结
  4. java简单文本编译器_java -简易文本编辑器
  5. CentOS 7 安装 中文字体
  6. 将整个表单设置为只读_如何将Git的界面语言设置为中文?
  7. Linux实时/高性能任务独占CPU的操作
  8. 人工智能的主要风险因素有哪些?
  9. 汇编语言程序设计-钱晓捷(第五版)第一章-汇编语言基础知识
  10. C语言基础知识:*p++与*++p;(*p)++  与 ++(*p)的理解
  11. html转换markdownpad,GitHub - negrochn/markdownpad2_toc: MarkdownPad2导出HTML支持[TOC]
  12. termux安装配置
  13. 仿站高手是怎么练成的 分析仿站必备知识总结
  14. Phonics 自然拼读法 ou ow oi oy au aw oo oo ea Teacher:Lamb
  15. IBM究竟是一家怎样的公司
  16. [Android Studio] Android Studio Virtual Device(AVD)虚拟机的功能试用
  17. phpyun更新缓存
  18. java项目如何部署服务器-----如何传输文件到阿里云服务器(三)
  19. 翻译TIPatterns--项目(Projects)
  20. 手机便签APP下载安装

热门文章

  1. 【远程操控】Pycharm远程连接服务器之本地显示独立的plot窗口
  2. 小米wifi每天晚上准时断网_小米路由器遭恶意抹黑 官方回应:抵制这种下三滥...
  3. 戏说 Windows GDI (3)
  4. 从用户接触到完成需求说明书
  5. onbeforeunload与onunload事件
  6. cmake的使用-目标类型详解
  7. DOS调用21H存取中断向量
  8. 找出一个数组中出现次数最多的那个元素
  9. Linux 0.11 实验环境搭建
  10. 进入保护模式(三)——《x86汇编语言:从实模式到保护模式》读书笔记17