这篇文章提出多任务学习去优化Video Captioning框架,模型框架图如上所示,共3个任务。
其中,UNSUPERVISED VIDEO PREDICTION(无监督视频预测):一个视频由n帧组成,首先对这些帧提取特征,然后将其分为1…k,k…,n帧,这个任务就是由前k个帧的视频特征,去预测后n-k个帧的视频特征。
第二个任务是ENTAILMENT GENERATION,这个任务是输入一个句子,生成一个与输入句子相似的句子(许多video captioning数据集中关于一个视频有多个描述,这些描述句子都是描述相同的视频事件)。
而最重要的VIDEO CAPTIONING任务是使用无监督视频预测框架中的video encoder部分对视频进行编码,然后使用蕴含生成框架中的Language Dencoder部分对视频进行解码。前一部分能够增加在时序上的视频编码,后一部分能够在生成描述时进行逻辑推理。
训练时是在一个mini_batch中将数据分成三份,然后交替地训练上面三个任务。

Multi-Task Video Captioning with Video and Entailment Generation阅读笔记相关推荐

  1. EDVR: Video Restoration with Enhanced Deformable Convolutional Networks阅读笔记

    EDVR: Video Restoration with Enhanced Deformable Convolutional Networks EDVR:基于增强可变形卷积网络的视频恢复 论文:htt ...

  2. 视频重建论文EDVR: Video Restoration with Enhanced Deformable Convolutional Networks阅读笔记

    论文来源:CVPRW2019 论文链接:http://ieeexplore.ieee.org/document/9025464 项目地址:GitHub - xinntao/EDVR: Winning ...

  3. DUF:Deep Video Super-Resolution Network Using Dynamic Upsampling Filters ...阅读笔记

    DUF:Deep Video Super-Resolution Network Using Dynamic Upsampling Filters Without Explicit Motion Com ...

  4. Video Analysis 相关领域解读之Video Captioning(视频to文字描述)

    之前两次分别介绍了video analysis中的action recognition 以及 temporal action detection 这两个领域.这两个领域算是对视频mid-level的理 ...

  5. 论文介绍--Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning

    Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning 这篇论文发表 ...

  6. 【论文阅读】 Reinforced Video Captioning with Entailment Rewards

    这篇论文主要有两个亮点: 以往的seq2seq模型在训练时都是经过word-level的交叉熵损失优化的,该损失与最终评估任务的sentence-level的度量没有很好的相关性:并且,以往的模型会遭 ...

  7. 2019年, video captioning论文汇总

    目录 CVPR2019:GRU CVPR2019:OA-BTG CVPR2019:MLE+HybirdDis CVPR2019:MARN CVPR2019:SDVC AAAI2019:FCVC-CF& ...

  8. 2020年, video captioning论文汇总

    目录 CVPR2020:ORG-TRL CVPR2020:STG-KD TIP2020:OSTG TPAMI2020:SibNet(MM2018) WACV2020:DSD WACV2020:STaT ...

  9. 微软提出第一个端到端的Video Captioning方法:SWIN BERT,涨点显著!

    关注公众号,发现CV技术之美 本文分享论文『SWIN BERT: End-to-End Transformers with Sparse Attention for Video Captioning』 ...

最新文章

  1. mysql onlibe all_MySQL Online DDL
  2. Xamarin只言片语系列
  3. Ext2.0 form使用实例
  4. Hama笔记:Unable to load native-hadoop library 和 Snappy native library not loaded 的解决
  5. 2022-01-17
  6. # 起床困难综合症(二进制枚举+按位求贡献)
  7. VTK:网格用法实战
  8. c# 多线程 调用带参数函数
  9. Qt 图形特效(Graphics Effect)介绍
  10. Linux设备树相关函数
  11. I/O设备的基本概念和分类
  12. Asp.net MVP模式介绍
  13. 浅谈java 之 Map
  14. Linux下ALSA驱动分析
  15. 二维vector初始化大小方法
  16. 广东省计算机学校,广东省计算机基础练习平台(高校版)安装设置方法
  17. php中ci钩子,CodeIgniter钩子用法
  18. Facebook自动化测试札记
  19. Tableau——方向图标的应用
  20. 数字逻辑练习题(一)

热门文章

  1. oracle.jdbc.OracleDriver Oracle数据库驱动
  2. 【AE-MG动画全套学习教程】After Effects CC MG动画高效学习视频全套
  3. 阿里云物联网平台MQTT教程
  4. centos压缩包安装mysql_Centos安装Mysql压缩包方式
  5. Windows10 MySQL8.0版本的压缩包安装方式
  6. 北大直博保送生论文涉嫌抄袭?原作者实名举报,北大南开火速调查
  7. 指标梳理对成功实施BI项目有什么意义
  8. 关于‘\0’ ,‘0’, “0” ,0的理解
  9. 上传Excel文件进度条原理
  10. mysql ping命令_Ping命令详解