Multi-Task Video Captioning with Video and Entailment Generation阅读笔记
这篇文章提出多任务学习去优化Video Captioning框架,模型框架图如上所示,共3个任务。
其中,UNSUPERVISED VIDEO PREDICTION(无监督视频预测):一个视频由n帧组成,首先对这些帧提取特征,然后将其分为1…k,k…,n帧,这个任务就是由前k个帧的视频特征,去预测后n-k个帧的视频特征。
第二个任务是ENTAILMENT GENERATION,这个任务是输入一个句子,生成一个与输入句子相似的句子(许多video captioning数据集中关于一个视频有多个描述,这些描述句子都是描述相同的视频事件)。
而最重要的VIDEO CAPTIONING任务是使用无监督视频预测框架中的video encoder部分对视频进行编码,然后使用蕴含生成框架中的Language Dencoder部分对视频进行解码。前一部分能够增加在时序上的视频编码,后一部分能够在生成描述时进行逻辑推理。
训练时是在一个mini_batch中将数据分成三份,然后交替地训练上面三个任务。
Multi-Task Video Captioning with Video and Entailment Generation阅读笔记相关推荐
- EDVR: Video Restoration with Enhanced Deformable Convolutional Networks阅读笔记
EDVR: Video Restoration with Enhanced Deformable Convolutional Networks EDVR:基于增强可变形卷积网络的视频恢复 论文:htt ...
- 视频重建论文EDVR: Video Restoration with Enhanced Deformable Convolutional Networks阅读笔记
论文来源:CVPRW2019 论文链接:http://ieeexplore.ieee.org/document/9025464 项目地址:GitHub - xinntao/EDVR: Winning ...
- DUF:Deep Video Super-Resolution Network Using Dynamic Upsampling Filters ...阅读笔记
DUF:Deep Video Super-Resolution Network Using Dynamic Upsampling Filters Without Explicit Motion Com ...
- Video Analysis 相关领域解读之Video Captioning(视频to文字描述)
之前两次分别介绍了video analysis中的action recognition 以及 temporal action detection 这两个领域.这两个领域算是对视频mid-level的理 ...
- 论文介绍--Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning
Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning 这篇论文发表 ...
- 【论文阅读】 Reinforced Video Captioning with Entailment Rewards
这篇论文主要有两个亮点: 以往的seq2seq模型在训练时都是经过word-level的交叉熵损失优化的,该损失与最终评估任务的sentence-level的度量没有很好的相关性:并且,以往的模型会遭 ...
- 2019年, video captioning论文汇总
目录 CVPR2019:GRU CVPR2019:OA-BTG CVPR2019:MLE+HybirdDis CVPR2019:MARN CVPR2019:SDVC AAAI2019:FCVC-CF& ...
- 2020年, video captioning论文汇总
目录 CVPR2020:ORG-TRL CVPR2020:STG-KD TIP2020:OSTG TPAMI2020:SibNet(MM2018) WACV2020:DSD WACV2020:STaT ...
- 微软提出第一个端到端的Video Captioning方法:SWIN BERT,涨点显著!
关注公众号,发现CV技术之美 本文分享论文『SWIN BERT: End-to-End Transformers with Sparse Attention for Video Captioning』 ...
最新文章
- mysql onlibe all_MySQL Online DDL
- Xamarin只言片语系列
- Ext2.0 form使用实例
- Hama笔记:Unable to load native-hadoop library 和 Snappy native library not loaded 的解决
- 2022-01-17
- # 起床困难综合症(二进制枚举+按位求贡献)
- VTK:网格用法实战
- c# 多线程 调用带参数函数
- Qt 图形特效(Graphics Effect)介绍
- Linux设备树相关函数
- I/O设备的基本概念和分类
- Asp.net MVP模式介绍
- 浅谈java 之 Map
- Linux下ALSA驱动分析
- 二维vector初始化大小方法
- 广东省计算机学校,广东省计算机基础练习平台(高校版)安装设置方法
- php中ci钩子,CodeIgniter钩子用法
- Facebook自动化测试札记
- Tableau——方向图标的应用
- 数字逻辑练习题(一)
热门文章
- oracle.jdbc.OracleDriver Oracle数据库驱动
- 【AE-MG动画全套学习教程】After Effects CC MG动画高效学习视频全套
- 阿里云物联网平台MQTT教程
- centos压缩包安装mysql_Centos安装Mysql压缩包方式
- Windows10 MySQL8.0版本的压缩包安装方式
- 北大直博保送生论文涉嫌抄袭?原作者实名举报,北大南开火速调查
- 指标梳理对成功实施BI项目有什么意义
- 关于‘\0’ ,‘0’, “0” ,0的理解
- 上传Excel文件进度条原理
- mysql ping命令_Ping命令详解