1.网络大致架构

原始名称为End-to-End Learning of Video-Based Text Generation From Multimodal Inputs

这个框架可以帮助我们，从视频、音频等输入内容中提取信息，再以人类可以理解的文字，生成字幕或者回答问题等。

直接贴图：给定相应需要实现的任务，比如说QA，以及捕捉要素的任务。根据视频形成Video Backbone，后根据每个视频词汇表不同的Distribution进行分类。对于语音来说的话，同理形成Audio Backbone 处理方式和video类似。对于一段的Speech来说，只需要做Token Embedding即可，不需要前面的一系列的预处理。后面接一个encoder和decoder可以得到一系列的word Distribution。我们建议的框架的说明。VX2TEXT接收作为输入的任务说明符和视频以及伴随的模式，如音频和语音。通过特定于模式的分类器和支持端到端训练的可区分的标记化方案，每个模式都被转换成一组标记。最后，编码器-解码器架构在语言空间中进行多模态融合，生成针对给定任务的开放式文本输出。

2.训练

我们将解码历史替换为相应位置上的ground-truth token gi:

系统的训练采用标准的交叉熵：

n代表了有多少个合法的token，请注意，此设计支持生成可变长度的文本。虽然这里我们展示了单个训练样本的目标，但在实践中，我们对小批量样本进行优化。

大多数以前的多模态Transfers依赖于特定任务的头来处理不同的任务。具体来说，为生成任务设计的头部通常与那些用于区别设置的头部有本质上的不同。然而，我们的VX2TEXT无缝地处理了这两种类型的任务，而不需要改变它的体系结构。对于生成任务，例如字幕和视频对话，我们遵循之前的作品，使用Beam Search(波束宽度设置为5)或Greedy Decoding来生成连贯的句子。

3.实现细节

video backbone network：R(2+1)D-34，以Kinetics的400个动作类别作为视频词汇，在训练过程中，我们随机抽取了32帧的剪辑;在测试期间，我们统一抽样10个剪辑并构建一个预测池。我们从池中采样Kv = 12个预测类别来代表视频中的动作/事件。注意，采样序列是对不同剪辑的预测进行时间排序的;来自同一片段的预测将根据信心评分进行排序。

audio backbone：CNN14，它接受AudioSet的训练，以识别527个声音事件。从相应的视频片段中以16000 Hz的频率采样音频片段，然后对其进行处理，提取出Log-mel谱图，并将其输入CNN。我们使用Ka = 6的预测类别来表示音频片段中的声学事件。

text transformer：包括文本标记嵌入层、编码器和解码器。我们使用HuggingFace中提供的预先训练的权值来初始化文本转换器。我们注意到，除了这些初始化之外，我们没有使用任何形式的预训练，并且模型的优化是使用给定的训练集对每个任务进行的。

AVSD验证集下的不同组合。

分别使用三个基准数据集：TVQA、AVSD和TVC。

可区分标记化通过优化整个端到端模型，进一步提高了这两项任务的性能，在很大程度上优于其他方案。我们使用每个GPU 6个示例的批量大小，并将训练分发到32个NVidia V100 GPU。我们使用学习率为0.0001的Adam来优化我们的模型。我们为40个epoch训练我们的模型，在第20和30个epoch的学习速率除以10。在我们的默认设置下，AVSD、TVQA和TVC的train时间分别为12、15和20小时。

4.数据集

Audio-Visual Scene-Aware Dialog：AVSD是一个基准测试，由描述Charades数据集中的视频的人类对话组成。每段视频的对话形式为10对问答。这些问题是由一个没有看过视频的人来提出的。这些问题的目的是收集关于视频内容的尽可能多的信息。这是通过与一个人的对话，谁看过视频，并提供详细的答案的问题。在这个基准测试中，算法会根据它们回答文本形式问题的能力进行评估

Video Question Answering：TVQA是一个数据集由6部电视剧的视频剪辑组成。给定一个视频剪辑和相应的演讲，这个任务的目标是回答一个关于该视频剪辑的多项选择题。每个视频剪辑有7个问题，每个问题有5个候选答案。总的来说，该数据集包含了来自21,800个片段的152,500对QA。语音数据以手工注释的文本形式出现。我们使用训练分割来训练我们的模型，并在验证集中报告结果。我们采用top-1准确度作为标准评价指标。

Video Captioning：TVC是最近推出的视频字幕基准。TVC数据集包含了与TVQA相同的一组视频，但是这些视频是以不同的方式被分割成片段的。将由手工文本组成的演讲作为输入输入到我们的模型。我们采用以下评价指标:BLEU-{1,2,3,4}、CIDEr、METEOR和ROUGE-L。在数据集的验证集上评估性能。

我们首先研究个别模态对基于视频的文本生成性能的影响。我们用不同的输入组合来训练和测试我们的模型。基于这些结果，我们观察到每种模式都为两个任务提供了性能增益。这对于AVSD基准测试来说尤其值得注意，它是专门为理解多模态而设计的。此外，请注意，视频模式的添加在所有指标下都产生了非常显著的增益。

研究了不同模态融合机制对TVQA验证集系统质量保证性能的影响。(最好是彩色的。)可微标记化方案在很大程度上优于其他方案。

在“生成(循环一致性)”中，我们的模型执行以下步骤:

1)给出基本真理问题Q，生成答案A;

2)根据A '生成问题Q ';

3)输出答案A“基于Q”。

最终目标是问题一致性的线性组合

与AVSD测试集的最先进水平相比，我们的模型在这两种情况下都取得了最好的结果。

在TVQA的验证集和测试集上，与目前的视频问答任务进行了比较。在测试集中，VX2TEXT比利用760万额外多模态样本进行预训练的HERO版本取得了更好的性能。数字代表Top-1准确率(%)。

5.与State-of-the-Art比较

我们将在三个独立的基准上将我们的单一模型与最先进的模型进行比较。

AVSD：最先进的MTN系统使用复杂的跨模态注意模块来融合来自不同模态的信息。MTN- TMT利用复杂的辅助损失对齐MTN的嵌入空间。然而，即使没有文本标题，这是一个非常强的信息源，我们的VX2TEXT已经达到了比MTN更好的性能。当向输入添加文本标题时，VX2TEXT的性能进一步提高，并显著优于MTN-TMT。这进一步证明了我们提出的简单的模态集成方案的有效性。

TVQA：由于TVQA上的许多方法都使用对象/帧级特性，为了进行公平的比较，我们将检测到的对象类别包含在VX2TEXT中作为此评估的额外输入模式。由于训练对象检测器的复杂性，这里我们使用了Frozen Tokenization，而将可微分Tokenization的应用留给以后的工作。

在测试集中，我们的VX2TEXT比以前的先进技术提高了1.4%，以HERO系统为代表，该系统采用了对760万额外样本进行的昂贵的多模态托词训练。这次预训练大约需要3周时间。当两个模型在没有多模态借口的情况下进行训练时，我们的VX2TEXT优于HERO 4.7%。

VX2TEXT在TVC验证集和测试集上的视频字幕性能。在不使用额外样本进行多模态预训练的方法中，我们的模型取得了最好的性能。

AVSD验证集中为音频视觉场景感知对话生成的答案示例。给定多模态输入，VX2TEXT成功地以自然语言进行响应。

由VX2TEXT生成的文本描述的例子，用于TVC验证集上的视频字幕。VX2TEXT从多模态输入生成信息丰富的描述。

2:VX2TEXT基于多模态输入的视频文本生成的端到端相关推荐

基于结构化数据的文本生成：非严格对齐生成任务及动态轻量的GCN生成模型
作者|邴立东.程丽颖.付子豪.张琰等单位|阿里巴巴达摩院.香港中文大学等摘要基于结构化数据生成文本(data-to-text)的任务旨在生成人类可读的文本来直观地描述给定的结构化数据.然而,目前 ...
NLP实战之基于seq2seq的有约束文本生成
seq2seq构建写对联AI 问题背景介绍对联又称对子,对仗工整,平仄协调,是一字一音的汉文语言独特的艺术形式,是中国传统文化瑰宝.对联的上下联有着非常工整的对应关系,我们可以尝试使用神经网络学习对 ...
tensorflow2.0 基于LSTM模型的文本生成
春水碧于天,画船听雨眠基于LSTM模型的唐诗文本生成实验基本要求实验背景实验数据下载 LSTM模型分析实验过程文本预处理编解码模型 LSTM模型设置实验代码实验结果总结致谢实验 ...
人大团队研究：面向文本生成，预训练模型进展梳理
作者 | 刘媛媛来源 | 数据实战派文本生成是 NLP 中最重要且颇具挑战性的任务之一.近年来,预训练语言模型 (Pretrained Language Models ,下文简称 "PL ...
【NLP】人大团队研究：面向文本生成，预训练模型进展梳理
文本生成是 NLP 中最重要且颇具挑战性的任务之一.近年来,预训练语言模型 (Pretrained Language Models ,下文简称 "PLM") 的范式,极大地推动了该 ...
IJCAI 2018 基于主题信息的神经网络作文生成模型
本文介绍哈尔滨工业大学社会计算与信息检索研究中心(SCIR)录用于IJCAI 2018的论文<Topic-to-Essay Generation with Neural Networks> ...
【文本生成】评价指标：BARTScore
这篇论文出自2021 NeurIPS,通讯作者是卡耐基梅隆大学博士后刘鹏飞(prompt综述作者),论文全名:<BARTSCORE: Evaluating Generated Text as T ...
Data2Text文本生成演化之路
最近看了很多这方面的论文,尝试做个总结. 早期发展路线早期的文本生成系统多是基于规则的,Reiter等对规则系统进行了归纳总结[1],认为文本生成系统可以分为三个较为独立的模块:(1)内容规划(Co ...
使用TextRank算法为文本生成关键字和摘要
使用TextRank算法为文本生成关键字和摘要发表于1年前(2014-12-01 21:31) 阅读(10282) | 评论(27) 155人收藏此文章, 我要收藏赞15 摘要 TextRan ...

2:VX2TEXT基于多模态输入的视频文本生成的端到端