《Long-term Recurrent Convolutional Networks for Visual Recognition and Description》论文翻译

原文链接：

https://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Donahue_Long-Term_Recurrent_Convolutional_2015_CVPR_paper.html

这是个人的学习笔记，可能有很多翻译不到位的地方，希望大家多多见谅。

摘要

\quad基于深度卷积网络的模型统治了最近的图像解释任务;我们调研周期性和“暂时性深度“模型，对涉及序列、视觉和其他任务是否有效。我们设计了一种全新的循环卷积结构，该结构适合大规模的端到端可训练的视觉学习，并证明了该模型对于基准视频识别任务，图像描述和检索问题以及视频解说难题上面的价值。当前的模型都是假设一个固定的时空接受域或者对于时空序列进行简单的平均处理，与之相反，递归卷积模型是“双重深”，因此当目标概念比较复杂或者训练的数据比较有限时，这样的模型可能会有优势。学习长期的依赖是可能的当非线性被纳入网络状态更新时。长期的RNN模型的吸引人之处在于它们可以直接映射可变长度的输入（例如，视频帧）变换为可变长度输出（例如自然语言文本），并且可以对复杂的时间动态进行建模;然而他们可以用反向传播进行优化。我们时间递归的长期模型直接与现代视觉的卷积神经网络直接相连，并可以共同训练，以同时进行学习时间动态和卷积感知表示。我们的结果显示，对于当前分开定义或者优化的最先进的识别或者生成模型，这种模型有显著的优势。

1. Introduction

\quad图像和视频的识别和描述任务是计算机视觉的基本挑战/难题。最近基于图像识别任务和大量处理视频的扩展任务的监督卷积模型已经被提出，并且取得了巨大的进步。理想情况下，一个视频模型应该允许处理可变长度的输入序列，并且还提供可变长度输出，包括产生超出传统的一对一预测任务的全长句子描述。在本文中，我们提出了长期时间递归卷积网络（LRCNs），这是一种结合了卷积层和长距离时间递归的视觉识别和描述的全新架构，并且基于端到端训练的（见图1）。我们实例化我们的体系结构，以进行特定的视频活动识别，图像标题生成和视频描述任务，如下所述：

\quad迄今为止，用于视频处理的CNN模型已经成功地考虑了对原始序列数据的3-D时空滤波器的学习[13,2]，并且通过固定窗口或视频镜头段[16,33]学习包括瞬时光流或基于轨迹的模型聚合的帧 - 帧表示。这样的模型探索知觉时间序列表示学习的两个极值：要么学习一个完全一般的时变加权，要么应用简单的时间池化。遵循激励当前深度卷积模型的相同灵感，我们主张视频识别和描述模型，这些模型在时间维度上也是深刻的; 即具有潜在变量的时间周期性。RNN模型众所周知是“深入的”。例如当被展开时明确地如此，并且在时域中形成隐式组成表示。这种“深度”模型早于文献中的深度空间卷积模型[31,44]。

\quad长久以来，在感知应用方面科学家们已经对神经网络进行了长达几十年的探索，结果各不相同。随着时间整合状态信息是简单RNN的一格严重的限制，这就是问们所熟知的”梯度消失”效应：在实践中，通过长时间间隔推回误差信号的能力变得越来越不可能。一类可以远程学习的模型在文献[12]中首次被提出，并且利用非线性机制来增加隐藏状态，使得状态在没有修改的情况下被传播，被更新或者被重置，使用简单的存储单元如神经门。而且这个模型在多个任务中被证明是有用的，在最近的大规模的语音识别学习和语言翻译模型的研究中[38,5]，它的效用也很明显。

\quad我们在这里展示长期递归卷积模型通常适用于视觉时间序列建模; 我们认为在已经使用静态或平坦时空模型的视觉任务中，当有充足的训练数据可以来学习或者提炼表示方法时，长期RNNs有显著的提高。具体而言，我们展示了LSTM类型模型提供了对传统视频活动挑战的改进识别，并且实现了从图像像素到句子级自然语言描述的新颖的端到端优化映射。我们还表明，这些模型提高了从传统视觉模型导出的中间视觉表示的描述的生成。

\quad我们在三个实验设置中实例化我们提出的体系结构（参见图3）。首先，我们展示了将视觉卷积模型直接连接到深度LSTM网络，我们能够训练捕捉复杂时间状态依赖关系的视频识别模型（图3左边;第4节）。虽然现有的标注视频活动数据集可能没有非常复杂的时间动态的行为或活动，但是我们仍然看到传统基准测试中的改进为4％。

\quad其次，我们探索直接的端到端可训练图像来判断映射。最近有报道称机器翻译任务的成果很好[38,5]。这种模型是基于LSTM网络的编码器/解码器对。我们提出了这种模型的多模式模拟，并描述了一个使用视觉的回圈编码深层状态向量的架构，和一个LSTM将向量解码成自然语言字符串（图3中间;第5节）。由此产生的模型可以在大规模的图像和文本数据集上进行端到端的训练，甚至与现有的方法相比，适度的训练也能提供有竞争力的生成结果。

\quad最后，我们展示LSTM解码器可以直接从传统的计算机视觉方法驱动，这些方法可以预测更高层次的区分标签，如[30]中的语义视频角色元组预测器（图3右侧;第6节）。虽然不是端到端的可训练性，但是与以前的统计机器翻译方法相比，这样的模型提供了架构和性能优势，如下所述。

\quad我们在被广泛采用的开源深度学习框架Caffe [14]中实现了一个广义的“LSTM”型RNN模型，其中包含了特定的LSTM单元[46,38,5]。

2. Background: Recurrent Neural Networks(RNNs)

\quad传统的RNN（图2左）可以通过将输入序列映射到一系列隐藏状态，并通过下面的递推方程输出隐藏状态来学习复杂的时间动态(图2,左):

ht=g(Wxhxt+Whhxt−1+bh)ht=g(Wxhxt+Whhxt−1+bh)

h_t=g(W_{xh}x_t+W_{hh}x_{t-1}+b_h)

Zt=g(Whzht+bz)Zt=g(Whzht+bz)

Z_t=g(W_{hz}h_t+b_z)

\quad其中g的元素方式是非线性，如S形或双曲正切，xtxtx_t是输入，ht∈RNht∈RNh_t\in R^N是具有N个隐藏单位的隐藏状态，ytyty_t是t时刻的输出。对于长度为T的输入序列(x1,x2,,,xT)(x1,x2,,,xT)(x_1,x_2,,,x_T)，上面的更新按照h1h1h_1(令(h0=0)(h0=0)(h_0=0),y1,h2,y2,...,hT,yTy1,h2,y2,...,hT,yTy_1,h_2,y_2,...,h_T,y_T

\quad尽管RNN在语音识别[42]和文本生成[37]等任务中已经被证明是成功的，但是可能很难通过训练他们来学习长期动态，可能部分原因是由于梯度向下传播到时间递归网络的许多层而导致的消失和爆炸梯度问题[12]。每个对应一个特定的时间步。 LSTM通过合并存储器单元提供解决方案，使网络能够学习何时忘记以前的隐藏状态，以及何时在给出新信息的情况下更新隐藏状态。

\quad随着对LSTM的研究的深入，已经提出了在存储单元内具有不同连接的隐藏单元。我们使用[45]中描述的LSTM单元(图2)，这是在[10]中描述的那个简单化。假设σ(x)=11+e−xσ(x)=11+e−x\sigma(x)=\frac{1}{1+e^{-x}}是一个将真实输入值映射到[0,1]的非线性的sigmod函数。我们令ϕ(x)=ex−e−xex+e−x=2σ(2x)−1ϕ(x)=ex−e−xex+e−x=2σ(2x)−1\phi(x)=\frac{e^{x}-e^{-x}}{e^{x}+e{-x}}=2\sigma(2x)-1的双曲正切函数，同样将输入的值压缩到对应的[-1,-1]之间。LSTM的更新公式为：

it=σ(Wxixt+Whiht−1+bi)it=σ(Wxixt+Whiht−1+bi)

i_t=\sigma(W_{xi}x_t+W_{hi}h_{t-1}+b_i)

ft=σ(Wxfxt+Whfht−1+bf)ft=σ(Wxfxt+Whfht−1+bf)

f_t=\sigma(W_{xf}x_t+W_{hf}h_{t-1}+b_f)

o(t)=σ(Wxoxt+Whoht−1+bo)o(t)=σ(Wxoxt+Whoht−1+bo)

o(t)=\sigma(W_{xo}x_t+W_{ho}h_{t-1}+b_o)

gt=ϕ(Wxcxt+Whcht−1+bc)gt=ϕ(Wxcxt+Whcht−1+bc)

g_t=\phi(W_{xc}x_t+W_{hc}h_{t-1}+b_c)

ct=ft⨀ct−1+it⨀gtct=ft⨀ct−1+it⨀gt

c_t=f_t\bigodot c_{t-1}+i_t\bigodot g_t

ht=ot⨀ϕ(ct)ht=ot⨀ϕ(ct)

h_t=o_t\bigodot \phi(c_t)

\quad除了隐藏单元ht∈RNht∈RNh_t\in R^N之外，LSTM还包括输入门it∈RNit∈RNi_t\in R^N，忘记门ft∈RNft∈RNf_t\in R^N，输出门ot∈RNot∈RNo_t\in R^N，输入调制门gt∈RNgt∈RNg_t\in R^N和存储单元ct∈RNct∈RNc_t\in R^N。存储单元单元ctctc_t是由ftftf_t调制的先前存储单元单元ct−1ct−1c_{t-1}和由输入门调制的当前输入和先前隐藏状态的函数的两个总和。因为它和ftftf_t是S形的，它们的值在[0; 1]，它和ftftf_t可以被认为是LSTM学习选择性忘记其以前的记忆或考虑其当前输入的旋钮。同样地，输出门学习存储单元有多少要转移到隐藏状态。这些额外的单元使得LSTM能够学习RNN无法学习的极其复杂和长期的时间动态。额外的深度可以添加到LSTMs堆叠他们之间的顶部，使用LSTM在第l-1层的隐藏状态作为LSTM的输入层l。

\quad最近，LSTM在语音识别[10]和机器翻译[38,5]等语言任务上取得了令人印象深刻的成果。类似于CNN，LSTM具有吸引力，因为它们允许端到端的微调。例如，[10]通过训练将频谱图输入映射到文本的深度双向LSTM，消除了语音识别中复杂的多步骤流水线的需要。即使没有语言模型或发音词典，该模型也能产生令人信服的文本翻译。[38] [5]用多层LSTM编码器和解码器将句子从英文翻译成法文。源语言的句子使用编码LSTM映射到隐藏状态，然后解码LSTM映射隐藏状态到目标语言的序列。这样的编码器解码器方案允许不同长度的序列被映射到彼此。像[10]一样，机器翻译的序列结构避免了对语言模型的需求。

\quadLSTMs在视觉问题中对顺序数据进行建模的优点是双重的。首先，当与当前的视觉系统集成时，LSTM模型可以直接微调端到端。其次，LSTM不限于固定长度的输入或输出，允许对不同长度的连续数据（如文本或视频）进行简单建模。接下来我们描述一个统一的框架，将LSTM和深度卷积网络结合起来，建立一个时空深的模型。

3. Long-term Recurrent Convolutional Network (LRCN) model

\quad这项工作提出一个长期时间递归卷积网络（LRCN）模型，该模型将一个深层次的视觉特征提取（如CNN）与一个1，可以学会识别和序列化时空动态任务，包括序列化数据(包括输入和输出)视觉，语言或者其他的。图1描述了我们方法的核心。我们的LRCN模型通过将由V参数化的特征变换ϕV(vt)ϕV(vt)\phi_V(v_t)传递给每个视觉输入vtvtv_t（一个孤立的图像或者一个视频帧）来产生一个固定长度的矢量vt∈Rdvt∈Rdv_t \in R^d表示。已经计算了视觉输入序列hφ1的特征空间表示ϕ1,ϕ2,...ϕTϕ1,ϕ2,...ϕT\phi_1,\phi_2,...\phi_T; 然后，序列模型接管。

\quad在其最通常形式中，由W参数化的序列模型将输入xtxtx_t和先前的时间步隐藏状态ht−1ht−1h_{t-1}映射到输出zt和更新的隐藏状态ht。因此，推理必须依次运行（即从上到下，在图1的序列学习框中），依次计算：h1=fW(x1,h0)h1=fW(x1,h0)h_1=f_W(x_1,h_0),然后h2=fw(x2,h1)h2=fw(x2,h1)h_2=f_w(x_2,h_1)等，直到hThTh_T。我们的一些模型将多个LSTM堆叠在一起，如第2节所述。

\quad在时间步t预测分布P（yt）的最后一步是在顺序模型的输出zt上取一个softmax，产生一个可能的每步时间（在我们的例子中是有限的和离散的）空间C的分布

P(yt=c)=eWzczt,c+bc∑c′∈Ce(Wzczt,c′+bc)P(yt=c)=eWzczt,c+bc∑c′∈Ce(Wzczt,c′+bc)

P(y_t=c)=\frac{e^{W_{zc}z_{t,c}+b_c}}{\sum_{c'\in C}e^{(W_{zc}z_{t,c'}+b_c)}}

\quad最近的非常深入的目标识别模型的成功表明，策略性的将非线性函数组合成多”层”可能会产生强大的模型。对于大的T，上述的再现表明最后几个T时间步的时间递归网络的预测是通过一个非常“深”的T层非线性函数来计算的，这表明由此产生的时间递归网络可能和一个T层神经网络具有相似的效果。但是，重要的是，顺序模型的权重W在每一个时间步骤中重用，迫使模型学习通用时间步长动态（而不是直接以t为序的动力学序列索引），并防止参数大小按最大次数成比例地增长。

\quad在我们的大多数实验中，视觉特征变换ϕϕ\phi对应于CNN的某层中的激活函数。使用在每一个时间步都是时间不变并且独立的视觉变换ϕϕ\phi的重要优点就是在输入的所有时间步骤上都可以进行昂贵的卷积推理和并行化训练，从而便于使用效率依靠独立批量处理的快速现代CNN实现,以及对于视觉和序列模型参数VVV和W" role="presentation">WWW的端到端的优化。

\quad我们考虑三个视觉问题（活动识别，图像描述和视频描述），它们实例化了以下大类顺序学习任务之一：

1.顺序输入，固定输出(图三):(x1,x2,x3....,xT)→y(x1,x2,x3....,xT)→y(x_1,x_2,x_3....,x_T)\rightarrow y。视觉活动识别问题可以归结为这个伞下，以任意长度T的视频作为输入，但是目标是从固定的词汇中预测出单个标签例如奔跑或者跳跃。

2.固定输入，顺序输出x→(y1,y2....yT))x→(y1,y2....yT))x\rightarrow (y_1,y_2....y_T))。图像描述问题适合于这个类别，以非时变图像作为输入，但是由任何长度的句子组成的更大和更丰富的标签空间。

3.顺序输入和输出(图三):(x1,x2,...,xT)→(y1,y2,...yT)(x1,x2,...,xT)→(y1,y2,...yT)(x_1,x_2,...,x_T)\rightarrow (y_1,y_2,...y_T)。最后，很容易想象视觉输入和输出都随时间变化的任务，通常输入和输出时间步数可能不同(即，我们可能有T≠T′T≠T′T\not=T')。在视频描述任务中，例如，输入和输出都是顺序的，并且视频中的帧数不应限制自然语言描述的长度(字数)。

\quad在前面描述的公式中，每个实例具有TTT个输入(x1,x2,...xT)" role="presentation">(x1,x2,...xT)(x1,x2,...xT)(x_1,x_2,...x_T)和T个输出(y1,y2,...yT)(y1,y2,...yT)(y_1,y_2,...y_T)。我们描述了如何在混合模型中调整这个公式以解决上述三个问题。对于顺序输入和标量输出，我们采用后期融合方法来合并每次时间步长预测(y1,y2...yT)(y1,y2...yT)(y_1,y_2...y_T)对于整个序列，我把它变成一个单独的预测。对于固定尺寸的输入和顺序输出，我们只需要复制输入x的所有T时间步长xt=xxt=xx_t=x（注意，由于时间不变的视觉特征提取器，这可以轻松地完成）。最后，对于（一般来说）不同的输入和输出长度的序列到序列问题，我们采用一种由[46]启发的“编码器 - 解码器”方法。在这种方法是使用一种序列模型（编码器）将输入序列映射到固定长度的向量，然后使用另一个序列模型（解码器）将该向量展开为任意长度的连续输出。在这个模型下，整个系统可以被认为是具有T+T′T+T′T+T'个输入和输出时间步长，其中输入被处理并且解码器输出在第一T时间步被忽略，并且进行预测，并且“dummy “对于后面的′T′′T′'T'时步,输入被忽略。

\quad在所提出的系统下，模型的视觉和顺序分量的权重(V,W)(V,W)(V,W)可以通过最大化正确标注的输出ytyty_t来共同学习，以输入数据为条件，并标记到特定点(x1:t,y1:t)(x1:t,y1:t)(x_{1:t},y_{1:t})。特别地，我们将训练数据(x,y)(x,y)(x,y)的负对数最小似然为L(V,W)=−logPV,W(yt|x1:t,y1:t−1)L(V,W)=−logPV,W(yt|x1:t,y1:t−1)L(V,W)=-logP_{V,W}(y_t|x_{1:t},y_{1:t-1})

\quad所描述的系统的最吸引人的方面之一是能够学习参数“端到端”，使得视觉特征提取器的参数V学习挑选与视觉输入有关的方面顺序分类问题。我们使用带有动量的随机梯度下降来训练我们的LRCN模型，使用反向传播来计算目标L相对于所有参数(V,W)(V,W)(V,W)的梯度rL(V,W)rL(V,W)rL(V,W)

\quad接下来，我们通过探索三个应用程序来证明空间深度和深度的模型的能力：活动识别，图像描述和视频描述。

4. Activity recognition

\quad活动识别是上述第一个顺序学习任务的一个例子; T个单独的帧被输入到T卷积网络，然后连接到一个具有256个隐藏单元的单层LSTM。最近的一大批工作已经提出了深度的活动识别架构（[16,33,13,2,1]）。[33,16]都提出了基于一堆N个输入帧学习滤波器的卷积网络。虽然我们在本文中分析了16帧的剪辑，但是我们注意到LRCN系统比[33,16]更加灵活，因为它不限于分析固定长度的输入，并且可能学习识别复杂的视频序列（例如，烹饪序列如6）所示。[1,2]使用递归神经网络来学习传统视觉特征（[1]）或深度特征（[2]）的时间动态，为了更好的性能表现，不讲他们的模型进行端到端的训练,也不再大规模目标识别数据集上面进行预训练。

\quad我们研究了LRCN架构的两种变体：LSTM放置在CNN的第一个完全连接层之后(LRCN-fc6)，另一个是LSTM放置在CNN的第二个完全连接层（LRCN-fc7）之后。我们用16帧的视频剪辑训练LRCN网络。LRCN在每个时间步骤预测视频类别，并将这些预测平均为最终分类。在测试的时候，我们从每个视频中提取16帧的跨度，平均跨越剪辑。

\quad我们也考虑RGB和流光输入。用[4]计算流光，通过将x和y的流光值集中在128左右，并乘以一个标量，使流量值在0和255之间，将流量转换成”流量图像”。通过计算流量图像的第三个通道流量大小。 CNN的基地LRCN是Caffe [14]参考模型，AlexNet [22]的一个小变体以及Zeiler＆Fergus [47]使用的网络的混合体。该网络在ImageNet [7]数据集的1.2M图像ILSVRC-2012 [32]分类训练子集上进行了预训练，为网络提供了强大的初始化，以加快训练速度，并防止过度拟合相对较小的视频数据集。在对中心作物进行分类时，混合和Caffe参考模型的最高分类准确率分别为60.2％和57.4％。在我们的基准模型中，T个视频是通过CNN单独分类的。与LSTM模型一样，整个视频分类是通过对所有视频帧中的分数进行平均来完成的。

4.1. Evaluation

\quad我们在UCF-101数据集[36]上评估我们的架构，该数据集由超过12000个视频组成，分为101个人类行为类。数据集被分成三个分组，每个分组在训练集中有少于8000个视频。我们报告分裂-1的准确性。

\quad图1的第2-3列将我们提出的模型（LRCN-fc6，LRCN-fc7）的视频分类与RGB和流量输入的基线结构进行比较。每个LRCN网络是端对端训练。为了确定是否需要端到端训练，我们还训练一个只学习LSTM参数的LRCN-fc6网络。完全微调的网络将性能从70.47％提高到71.12％，证明端到端微调确实是有益的。LRCN-fc6网络在RGB和flow方面的效果最好，基线网络分别提高了2.12％和4.75％。

\quadRGB和flow networks可以通过计算[33]中提出的网络分数的加权平均来组合。像[33],我们报告的两个加权平均表1中的RGB和流flow networks的预测（右）。由于flow networks优于RGB网络，所以flow network的加权越高越准确。在这种情况下，LRCN比基准单帧模型高出3.88％。

\quadLRCN在基线单框架系统上显示出明显的改进，并接近其他深层模型所达到的精度。[33]通过计算流量和RGB网络之间的加权平均值（分裂1的86.4％和所有分裂的平均87.6％）在UCF-101上报告结果。虽然[16]没有报告UCF-101单独分割的数字，但平均分割精度为65.4％，远低于我们的LRCN模型。

5. Image description

\quad与活动识别相比，静态图像描述任务仅需要单个卷积网络，因为输入由单个图像组成。已经提出了各种深度和多模态模型[8,35,19,20,15,25,20,18]用于图像描述;特别是[20,18]将深度时间模型与卷积表示相结合。 [20]，如第2节所述，使用“香草”RNN，可能使得学习长期的时间依赖存在困难。目前与我们的工作最相似的是[18]，其提出了不同的架构，其使用在时间T的LSTM编码器的隐藏状态作为长度T输入序列的编码表示。然后，它将这个序列表示与来自一个convnet的视觉表示相结合，映射到一个单独的解码器预测单词的联合空间。这与我们可以说更简单的体系结构是截然不同的，这个体系结构把按时间步长输入一个静态副本输入图像，以及前面的单词。我们提出的实证结果表明，我们的综合LRCN架构胜过了这些先前的方法，没有一个包括视觉和时间参数层次上的端到端可优化系统。

\quad我们现在描述图像描述任务的LRCN体系结构的实例。在每个时间步，图像特征和前一个词被提供作为时序模型的输入，在这种情况下是一堆LSTM（每个具有1000个隐藏单元），用于学习时变输出序列的动态过程，自然语言。在时间步t，最底层LSTM的输入是来自之前时间步wt−1wt−1w_{t-1}的嵌入的标记正确的字。对于句子生成，输入成为从前一时间步骤的模型预测分布的样本wt−1wt−1w_{t-1}。堆栈中的第二个LSTM将最底部的LSTM的输出与图像表示ϕV(x)ϕV(x)\phi_V(x)融合，以产生截至时间t的视觉和语言输入的联合表示(本实验中使用的视觉模型ϕV(x)ϕV(x)\phi_V(x)是Caffe [14]参考模型的基础，与著名的AlexNet [22]非常相似，在第四部分，ILSVRC-2012 [32]预先训练过）堆栈中的任何其他LSTM都会将LSTM的输出转换为以下输出，而第四个LSTM的输出则是输入到softmax的输入，该softmax将生成字p(wt|w1:t−1)p(wt|w1:t−1)p(w_t|w_{1:t-1})上的分布。

\quad在[19]之后，我们将使用最底层的LSTM作为模型的因子版本来专门处理语言输入（没有视觉输入），并通过将其与非构造变体进行比较来研究其重要性。有关我们研究的变体的详细信息，请参见图4。

\quad没有任何明确的语言建模或定义的语法结构，所描述的LRCN系统学习从像素强度值到自然语言描述的映射，自然语言描述通常在语义上是描述性的，在语法上是正确的。

5.1. Evaluation

\quad我们评估我们的图像描述模型在图像检索和图像注释生成。我们首先通过对[26]提出的图像检索任务进行定量评估，并在[25,15,35,8,18]中看到我们的模型的有效性。我们的模型在Flickr30k [28]（28,000个训练图像）和COCO2014 [24]数据集（80,000个训练图像）的组合训练集上进行训练。我们在Flickr30k [28]上报告结果，每个图像有30,000个图像和五个句子注释。我们使用1000个图像进行测试和验证，剩下的28000个为了训练。

\quad图像检索结果记录在表2中，并报告第一个检索到的地面真相图像的中间等级Medr和Recall @ K，其中的句子数正确的图像在top-K中检索。我们的模型一贯优于近期工作的强劲基线[18,25,15,35,8]，如表2所示。这里，我们注意到[18]中的新牛津网模型在检索任务上优于我们的模型。然而，OxfordNet [18]利用性能更好的卷积网络来获得基础ConvNet的附加优势[18]。我们的时间模型（以及时间和视觉模型的整合）的强度可以更直接地根据ConvNet [18]的结果进行测量，该结果使用相同的基础CNN架构[22]预训练相同的数据。

\quad在表3中，我们报告了图4中每个体系结构变体的图像到标题检索结果，以及因子模型的四层版本（LRCN4f）。基于LRCN2f优于LRCN4f模型的事实，并且LRCNuu优于LRCN2u，在现有网络上天真地叠加额外的LSTM层似乎没有什么收获。另一方面，LRCN2f和LRCN2u结果的比较表明，体系结构中的“分解”对于模型的检索性能非常重要

\quad为了评估句子的生成，我们使用BLEU [27]度量，这是为自动评估统计机器翻译而设计的。 BLEU是将精度翻译的N-gram片段与多个参考翻译进行比较的一种修改形式。我们使用BLEU作为描述的相似性度量。（B-1）考虑了（或者）的充分性信息保留），而较长的Ngram分数（B-2，B-3）则说明了流利程度。我们将我们的结果与[25]（在Flickr30k上）进行比较，并使用AlexNet fc7和fc8层输出计算两个最近邻基线。我们使用1-最近的邻居来检索训练数据库中最相似的图像，并将BLEU分数平均在字幕上。表4中报告了Flickr30k的结果。另外，我们报告了新的COCO2014 [24]数据集的结果，该数据集有8万个训练图像和40,000个验证图像。类似于Flickr30k，每个图像用5个或更多图像注释进行注释。我们从验证集中分离出5,000个图像用于测试目的，结果见表4。

\quad基于表4中的B-1得分，使用LRCN的生成就m-RNN [25]而言在描述中传达的信息方面表现相当。此外，LRCN在代表流畅度（B-2，B-3）方面明显优于基线和mRNN，表明LRCN保留了更多的注释和三连词。

\quad除了标准的定量评估之外，我们还使用Amazon Mechnical Turkers（AMT）来评估生成的句子。给出一幅来自不同模型的图像和一组描述，我们要求Turkers根据正确性，语法和相关性对句子进行排序。我们将我们模型的句子与[18]公开提供的句子进行了比较。如表5所示，我们的微调（英尺）LRCN模型在正确性和相关性上与最近邻（NN）完全一致，在语法上更好。我们在图6中显示了例句生成。

6. Video description

\quad在视频描述中，我们必须生成一个可变长度的字流，类似于第5节。[11,30,17,3，6,17,40,41]提出了生成视频的句子描述的方法，但据我们所知深度模型在视觉描述任务中的首次应用。

\quadLSTM框架允许我们将视频建模为可变长度输入流，如第3节所述。但是，由于可用视频描述数据集我们采取不同的路径。我们依靠更多的“传统”活动和视频识别处理来输入和使用LSTM来生成一个句子。

\quad我们首先区分以下用于视频描述的体系结构（参见图5）。对于每个架构，我们假设我们基于完整的视频输入对CRF视频中存在的对象，主题和动词进行了预测。这样，我们在每个时间步骤整体观察视频，而不是逐帧递增。

(a)LSTM encoder & decoder with CRF max
\quad(图5(a))第一种架构是由[30]中介绍的视频描述方法驱动的。他们首先认识到一个视频的语义表示使用CRF的最大后验估计（MAP）作为一元视频特征。这种表示，例如然后连接到一个输入句子（人员剪切砧板），它被翻译成一个自然的句子（一个人削减董事会）使用基于短语的统计机器翻译（SMT）[21]。我们用一个LSTM替换了SMT，它显示了语言间机器翻译的最新性能[38,5]。这个架构（如图5（a）所示）有一个编码器LSTM（或ange），它对输入句子中的一个热点向量（词汇表中的二进制索引向量）进行编码，如[38]中所做的那样。这允许可变长度的输入。（注意，输入句子可能与语义表示的元素数量不同）。在编码器阶段结束时，最终的隐藏单元必须在输入解码器阶段之前记住所有必要的信息（粉红色），其中隐藏表示被解码为一个句子，每个时间步一个词。我们使用相同的两层LSTM进行编码和解码。

(b) LSTM decoder with CRF max

（图5（b））在这个变体中，我们利用语义表示可以被编码为单个固定长度的向量。我们在每个时间步将整个视觉输入表示提供给LSTM，类似于在图像描述中如何将整个图像提供为LSTM的输入。

（图5（c））与基于短语的SMT [21]相比，使用LSTM进行机器翻译的好处是，它可以在训练和测试时间内自然并入概率向量，从而允许LSTM学习视觉生成的不确定性而不是依靠MAP估计。结构与（b）中的结构相同，但我们用概率分布替换最大预测。

6.1. Evaluation

\quad我们在TACoS多级[29]数据集上评估我们的方法，该数据集有44,762个视频/句子对（约40,000用于训练/验证）。我们比较[30]谁使用最大预测以及[29]中提出的一个变体，该变体在测试时间采用CRF概率，并使用单词格来找到最佳句子预测。由于我们使用最大预测以及[29]提供的概率分数，我们有一个相同的视觉表示。 [29]使用密集的轨迹[43]和SIFT特征以及在CRF中建模的时间上下文推理。

\quad表6显示了BLEU-4得分。结果表明：（1）LSTM优于基于SMT的视频描述方法; （2）较简单的解码器架构（b）和（c）获得比（a）更好的性能，可能是因为输入不需要被记住; （3）我们的方法达到了28.8％，明显优于TACoS多层次最佳报告的26.9％[29]。

\quad更广泛地说，这些结果表明，我们的架构不局限于深度神经网络输入，而是可以与来自其他视觉系统的其他固定或可变长度输入干净整合。

7. Conclusions

\quad我们展示了LRCN，这是一类在空间和时间上都很深的模型，并且可以灵活地应用于各种视觉任务，包括顺序的投入和产出。我们的研究结果一致证明，通过学习深度序列模型的序贯动力学，我们可以改进以前的方法，只有在视觉领域学习深层次的参数，并采取固定的视觉表达输入的方法，只学习输出序列的动态。

\quad随着计算机视觉领域的成熟超出了静态输入和预测的任务范围，我们设想像LRCN这样的“双深度”序列建模工具很快成为大多数视觉系统的核心部分，就像最近的卷积体系结构一样。这些工具可以很容易地融入到现有的视觉识别管线中，这使得它们成为感知问题的自然选择，具有随时间变化的视觉输入或顺序输出，这些方法能够产生很少输入预处理，没有手工设计的功能。