在野外的唇读句子(2017)

摘要

这项工作的目标是识别有声或无声人脸所说的短语和句子。与之前专注于识别数量有限的单词或短语的作品不同，我们将唇读作为一个开放世界的问题来处理——不受约束的自然语言句子，以及在野生视频中。

我们的主要贡献是：

（1）一个“观看、聆听、参与和拼写”（WLAS）网络，学习将口腔运动视频转录到字符(学习将嘴动作的视频转录到人物)；

（2）课程学习策略，以加快训练速度并减少过拟合；

（3）一个用于视觉语音识别的“唇读句子”（LRS）数据集，由来自英国电视台的100000多个自然句子组成。在LRS数据集上训练的WLAS模型的性能超过了以前在标准唇读基准数据集上的所有工作，通常相差很大。

这种唇读性能在英国广播公司(BBC)电视台的视频中胜过专业的唇读器，我们还证明，如果有音频，那么视觉信息有助于提高语音识别性能。

研究内容

唇读，即仅从视觉信息中识别所说内容的能力，是一项令人印象深刻的技能，对新手来说非常具有挑战性。

由于同音词——产生完全相同唇部序列的不同字符（例如“p”和“b”的不同），它在单词层面上具有固有的歧义性。然而，可以在一定程度上使用句子中相邻单词的上下文和/或语言模型来解决此类歧义。

一台可以唇读的机器打开了一系列应用程序：在嘈杂的环境中向手机“口述”指令或信息；转录和重新配音档案无声电影；解决多说话人同时语音；并且，总体上提高了自动语音识别的性能。

这种自动化现在之所以可能，是因为在计算机视觉任务中有两个众所周知的发展：深度神经网络模型的使用[22，33，35]；以及用于训练的大规模数据集的可用性[31]。在这种情况下，该模型基于最近为语音识别和机器翻译开发的序列到序列（带注意力的编码器-解码器）翻译器架构[3、5、15、16、34]。

本文开发的数据集基于英国广播公司（BBC）数千小时的电视广播，这些广播中有会说话的面孔和正在说的话的字幕。

我们还研究了唇读如何有助于基于音频的语音识别。关于这一贡献，有大量文献，尤其是在嘈杂环境中，及相反的情况下，在嘈杂环境中，一些衍生的音频测量可以有助于聋人或听力障碍者的唇读。

为了研究这一方面，我们训练了一个模型来识别音频和视频输入中的字符，然后系统地干扰音频通道或删除视频通道。

我们的模型（第2节）在字符级别输出，能够学习语言模型，并且具有一种新型的双注意力机制，可以仅在视觉输入、音频输入或两者上操作。

我们表明（第3节），训练可以通过课程学习的形式来加速。

我们还描述了（第4节）一个新的大规模唇读句子（LRS）数据集的生成和统计，该数据集基于英国广播公司（BBC）的广播，其中包含会说话的面孔以及所说内容的字幕。广播中包含了“野外”人脸，包括各种姿势、表情、灯光、背景和种族。

该模型的性能在LRS数据集的测试集以及用于唇读的公共基准数据集（包括LRW[9]和GRID[11]）上进行评估。我们在LRS数据集上演示了开放世界（无约束句子）唇读，在所有情况下，在公共基准上的性能都超过了以前的工作。

提出的方法&模型架构

观看：图像编码器

Figure 1. Watch, Listen, Attend and Spell architecture. At each time step, the decoder outputs a character yi, as well as two attention vectors. The attention vectors are used to select the appropriate period of the input visual and audio sequences.

观看、聆听、参与和拼写架构。在每个时间步，解码器输出一个字符yi以及两个注意向量。注意向量用于选择输入视频和音频序列的适当周期。

The ConvNet architecture. The input is five gray level frames centered on the mouth region. The 512-dimensional fc6 vector forms the input to the LSTM.

图2.ConvNet架构。输入是以嘴巴区域为中心的五个灰度帧。512维fc6向量构成LSTM的输入。

聆听：音频编码器

拼写：字符解码器

讨论:在我们的实验中，我们观察到注意力机制对于视听语音识别系统的工作至关重要。在没有注意力的情况下，模型似乎“忘记”了输入信号，并产生一个与输入关联很少的输出序列，超出了第一个或两个字（模型得到了正确的结果，因为这是编码器看到的最后一个字）。无注意力模型产生的文字错误率超过100%，因此我们不报告这些结果。

双注意机制允许模型从音频和视频输入中提取信息，即使其中一个流不存在，或者两个流没有时间对齐。在有噪声或无音频的实验中，好处是显而易见的（第5节）。

双向LSTM已用于许多序列学习任务[5、8、17]，因为它们能够根据未来语境和过去语境生成输出。

我们已经尝试用双向编码器替换观看和收听模块中的单向编码器，但是这些网络的训练时间明显更长，同时没有提供明显的性能改进。这可能是因为解码器模块无论如何都以完整的输入序列为条件，因此双向编码器不必提供上下文，注意力机制足以提供额外的局部焦点。

补充知识

唇读。在唇读方面，有大量的工作是使用预深度学习方法。[40]对这些方法进行了全面审查，我们在此不再重复。许多论文使用卷积神经网络（CNN）从静止图像中预测音素[27]或视位素[21]，而不是识别完整的单词或句子。音素是组成一个口语单词的最小可分辨的声音单位；viseme是其视觉等价物。为了识别完整单词，Petridis等人[30]在离散余弦变换（DCT）和深度瓶颈特征（DBF）上训练LSTM分类器。类似地，Wand等人[38]使用具有HOG输入特征的LSTM来识别短短语。唇读训练数据的缺乏可能是导致浅特征继续使用的原因。现有的数据集包括只有少量主题的视频，以及非常有限的词汇量（<60个单词），这也是进步的障碍。Chung和Zisserman[9]最近的论文通过使用电视广播中的人脸来收集500个单词的数据集来解决小词汇问题。然而，与任何单词级分类任务一样，由于必须事先知道单词边界，因此设置与现实世界仍然相去甚远。最近的一项工作[2]使用基于CNN和LSTMBA的网络和连接时序分类（CTC）[15]来计算标签。这表明，在网格数据集[11]的受限语法和51个单词词汇上，具有强大的说话人无关性能。然而，经过适当修改的方法应适用于更长、更一般的句子。

视听语音识别。视听语音识别（AVSR）和唇读问题密切相关。Mroueh等人[26]使用前馈深度神经网络（DNN）使用大型非公共视听数据集进行音素分类。HMM与手工制作或预先训练的视觉特征一起使用已经证明很流行–[36]使用DBF对输入图像进行编码；[14] 使用的离散余弦变换；[28]使用预先训练的CNN对音素进行分类；这三种方法都将这些特征与HMMs结合起来，对语音数字或孤立词进行分类。与唇读一样，很少有人尝试开发适用于真实环境的AVSR系统。

语音识别关于语音识别系统，有大量文献使用单独的组件来实现声学和语言建模功能（例如，混合DNN-HMM系统），我们在此不作综述。我们将此审查局限于可以端到端训练的方法。在很大程度上，以前的工作可以分为两种类型。第一种类型使用连接时序分类[15]，其中模型通常预测逐帧标签，然后寻找逐帧预测和输出序列之间的最佳对齐。缺点是输出标签之间没有相互制约。第二种类型是序列到序列模型[34]，该模型在开始预测输出句子之前首先读取所有输入序列。许多论文将这种方法用于语音识别[7，8]，与我们的工作最相关的是Chan等人[5]，他们提出了一种优雅的序列到序列方法，将音频信号转录到字符。他们利用了许多最新的序列学习技巧，如定时采样[4]和注意力[8]；我们从这项工作中得到了很多启示。

课程学习。我们的基线策略是使用“唇读句子”数据集中的完整句子从头开始训练模型，之前的语音识别工作都采用了这种方法。然而，如[5]所述，当时间步长数较大时，LSTM网络收敛非常慢，因为解码器最初很难从所有输入步长中提取相关信息。我们引入了一种新的策略，只在单个单词示例上开始训练，然后让序列长度随着网络训练而增长。这些短序列是数据集中长句的一部分。我们观察到，在训练集上的收敛速度快了好几倍，而且它还显著减少了过度拟合，这可能是因为它是一种增加数据的自然方式。如第5节所述，测试性能大幅度提高。

数据集

在本节中，我们描述了自动生成用于视听语音识别的大规模数据集的多级管道。使用这个管道，我们能够收集数千小时的口语句子和短语以及相应的facetrack。我们使用了2010年至2016年间录制的各种BBC节目，如表1所示，如图3所示。

Table 1. Video statistics. The number of hours of the original BBC video; the number of sentences with full facetrack. †BBC News at 1, 6 and 10.

表1.视频统计。BBC原始视频的小时数；具有完整facetrack的句子数。†BBC新闻1、6和10。

Figure 3. Top: Original still images from the BBC lip reading dataset – News, Question Time, Breakfast, Newsnight (from left to right).

Bottom: The mouth motions for ‘afternoon’ from two different speakers. The network sees the areas inside the red squares.

图3.上图：来自BBC唇读数据集的原始静态图像–News, Question Time, Breakfast, Newsnight（从左到右）。

下图：两个不同的说话者在“afternoon”时的嘴巴动作。网络可以看到红色正方形内的区域。

节目的选择故意与[9]使用的节目相似，原因有两个：

广泛的演讲者出现在新闻和辩论节目中，不像戏剧有固定的演员；
镜头的变化较少，因此有更多的完整的句子和连续的面孔轨迹。

处理流程如图4所示。大多数步骤都基于[9]和[10]中描述的方法，但我们在此简要介绍了该方法。

Table 2. The Lip Reading Sentences (LRS) audio-visualdataset. Division of training, validation and test data; and the number of utterances and vocabulary size of each partition. Of the 6,882 words in the test set, 6,253 are in the training or the validation sets; 6,641 are in the audio-only training data. Utter:Utterances表2.唇读句子视听数据集。培训、验证和测试数据的划分；每个分区的话语数量和词汇量。在测试集中的6882个单词中，6253个在训练集或验证集中；6641在纯音频训练数据中。话语：话语

实验

Table 5. Performance on the LRS test set. WAS: Watch, Attend and Spell; LAS: Listen, Attend and Spell; WLAS: Watch, Listen,Attend and Spell; CL: Curriculum Learning; SS: Scheduled Sampling; BS: Beam Search. †Unigram BLEU with brevity penalty.‡Excluding samples that the lip reader declined to annotate. Including these, the CER rises to 78.9% and the WER to 87.6%.⋆ The Kaldi SGMM+MMI model used here achieves a WER of 3.6% on the WSJ (eval92) test set, which is within 0.2% of the current state-of-the-art. The acoustic and language models have been re-trained on our dataset.

LRS测试集的性能。WAS：观看、出席和拼写；听、听、拼；WLAS：观看、聆听、参与和拼写；CL：课程学习；SS：计划采样；BS：波束搜索†具有简洁性惩罚的单格BLEU不包括唇读者拒绝注释的样本。包括这些，核证减排量上升到78.9%，加权减排量上升到87.6%。⋆ 本文使用的Kaldi SGMM+MMI模型在WSJ（eval92）测试集上实现了3.6%的WER，这在当前最先进水平的0.2%以内。声学和语言模型已在我们的数据集上重新训练。

Figure 6. Alignment between the video frames and the character视频帧和输出字符之间的对齐

Lip Reading Sentences in the Wild(2017)相关推荐

【论文总结】Lip Reading Sentences in the Wild（唇语识别）
原论文地址: https://arxiv.org/pdf/1611.05358.pdf
论文阅读：《 Lip Reading Sentences in the Wild》
论文:https://arxiv.org/abs/1611.05358 原文:http://www.hankcs.com/nlp/cs224n-lip-reading.html 唇语翻译将视频处理为 ...
论文阅读笔记：Hearing Lips Improving Lip Reading by Distilling Speech Recognizers
目录论文链接研究背景 LIBS 的整体框架序列级知识蒸馏上下文级知识蒸馏最长公共子序列 (LCS) 帧级别知识蒸馏论文链接 [1911.11502] Hearing Lips: Impro ...
读Hearing Lips：Improving Lip Reading by Distilling Speech Recognizers论文
论文:https://arxiv.org/pdf/1911.11502.pdf 代码:无标题:听唇:通过蒸馏语音识别器改善唇读关键词:多模态.语音唇读LIBS.CMLR中文数据集.Lip by S ...
从Pix2Code到CycleGAN：2017年深度学习重大研究进展全解读
2017 年只剩不到十天,随着 NIPS 等重要会议的结束,是时候对这一年深度学习领域的重要研究与进展进行总结了.来自机器学习创业公司的 Eduard Tyantov 最近就为我们整理了这样一份列表. ...
深度丨2017年深度学习重大研究进展全解读
来源:机器之心概要:想知道哪些深度学习技术即将影响我们的未来吗?本文将给你作出解答. 2017 年只剩不到十天,随着 NIPS 等重要会议的结束,是时候对这一年深度学习领域的重要研究与进展进行总结了 ...
2017年深度学习重大研究进展全解读
来源:机器之心概要:想知道哪些深度学习技术即将影响我们的未来吗?本文将给你作出解答. 2017 年只剩不到十天,随着 NIPS 等重要会议的结束,是时候对这一年深度学习领域的重要研究与进展进行总结了 ...
（十一：2020.08.28）CVPR 2017 追踪之论文纲要（译）
CVPR 2017 追踪之论文纲要(修正于2020.08.28) 讲在前面论文目录讲在前面论坛很多博客都对论文做了总结和分类,但就医学领域而言,对这些论文的筛选信息显然需要更加精细的把控,所以自 ...
【深度学习】从Pix2Code到CycleGAN：2017年深度学习重大研究进展全解读
选自Statsbot 作者:Eduard Tyantov 机器之心编译 2017 年只剩不到十天,随着 NIPS 等重要会议的结束,是时候对这一年深度学习领域的重要研究与进展进行总结了.来自机器学习创 ...

Lip Reading Sentences in the Wild(2017)

摘要