在野外的唇读句子(2017)

摘要

这项工作的目标是识别有声或无声人脸所说的短语和句子。与之前专注于识别数量有限的单词或短语的作品不同,我们将唇读作为一个开放世界的问题来处理——不受约束的自然语言句子,以及在野生视频中。

我们的主要贡献是:

(1)一个“观看、聆听、参与和拼写”(WLAS)网络,学习将口腔运动视频转录到字符(学习将嘴动作的视频转录到人物);

(2) 课程学习策略,以加快训练速度并减少过拟合;

(3) 一个用于视觉语音识别的“唇读句子”(LRS)数据集,由来自英国电视台的100000多个自然句子组成。在LRS数据集上训练的WLAS模型的性能超过了以前在标准唇读基准数据集上的所有工作,通常相差很大。

这种唇读性能在英国广播公司(BBC)电视台的视频中胜过专业的唇读器,我们还证明,如果有音频,那么视觉信息有助于提高语音识别性能。

研究内容

唇读,即仅从视觉信息中识别所说内容的能力,是一项令人印象深刻的技能,对新手来说非常具有挑战性。

由于同音词——产生完全相同唇部序列的不同字符(例如“p”和“b”的不同),它在单词层面上具有固有的歧义性。然而,可以在一定程度上使用句子中相邻单词的上下文和/或语言模型来解决此类歧义。

一台可以唇读的机器打开了一系列应用程序:在嘈杂的环境中向手机“口述”指令或信息;转录和重新配音档案无声电影;解决多说话人同时语音;并且,总体上提高了自动语音识别的性能。

这种自动化现在之所以可能,是因为在计算机视觉任务中有两个众所周知的发展:深度神经网络模型的使用[22,33,35];以及用于训练的大规模数据集的可用性[31]。在这种情况下,该模型基于最近为语音识别和机器翻译开发的序列到序列(带注意力的编码器-解码器)翻译器架构[3、5、15、16、34]。

本文开发的数据集基于英国广播公司(BBC)数千小时的电视广播,这些广播中有会说话的面孔和正在说的话的字幕。

我们还研究了唇读如何有助于基于音频的语音识别。关于这一贡献,有大量文献,尤其是在嘈杂环境中,及相反的情况下,在嘈杂环境中,一些衍生的音频测量可以有助于聋人或听力障碍者的唇读。

为了研究这一方面,我们训练了一个模型来识别音频和视频输入中的字符,然后系统地干扰音频通道或删除视频通道。

我们的模型(第2节)在字符级别输出,能够学习语言模型,并且具有一种新型的双注意力机制,可以仅在视觉输入、音频输入或两者上操作。

我们表明(第3节),训练可以通过课程学习的形式来加速。

我们还描述了(第4节)一个新的大规模唇读句子(LRS)数据集的生成和统计,该数据集基于英国广播公司(BBC)的广播,其中包含会说话的面孔以及所说内容的字幕。广播中包含了“野外”人脸,包括各种姿势、表情、灯光、背景和种族。

该模型的性能在LRS数据集的测试集以及用于唇读的公共基准数据集(包括LRW[9]和GRID[11])上进行评估。我们在LRS数据集上演示了开放世界(无约束句子)唇读,在所有情况下,在公共基准上的性能都超过了以前的工作。

提出的方法&模型架构

观看:图像编码器

Figure 1. Watch, Listen, Attend and Spell architecture. At each time step, the decoder outputs a character yi, as well as two attention vectors. The attention vectors are used to select the appropriate period of the input visual and audio sequences.

观看、聆听、参与和拼写架构。在每个时间步,解码器输出一个字符yi以及两个注意向量。注意向量用于选择输入视频和音频序列的适当周期。

The ConvNet architecture. The input is five gray level frames centered on the mouth region. The 512-dimensional fc6 vector forms the input to the LSTM.

图2.ConvNet架构。输入是以嘴巴区域为中心的五个灰度帧。512维fc6向量构成LSTM的输入。

聆听:音频编码器

拼写:字符解码器

讨论:在我们的实验中,我们观察到注意力机制对于视听语音识别系统的工作至关重要。在没有注意力的情况下,模型似乎“忘记”了输入信号,并产生一个与输入关联很少的输出序列,超出了第一个或两个字(模型得到了正确的结果,因为这是编码器看到的最后一个字)。无注意力模型产生的文字错误率超过100%,因此我们不报告这些结果。

双注意机制允许模型从音频和视频输入中提取信息,即使其中一个流不存在,或者两个流没有时间对齐。在有噪声或无音频的实验中,好处是显而易见的(第5节)。

双向LSTM已用于许多序列学习任务[5、8、17],因为它们能够根据未来语境和过去语境生成输出。

我们已经尝试用双向编码器替换观看和收听模块中的单向编码器,但是这些网络的训练时间明显更长,同时没有提供明显的性能改进。这可能是因为解码器模块无论如何都以完整的输入序列为条件,因此双向编码器不必提供上下文,注意力机制足以提供额外的局部焦点。

补充知识

唇读。在唇读方面,有大量的工作是使用预深度学习方法。[40]对这些方法进行了全面审查,我们在此不再重复。许多论文使用卷积神经网络(CNN)从静止图像中预测音素[27]或视位素[21],而不是识别完整的单词或句子。音素是组成一个口语单词的最小可分辨的声音单位;viseme是其视觉等价物。为了识别完整单词,Petridis等人[30]在离散余弦变换(DCT)和深度瓶颈特征(DBF)上训练LSTM分类器。类似地,Wand等人[38]使用具有HOG输入特征的LSTM来识别短短语。唇读训练数据的缺乏可能是导致浅特征继续使用的原因。现有的数据集包括只有少量主题的视频,以及非常有限的词汇量(<60个单词),这也是进步的障碍。Chung和Zisserman[9]最近的论文通过使用电视广播中的人脸来收集500个单词的数据集来解决小词汇问题。然而,与任何单词级分类任务一样,由于必须事先知道单词边界,因此设置与现实世界仍然相去甚远。最近的一项工作[2]使用基于CNN和LSTMBA的网络和连接时序分类(CTC)[15]来计算标签。这表明,在网格数据集[11]的受限语法和51个单词词汇上,具有强大的说话人无关性能。然而,经过适当修改的方法应适用于更长、更一般的句子。

视听语音识别。视听语音识别(AVSR)和唇读问题密切相关。Mroueh等人[26]使用前馈深度神经网络(DNN)使用大型非公共视听数据集进行音素分类。HMM与手工制作或预先训练的视觉特征一起使用已经证明很流行–[36]使用DBF对输入图像进行编码;[14] 使用的离散余弦变换;[28]使用预先训练的CNN对音素进行分类;这三种方法都将这些特征与HMMs结合起来,对语音数字或孤立词进行分类。与唇读一样,很少有人尝试开发适用于真实环境的AVSR系统。

语音识别关于语音识别系统,有大量文献使用单独的组件来实现声学和语言建模功能(例如,混合DNN-HMM系统),我们在此不作综述。我们将此审查局限于可以端到端训练的方法。在很大程度上,以前的工作可以分为两种类型。第一种类型使用连接时序分类[15],其中模型通常预测逐帧标签,然后寻找逐帧预测和输出序列之间的最佳对齐。缺点是输出标签之间没有相互制约。第二种类型是序列到序列模型[34],该模型在开始预测输出句子之前首先读取所有输入序列。许多论文将这种方法用于语音识别[7,8],与我们的工作最相关的是Chan等人[5],他们提出了一种优雅的序列到序列方法,将音频信号转录到字符。他们利用了许多最新的序列学习技巧,如定时采样[4]和注意力[8];我们从这项工作中得到了很多启示。

课程学习。我们的基线策略是使用“唇读句子”数据集中的完整句子从头开始训练模型,之前的语音识别工作都采用了这种方法。然而,如[5]所述,当时间步长数较大时,LSTM网络收敛非常慢,因为解码器最初很难从所有输入步长中提取相关信息。我们引入了一种新的策略,只在单个单词示例上开始训练,然后让序列长度随着网络训练而增长。这些短序列是数据集中长句的一部分。我们观察到,在训练集上的收敛速度快了好几倍,而且它还显著减少了过度拟合,这可能是因为它是一种增加数据的自然方式。如第5节所述,测试性能大幅度提高。

数据集

在本节中,我们描述了自动生成用于视听语音识别的大规模数据集的多级管道。使用这个管道,我们能够收集数千小时的口语句子和短语以及相应的facetrack。我们使用了2010年至2016年间录制的各种BBC节目,如表1所示,如图3所示。

Table 1. Video statistics. The number of hours of the original BBC video; the number of sentences with full facetrack. †BBC News at 1, 6 and 10.

表1.视频统计。BBC原始视频的小时数;具有完整facetrack的句子数。†BBC新闻1、6和10。

Figure 3. Top: Original still images from the BBC lip reading dataset – News, Question Time, Breakfast, Newsnight (from left to right).

Bottom: The mouth motions for ‘afternoon’ from two different speakers. The network sees the areas inside the red squares.

图3.上图:来自BBC唇读数据集的原始静态图像–News, Question Time, Breakfast, Newsnight(从左到右)。

下图:两个不同的说话者在“afternoon”时的嘴巴动作。网络可以看到红色正方形内的区域。

节目的选择故意与[9]使用的节目相似,原因有两个:

  1. 广泛的演讲者出现在新闻和辩论节目中,不像戏剧有固定的演员;
  2. 镜头的变化较少,因此有更多的完整的句子和连续的面孔轨迹。

处理流程如图4所示。大多数步骤都基于[9]和[10]中描述的方法,但我们在此简要介绍了该方法。

Table 2. The Lip Reading Sentences (LRS) audio-visualdataset. Division of training, validation and test data; and the number of utterances and vocabulary size of each partition. Of the 6,882 words in the test set, 6,253 are in the training or the validation sets; 6,641 are in the audio-only training data. Utter:Utterances表2.唇读句子视听数据集。培训、验证和测试数据的划分;每个分区的话语数量和词汇量。在测试集中的6882个单词中,6253个在训练集或验证集中;6641在纯音频训练数据中。话语:话语

实验

Table 5. Performance on the LRS test set. WAS: Watch, Attend and Spell; LAS: Listen, Attend and Spell; WLAS: Watch, Listen,Attend and Spell; CL: Curriculum Learning; SS: Scheduled Sampling; BS: Beam Search. †Unigram BLEU with brevity penalty.‡Excluding samples that the lip reader declined to annotate. Including these, the CER rises to 78.9% and the WER to 87.6%.⋆ The Kaldi SGMM+MMI model used here achieves a WER of 3.6% on the WSJ (eval92) test set, which is within 0.2% of the current state-of-the-art. The acoustic and language models have been re-trained on our dataset.

LRS测试集的性能。WAS:观看、出席和拼写;听、听、拼;WLAS:观看、聆听、参与和拼写;CL:课程学习;SS:计划采样;BS:波束搜索†具有简洁性惩罚的单格BLEU不包括唇读者拒绝注释的样本。包括这些,核证减排量上升到78.9%,加权减排量上升到87.6%。⋆ 本文使用的Kaldi SGMM+MMI模型在WSJ(eval92)测试集上实现了3.6%的WER,这在当前最先进水平的0.2%以内。声学和语言模型已在我们的数据集上重新训练。

Figure 6. Alignment between the video frames and the character视频帧和输出字符之间的对齐

Lip Reading Sentences in the Wild(2017)相关推荐

  1. 【论文总结】Lip Reading Sentences in the Wild(唇语识别)

    原论文地址: https://arxiv.org/pdf/1611.05358.pdf

  2. 论文阅读:《 Lip Reading Sentences in the Wild》

    论文:https://arxiv.org/abs/1611.05358 原文:http://www.hankcs.com/nlp/cs224n-lip-reading.html 唇语翻译 将视频处理为 ...

  3. 论文阅读笔记:Hearing Lips Improving Lip Reading by Distilling Speech Recognizers

    目录 论文链接 研究背景 LIBS 的整体框架 序列级知识蒸馏 上下文级知识蒸馏 最长公共子序列 (LCS) 帧级别知识蒸馏 论文链接 [1911.11502] Hearing Lips: Impro ...

  4. 读Hearing Lips:Improving Lip Reading by Distilling Speech Recognizers论文

    论文:https://arxiv.org/pdf/1911.11502.pdf 代码:无 标题:听唇:通过蒸馏语音识别器改善唇读 关键词:多模态.语音唇读LIBS.CMLR中文数据集.Lip by S ...

  5. 从Pix2Code到CycleGAN:2017年深度学习重大研究进展全解读

    2017 年只剩不到十天,随着 NIPS 等重要会议的结束,是时候对这一年深度学习领域的重要研究与进展进行总结了.来自机器学习创业公司的 Eduard Tyantov 最近就为我们整理了这样一份列表. ...

  6. 深度丨2017年深度学习重大研究进展全解读

    来源:机器之心 概要:想知道哪些深度学习技术即将影响我们的未来吗?本文将给你作出解答. 2017 年只剩不到十天,随着 NIPS 等重要会议的结束,是时候对这一年深度学习领域的重要研究与进展进行总结了 ...

  7. 2017年深度学习重大研究进展全解读

    来源:机器之心 概要:想知道哪些深度学习技术即将影响我们的未来吗?本文将给你作出解答. 2017 年只剩不到十天,随着 NIPS 等重要会议的结束,是时候对这一年深度学习领域的重要研究与进展进行总结了 ...

  8. (十一:2020.08.28)CVPR 2017 追踪之论文纲要(译)

    CVPR 2017 追踪之论文纲要(修正于2020.08.28) 讲在前面 论文目录 讲在前面 论坛很多博客都对论文做了总结和分类,但就医学领域而言,对这些论文的筛选信息显然需要更加精细的把控,所以自 ...

  9. 【深度学习】从Pix2Code到CycleGAN:2017年深度学习重大研究进展全解读

    选自Statsbot 作者:Eduard Tyantov 机器之心编译 2017 年只剩不到十天,随着 NIPS 等重要会议的结束,是时候对这一年深度学习领域的重要研究与进展进行总结了.来自机器学习创 ...

最新文章

  1. python实现密码的强度_字符串处理函数(二)python语言实现密码强度校验
  2. html css右下角三角形,纯CSS绘制三角形(各种角度)
  3. 在Application_Error事件中获取当前的Action和Control
  4. mybatis学习(54):鉴定器
  5. vb简易计算机器程序,vb简易计算器源码
  6. 毕业这几年的嵌入式开发之路
  7. java中factory_Java后台面试--Spring中FactoryBean与BeanFactory的使用及区别
  8. ListView高度
  9. 万向区块链与生态圈合作伙伴形成RISC-V国际区块链SIG
  10. 树状结构搜索功能_百度搜索算法全解析SEO课程笔记
  11. 好用的HTML文本编辑器BBEdit for Mac
  12. 阿里云边缘计算又要放大招了,7月24开发者大会现场揭秘,邀你参加!
  13. GitHub使用教程详解(上)——官网操作指南[翻译]
  14. coldwallet java eth,使用Web3j(JAVA)开发ETH钱包-2
  15. EOS多节点环境部署
  16. 国际化时区-北美时区介绍
  17. Matlab syms 矩阵变量,matlab syms.m
  18. Python实现线性回归拟合并绘图
  19. 华为什么时候能升android10,华为手机什么时候升级安卓Q 华为首批适配Android10机型列表...
  20. Java学习日记1——基础认知

热门文章

  1. 小新pro13锐龙版本 ,开启vt,svm,开启虚拟机
  2. 陪伴我走过春夏秋冬的校园
  3. kettle 查询数据库写入文件_ETL KETTLE 读取csv文件写入数据库
  4. 【Java】window系统JDK7,JDK8环境安装详细教程
  5. c51单片机矩阵键盘1602计算器_51单片机矩阵键盘计算器.doc
  6. 机器学习之上溢,下溢,病态矩阵
  7. Android视频应用去广告学习实践
  8. 墨尔本大学COMP10001课业解析
  9. POI 创建Excel 2003 (一)
  10. 天龙源码框架分析_天龙源码分析 - 客户端 包