原文链接：https://arxiv.org/pdf/1809.02108.pdf

这是一篇较为系统的介绍音视频融合的语音识别文章。翻译参考博客园一篇翻译，进行了大量修正和增补。

摘要

本文的目的是基于说话人信息来识别有语音或无语音的短语和句子。不同于以前只能识别有限数量单词或短语的工作，我们将唇语作为一个开放问题来解决——视频中无限制的自然语言句子。我们主要的贡献：（1）比较了两种唇语识别模型，一种采用CTC损失，另一种采用sequence-to-sequence损失，两者都是基于transformer self-attention架构。（2）我们研究唇语和音频的互补程度，特别是在嘈杂场景时。（3）引入并公开发布了用于音视频语音识别的新数据集LRS2-BBC，包括来自英国电视台的成千上万个自然句子。
我们训练的模型大大超过了唇语基准数据集上所有先前工作的性能。

1.介绍

读唇是一项令人惊叹的技能，通过唇部的视觉信息来判断说的是什么内容。存在一些同音异形字导致的混淆，比如“p”和“b”，两者嘴型一致。不过，这种情况在一定程度可以通过上下文信息或者用语言模型来解决。
　　读唇机器会衍生出许多应用程序：手机可以在嘈杂的环境中识别出“命令”；给存档的无声电影进行转录和重新配音；解决多人同时说话情形，总体上改善自动语音识别的性能。
这种自动化之所以能够实现，是来自计算机视觉任务中众所周知的两个发展：使用深度神经网络模型[30，44，47]和大规模可用的训练数据集的存在[41]。在这种情况下，读唇模型基于最近开发的编码器-解码器体系结构，用于语音识别和机器翻译[5，7，22，23，46]。
　　本文的目的是开发用于唇语识别的神经转录体系结构。我们比较了两种模型：一种模型使用CTC损失[22]，另一种模型使用序列到序列（seq2seq）损失[9，46]。两种都基于transformer self-attention架构[49]，因此可以着重比较两种损失的优缺点，其余模块尽可能保持一致。本文开发的用于训练和评估模型的数据集是基于成千上万小时的视频，这些视频中有说话人的脸和字幕信息。
　　我们还研究了读唇如何促进基于音频的语音识别。该类型的文献很多，特别是在嘈杂的环境中，另一方面，一些衍生的音频测量方法，可以辅助听力障碍人群。为了研究这一领域，我们训练了一个模型，利用音频和视觉输入进行字符识别，同时对音频通道进行干扰，来系统性研究。
　　我们的模型输出为字符。对于CTC，这些输出相互独立。对于sequence-to-sequence损失，将隐式学习语言模型，并且该体系结构包含了一种新颖的双重注意力机制，该机制可以处理单独视觉模式或者单独音频模式，或处理两者融合。该体系结构将在第3节描述。这两种模型都可以结合beam search进行解码，另外，可以选择在其中合并外部语言模型。
　　在第4节中，我们描述了用于训练和评估模型的大型数据集LRS2-BBC的生成方式和相关统计信息。数据集包含说话的面孔以及所说的字幕。这些视频包含自然情况的面孔，这些面孔具有各种各样的姿势、表情、光线、背景和种族。第5节介绍了网络训练，我们讲述了一种用于加速训练的课程学习形式。最后，第6节评估模型的性能，包括仅用于视觉（嘴唇）输入，音频和视觉输入以及音频和视觉流之间的同步误差的模型。
　　关于内容：此呈件基于会议论文[12]。我们用基于Transformer的模型的两个变体替换了原始论文中的WLAS模型[49]。一个变体在[2]中发表，而第二个变体（使用CTC损失）是本文的贡献。我们还用[45]提出的基于ResNet的视觉前端进行了更新。与[12]中提出的模型相比，新的前端和后端体系结构对词错误率（WER）的改进超过绝对22％。最后，我们发布了一个新的数据集LRS2-BBC，它将取代[12]中的原始LRS数据集，该数据集受许可证限制，无法公开。

2. 背景

2.1 CTC vs sequence-to-sequence 架构

在大多情况下，用于序列预测的端到端深度学习方法可以分为两种类型。

　　第一种使用神经网络作为发射模型，其在给定输入序列（例如音频）的情况下输出每个输出符号（例如音素）的似然概率。这些方法通常在第二阶段采用隐马尔可夫模型[25]进行解码。这种变体的一个版本是连接主义者的时间分类（CTC）[22]，其中模型预测逐帧标签，然后在逐帧预测和输出序列之间寻找最佳对齐方式。 CTC的主要缺点是输出标签彼此之间相互独立，没有语言模型信息。文章[12]提出了一种替代方案，将语言模型和CTC融合一起。 CTC的另一个局限性在于它假定输入和输出序列之间的单调排序。该假设适用于ASR，如转录，但不适用于机器翻译。
　　第二种是序列到序列模型[9，46]（seq2seq），该模型先读取所有输入序列，然后再预测输出句子。许多论文采用这种方法进行语音识别[10，11]：例如，Chan等 [7]提出了一种优雅的序列到序列方法将音频信号转录为字符。序列到序列在时间 t 处以先前 1，...，t -1 输出为条件的输出符号（例如字符或单词）进行解码。因此，与基于CTC的模型不同，该模型隐式地学习了基于输出符号的语言模型，并且不需要进一步的处理。然而，已经证明[7、26]，在序列到序列模型的解码中并入外部语言模型也是有益的。这样，可以利用较大的纯文本语料库，该语料库包含的自然语言信息要比用于训练声学模型的有限对齐数据要丰富得多。
　　关于体系结构，尽管传统上基于CTC或seq2seq的方法依赖于循环网络，但最近已经转向了纯粹的卷积模型[6]。例如，全卷积网络已用于带有CTC的ASR [51，55]或简化的变体[16，32，54]。

2.2 相关工作

读唇（Lip reading）。有大量采用非深度学习方法解决读唇问题，在[56]中对这些方法进行了全面的回顾，在此不再赘述。与识别完整的单词或句子相反，许多论文已使用卷积神经网络（CNN）从静止图像预测音素（phonemes）[37]或发音嘴型（visemes）[29]。音素是语音的最小的可分辨声音单位，发音嘴型是视觉可分辨的最小单位。
　　为了识别完整的单词，Petridis等人[39]采用离散余弦变换（discrete cosine transform，DCT）和深度瓶颈特征（deep bottleneck features，DBF）训练LSTM分类器。同样，Wand等[50]使用HOG特征输入LSTM模型来识别短语。读唇仍然采用手工特征，原因大概是缺乏训练数据。现有的数据集仅具有少量主题的视频，以及有限的词汇（少于60个单词），这也是课题研究步伐的障碍。Chung和Zisserman [13]通过在电视广播中使用面孔来组合500字的词汇量的LRW数据集来解决小词典问题。但是，与任何词级分类任务一样，鉴于必须预先知道词的边界，因此该情形仍与现实世界相去甚远。Assael等[4]使用基于CNN和LSTM的网络和（CTC）[22]来计算标签，这篇文章基于GRID数据集的约束语法和51个单词的词汇，获得很强的说话者无关的性能[17]。

比LipNet[4]更新的模型结构来自[45]，用3D残差网络来提取更有表征的特征。该网络采用CE loss进行训练，识别来自LRW数据库中的单词。在这里，对标准的残差结构[24]进行修改，将第一个卷积和pooling块从2D转换到3D，用于处理3D图像序列。
　　在我们的早期工作中[12]，我们基于[7]的LAS ASR模型提出了WLAS序列到序列模型（WLAS的缩写是Watch，Listen，Attend和Spell，而LAS则是Listen，Attend和Spell）。WLAS模型具有双重attention机制——一种用于视觉（嘴唇）流，另一种用于音频（语音）流。它将语音句子转录为字符，并且可以仅处理视觉输入，或者仅音频输入或者两者兼有。
　　在独立和并行的工作中，Shillingford等人[43]，设计一个读唇流水线（pipeline），该流水线使用一个输出音素概率并通过CTC损失训练的网络。在推理时，他们使用基于有限状态机的解码器将音素分布转换为单词序列。该网络在由YouTube视频构成的超大规模读唇数据集上进行了训练，并实现了出色的40.9％词错误率。
　　音视频语音识别（Audio-visual speech recognition）。音视频语音识别和读唇的问题紧密相关。Mroueh等[36]使用前馈深度神经网络在大型非公共视听数据集上进行音素分类。将HMM与手工制作或预先训练的视觉特征进行结合使用很普遍——[48]使用DBF编码输入图像；[20]使用DCT；[38]使用经过预训练的CNN对音素进行分类；所有这三个将特征与HMM结合使用，可以对语音数字或孤立的单词进行分类。与读唇一样，几乎没有尝试开发可推广到实际环境的AVSR系统。
　　Petridis等[40]使用[45]体系结构的扩展版本从原始像素和波形中学习表示形式，然后将它们连接起来并馈入双向循环网络，该双向循环网络共同对音频和视频序列进行建模并输出单词标签。

3 架构

在本节中，我们描述用于音视频语音识别的模型架构，在此基础上，我们基于最近提出的Transformer模型[49]探索了两种变体：i）用于以seq2seq方式训练的 encoder-decoder 注意力结构；ii) 用 CTC loss 训练的 self-attention 模块堆叠结构。图2概述了该体系结构。通用模型接收两个输入流，一个输入流用于视频（V），一个用于音频（A）。

3.1 音频特征

对于声学表示（acoustic representation），我们使用321维频谱幅度，该幅度是在40kHz窗口和10ms跳长（hop-length）下以16 kHz采样率计算的。由于视频以25 fps（每帧40毫秒）采样，因此每个视频输入帧对应4个声学特征帧。我们将音频功能分为4组，以减少稳定CTC训练常用的输入序列长度[8，42]，同时为两种模式实现相同的时间尺度。

3.2 视觉模块

输入图像为224×224像素，以25 fps采样，并包含说话者的脸部。如图3所示，我们裁剪了一个112×112的补丁，覆盖了嘴部区域。要提取表示嘴唇运动的视觉特征，我们使用基于[45]的时空视觉前端。该网络在输入图像序列上应用3D卷积，其滤波器宽度为5帧，然后是2D ResNet，可随着深度逐渐减小空间尺寸。附录A中详细列出了这些层。对于T x H x W帧的输入序列，输出为张量（即保留时间分辨率），其在空间维度上平均池化，为每个输入视频帧生成512维特征向量。

3.3 普通self-attention编码器

我们考虑的两个变体都使用相同的基于self-attention的编码器体系结构。编码器是多头self-attention层的堆叠，其中输入张量同时用作attention的查询、键和值。如图2（a）所示，每种模式都使用单独的编码器。输入序列顺序的信息以正弦函数形式的固定位置嵌入被馈送到模型。

3.4 Sequence-to-sequence Transformer (TM-seq2seq)

在此变体中，使用单独的attention heads来引入视频和音频嵌入。在每个解码器层中，所得的视频和音频上下文在通道范围内连接在一起并传播到前馈块。两种模态的注意力机制都将前一解码层的输出（或在第一层的情况下为解码器输入）作为查询接收。解码器产生的字符概率直接与标准答案标签匹配并经过交叉熵损失训练。附录B中提供了有关多头注意力和前馈构建模块的更多详细信息。

3.5 CTC Transformer (TM-CTC)

TM-CTC模型将视频和音频编码连接起来，并通过一堆self-attention/前馈模块传播结果，该模块与编码器中使用的模块相同。网络的输出是每个输入帧的CTC后验概率，整个堆栈都经过CTC损失训练。

3.6 外部语言模型（LM）

为了在推理中解码这两个变量，我们使用了字符级语言模型。它是一个递归网络，具有4个单向层，每个层有1024个LSTM单元。语言模型经过训练，可以一次预测一个字符，仅接收前一个字符作为输入。两种模型的解码都是通过从左到右的beam search进行的，其中LM对数概率通过浅融合[26]与模型的输出组合在一起。附录C和D中提供了有关解码的更多详细信息。

3.7 单模态模型

当仅存在两种形式时，可以使用本节中描述的音视频模型。代替使用TM-seq2seq的注意力向量或TM-CTC的编码，仅使用来自可用模态的向量。

4 数据集

在本节中，我们描述了一种多级流水线（multi-stage pipeline），这种多级流水线用于自动生成音视频语音识别的大规模数据集LRS2-BBC。使用此流水线，我们已经能够收集成千上万小时的口头句子和短语以及相应的面部表情。我们使用了各种BBC程序，从Dragon's Den到Top Gear和Countryfile。
　　图4总结了处理流程。大多数步骤都是基于[13]和[14]中描述的方法，不过我们在此简要概述了该方法。

　　视频准备。 一个基于Single Shot MultiBox Detector（SSD）[33]的CNN面部检测器用于检测各个帧中的面部外观。与先前工作中使用的基于HOG的检测器[27]不同，SSD可以从各个角度检测人脸，并表现出更强大的性能，同时运行速度更快。
　　通过比较连续帧之间的颜色直方图来确定镜头边界[31]。在每次拍摄中，面部跟踪都是根据面部检测的位置从面部检测生成的，因为当视点发生极端变化时，基于特征的跟踪器（例如KLT [34]）通常会失败。
　　音频和文本准备。 电视中的字幕不会与音频同步广播。 Penn Phonetics Lab强制对齐器[53]用于将字幕与音频信号强制对齐。对齐方式中存在错误，因为笔录不是逐字记录的——因此，通过对照工业中IBM Watson语音转文本服务进行检查，可以过滤对齐的标签。
　　AV同步和扬声器检测。 在广播视频中，音频和视频流最多可能不同步一秒钟左右，这在提取与句子对应的面部表情时可能会引起问题。 [14]中描述的两流网络（two-stream network）的多视图适配（multi-view adaptation）[15]用于同步两个流。同样的网络还可以用来确定哪些脸部的嘴唇运动与音频相匹配，如果没有匹配，则该剪辑将被视为画外音。
　　句子提取。 使用转录产物中的标点将视频分为单个句子/短语。句子之间用句号、逗号和问号分隔；由于GPU内存的限制而被裁剪为100个字符或10秒。对于词汇量，我们没有任何限制。
　　根据广播日期，LRS2-BBC数据集分为开发（训练/验证）和测试集。数据集还具有一个“预训练”集，其中包含一些句子摘录，这些摘录可能比开发集中包含的完整句子短或长，并有每个单词的对齐边界的注释。这些集合的统计信息在表1中给出。该表还将“唇读句”（LRS）系列数据集与最大的现有公共数据集进行了比较。除了LRS2-BBC，我们还使用MV-LRS和LRS3-TED进行训练和评估。
　　用于训练外部语言模型的数据集。 为了在每个音视频数据集上训练用于评估的语言模型，我们使用了一个文本语料库，其中包含视频的完整字幕，并由此生成了数据集的训练集。纯文本语料库包含2600万个单词。

5 训练策略

在本节中，我们将描述有效地训练模型的策略，并充分利用有限的可用数据量。训练分为四个阶段：i）对视觉前端模块进行了训练； ii）使用视觉模块为所有训练数据生成视觉特征； iii）采用冷冻视觉特征训练序列处理模块； iv）整个网络是端到端的训练。

5.1 预训练视觉特征

我们使用MVLRS [15]数据集的文字摘录对视觉前端进行预训练，使用2层时间卷积后端对每个片段进行分类，类似于[45]。我们以水平翻转，移除随机帧[4、45]以及在空间维度上最多±5个像素和在时间维度上最多±2帧的随机移位的形式执行数据增强。

5.2 课程式学习（Curriculum learning）

据报道，当时间步长很大时，序列到序列学习收敛非常慢，因为解码器最初很难从所有输入步骤中提取相关信息[7]。即使我们的模型不包含任何递归模块，我们发现遵循课程设置而不是立即对完整句子进行训练也很有帮助。
我们引入了一种新的策略，在该策略中，我们仅在单个单词示例上开始训练，然后让序列长度随着网络训练而增长。这些短序列是数据集中较长句子的一部分。我们观察到训练集上的收敛速度快了好几倍，而课程（curriculum）也显着减少了过拟合，这大概是因为它是扩充数据的自然方式。
　　首先根据MV-LRS，LRS2-BBC和LRS3-TED的预训练集的冻结特征对网络进行训练。我们通过将序列零填充到最大长度来处理发声长度的差异，然后逐渐增加最大长度。然后，我们根据要评估的集合，分别对LRS2BBC或LRS3-TED的训练评估（train-val）集进行端到端微调。

5.3 嘈杂音频训练&多模式训练

最初，纯音频模型使用纯净的输入音频进行训练。具有多模式输入的网络通常可以由以下模式之一控制[19]。在我们的案例中，我们观察到对于音视频模型来说，音频信号占主导地位，因为语音识别比读唇要容易得多。为了防止这种情况的发生，我们在训练期间以的概率向音频流中添加了SNR为0dB的babble噪声。
　　为了评估和提高对音频噪声的泛化性，我们随后在始终将原始音频中添加具有0dB SNR的babble噪声的设置中，微调纯音频和视听模型。我们通过混合LRS2-BBC数据集中20种不同音频样本的信号来合成babble噪声样本。

5.4 实施细节

网络的输出大小为40，包括字母表中的26个字符，10个数字以及[space]和[pad]token。对于TM-seq2seq，我们使用额外的[sos]token，对于TM-CTC，我们使用[blank]token。我们不对标点符号建模，因为数据集的转录不包含任何标点符号。
　 TM-seq2seq用教师强制训练——我们将上一个解码步骤的基本事实作为解码器的输入，而在推理过程中，我们会反馈解码器预测。

我们的实现基于TensorFlow库[1]，并在具有11GB内存的单个GeForce GTX 1080 Ti GPU上进行了训练。使用具有默认参数和初始学习率的ADAM优化器[28]对网络进行训练，每次验证误差达到稳定水平时，初始学习率将降低2倍，直至最终学习率达到。对于所有模型，我们使用p = 0.1的dropout和标签平滑。

6 实验内容

在本节中，我们评估和比较提出的体系结构和训练策略。我们还将我们的方法与现有技术进行了比较。
　　我们按照第5.2节所述进行训练，并在各个数据集的独立测试集上评估LRS2-BBC和LRS3-TED的微调模型。推理和评估程序如下所述。
　　测试时间增加。 在推理过程中，我们对每个视频样本执行9个随机变换（视频帧的水平翻转和最大±5像素的空间移位），并将扰动后的序列通过网络。对于TM-seq2seq，我们平均了对数结果，而对于TM-CTC，我们平均视觉特征。
　　Beam Search 对于TM-Seq2seq，使用宽度为35的波束搜索来进行解码；对于TM-CTC，使用宽度为100的波束搜索来执行解码（这些值是根据LRS2-BBC的train-val分离的保留验证集确定的）。
　　评估协议 对于所有实验，我们报告的单词错误率（WER）定义为，其中S，D和I分别是从中获得的替换，删除和插入的数量。 N是参考中的字数。
　　实验设置 本节的其余部分结构如下：首先，我们以读唇的方式呈现结果，其中仅将视频用作输入。然后，我们将完整模型用于音视频语音识别，其中假定视频和音频已正确同步。为了评估模型在嘈杂环境中的鲁棒性，我们还在人为添加话语噪声的环境中进行了训练和测试。最后，我们提出了一些关于非同步视频和音频的实验。表2总结了所有实验的结果，其中我们报告了WER，具体取决于是否在解码过程中使用了语言模型。

6.1 只有唇语

结果。 效果最佳的网络是TM-seq2seq，使用语言模型进行解码时，LRS2-BBC的WER达到48.3％，与之前最新的70.4％相比，改善了22％以上[12]。该模型还将LRS3-TED的基准设置为58.9％。
　　在图5中，我们显示了WER如何随测试句子中单词数量的变化而变化。图6显示了该模型在30个最常用词上的性能。图7显示了在LRS2-BBC上进行评估时，仅视频TM-seq2seq模型增加波束宽度的效果。值得注意的是，在使用外部语言模型进行解码时，增加波束宽度会更加有益。

　　解码示例 该模型将学习从各种内容中正确预测复杂的看不见的句子——表3中显示了示例。

6.2 视听语音识别

视觉信息可用于改善ASR的性能，特别是在具有背景噪音的环境中[36,38,40]。在这里，我们分析了第3节中描述的视听模型的性能。
　　结果表2中的结果表明，当音频信号有噪声时，嘴唇的运动为语音识别提供了重要的提示。并且即使在音频信号纯净的情况下也可以提高性能——例如，使用视听TM-CTC模型时，单词错误率从仅音频的10.1％降低到8.2％。与仅音频模型相比，使用视听TM-seq2seq时获得的收益相似。

　 解码示例 表4显示了许多示例，其中该模型无法仅从嘴唇或音频中预测正确的句子，但在同时存在两个流时成功地识别单词。

　　对齐和注意力可视化 TM-seq2seq模型的编码器-解码器注意力机制在输入视频帧和假定字符输出之间生成显式对齐。图9直观显示了“comes from one of the most beautiful parts of the world”字符和相应视频帧的对齐方式。由于该架构包含多个关注头，因此我们通过对对数域中所有解码器层上的关注mask求平均来获得对齐。

嘈杂的音频 我们使用嘈杂的音频进行纯音频和视听实验，这些噪声是通过将原始声音添加babble噪声来合成的。从嘈杂的环境中进行语音识别非常具有挑战性，从现成的Google S2T ASR基准的性能显著降低（与纯净性能相比，性能下降60％以上）可以看出这一点。这个困难也反映在我们纯音频模型的性能上，即单词错误率类似于仅使用唇语时获得的单词错误率。但是，将这两种方式结合起来可以带来显著的改进，字错误率下降高达30％。值得注意的是，在背景声音很大的情况下，视听模型的性能要比仅视频或仅音频的模型好得多。
　 AV注意可视化 在图10中，我们比较了不同TM-seq2seq模型在音频流中是否存在附加的babble噪声的情况下的注意力mask。

6.3 音频和视频不同步

在这里，我们评估视听模型在音频和视频输入未在时间上对齐时的性能。由于音频和视频已在我们的数据集中同步，因此我们对视频帧进行综合移位以实现不同步的效果。我们评估了LRS2-BBC数据集的非同步样本的性能。我们考虑TM-CTC和TMseq2seq体系结构，对随机移位的样本进行或不进行微调。结果如图8所示。很明显，TM-seq2seq体系结构更能抵抗这些变化。我们只需将模型校准一个时期，以使不同步效果几乎消失。这展示了针对两种模式采用独立的编码器-解码器注意机制的优势。相反，即使在经过数次微调之后，连接两种编码的TM-CTC仍难以应对这种变化。

6.4 关于seq2seq与CTC的讨论

如果不提供音频，则TM-seq2seq模型在WER方面的读唇效果要好得多。对于仅音频或视听任务，这两种方法的执行方式相似。但是，CTC模型似乎可以更好地处理背景噪声。在很大的babble噪音的情况下，纯音频和视听TM-seq2seq模型的性能都明显差于它们的TM-CTC模型。
　　训练时间 TM-seq2seq模型的架构更复杂，更难训练，完整的视听模型大约需要8天才能在具有12GB内存的单个GeForce Titan X GPU上完成两个数据集的全部课程。相反，视听TM-CTC模型在相同的硬件上训练速度更快，即大约需要5天。但是，应注意的是，由于两种体系结构均不包含递归模块且不进行批量归一化，因此它们的实现可以高度并行化为多个GPU。

预测时间 TM-CTC模型的解码不需要自回归，因此，无论波束宽度W如何，仅需评估一次CTC概率。TM-seq2seq并非如此，对于波束搜索的每一步，解码器子网需要评估W次。这使得CTC模型的解码更快，这可能是部署的重要因素。
　　语言建模 当在波束搜索中加入外部语言模型时，这两种模型的性能都更好，但是，TM-CTC的收益要高得多，因为单独的视觉模型并不能实现明确的语言一致性。
　　推广到更长的序列 我们观察到，随着课程学习过程中序列长度的增加，TM-CTC模型的泛化效果更好，适应速度更快。我们认为这也会影响训练时间，因为后者需要更多的时间才能收敛。

7 结论

在本文中，我们介绍了一个大规模的不受限制的视听数据集LRS2-BBC，它是通过收集和预处理来自英国电视台的成千上万个视频而形成的。
　我们考虑了两个可以将语音的音频和视频序列转换为字符的模型，并表明当仅存在一种模式时，也可以使用相同的体系结构。我们的最佳纯视觉模型在很大程度上超越了LRS2-BBC唇读数据集上现有技术的性能，并为最近发布的LRS3-TED奠定了坚实的基础。我们最终证明，即使有干净的音频信号，视觉信息也有助于提高语音识别性能。尤其是在音频中存在噪声的情况下，将两种模态结合起来可带来重大改进。

Deep Audio-Visual Speech Recognition翻译相关推荐

DEEP-FSMN FOR LARGE VOCABULARY CONTINUOUS SPEECH RECOGNITION翻译
摘要在本文中,我们通过在相邻层的记忆块之间引入残差连接,提出了一种改进的前馈序列记忆网络(FSMN)体系结构,即Deep-FSMN(DFSMN).这些残差连接使信息能够跨不同层流动,从而减轻了在构建 ...
语音识别(Speech Recognition)综述
文章目录 1. 语音识别的基本单位 1.1 Phoneme(音位,音素) 1.2 Grapheme(字位) 1.3 Word(词) 1.4 Morpheme(词素) 1.5 bytes 2. 获取语音 ...
论文翻译：2021_语音增强模型压缩_Towards model compression for deep learning based speech enhancement...
论文地址:面向基于深度学习的语音增强模型压缩论文代码:没开源,鼓励大家去向作者要呀,作者是中国人,在语音增强领域深耕多年引用格式:Tan K, Wang D L. Towards model c ...
论文翻译及笔记 --Visual Place Recognition: A Survey
论文笔记--"Visual Place Recognition: A Survey" Abstract I. INTRODUCTION II. CONCEPT OF PLACE I ...
音乐语音识别,one speech recognition,音标,读音,翻译,英文例句,英语词典
补充资料:汉语语音识别分类汉语语音识别分类 classification of Chinese speech recognition 一种方法是用一个经过良好训练的非特定人或上述特定分类的标准样板或 ...
非特定人语音识别,speaker-independent speech recognition,音标,读音,翻译,英文例句,英语词典...
补充资料:汉语语音识别分类汉语语音识别分类 classification of Chinese speech recognition 一种方法是用一个经过良好训练的非特定人或上述特定分类的标准样板或 ...
连续语音识别,continuous speech recognition,音标,读音,翻译,英文例句,英语词典
补充资料:汉语语音识别分类汉语语音识别分类 classification of Chinese speech recognition 一种方法是用一个经过良好训练的非特定人或上述特定分类的标准样板或 ...
[blog] Speech Recognition Is Not Solved 语音识别领域尚待解决的子问题
链接:https://awni.github.io/speech-recognition/ Ever since Deep Learning hit the scene in speech recog ...
The LeVoice Far-field Speech Recognition System for VOiCES from a Distance Challenge 2019
The LeVoice Far-field Speech Recognition System for VOiCES from a Distance Challenge 2019 Yulong Lia ...

Deep Audio-Visual Speech Recognition翻译

摘要