INTERSPEECH 2018 | 语音识别技术之说话人自适应技术

《Learning to adapt: a meta-learning approach for speaker adaptation》

这篇文章来自爱丁堡大学，以下是摘要：

通过调整声学模型来补偿训练和测试条件之间的不匹配，例如通过适应看不见的说话人，可以改善ASR的识别性能。说话人自适应方法的成功依赖于选择适合于自适应的权重并使用良好的自适应策略来更新这些权重以便不过拟合自适应数据。在本文中，我们研究了使用元学习（meta-learning）来调整声学模型的自适应权重的原理方法。实验表明，元学习器可以学习有监督和无监督的说话人自适应，并且当适应具有1.5M参数的DNN声学模型时，它优于适应LHUC参数的基线模型。我们还报告了关于TDNN的声学模型自适应的初步实验，其中元学习器实现了与LHUC相当的性能。

《Speaker Adaptation and Adaptive Training for Jointly Optimised Tandem Systems》

这篇文章来自剑桥大学，以下是摘要：

已经发现通过联合优化瓶颈深度神经网络（BN DNN）和高斯混合模型（GMM）训练的说话人独立（SI）的串联系统产生与混合DNN系统类似的词错率（WER）。使用GMM的一个关键优势是可以使用现有的说话者自适应方法，例如最大似然线性回归（MLLR），其可以解决不同的说话者变化并提高系统稳健性。本文研究了联合优化的串联系统的说话人自适应和自适应训练（SAT）方案。所研究的自适应技术包括基于SAT的BN特征的cMLLR变换以及用于无监督的测试时间自适应的MLLR和参数化的sigmoid函数。使用英语多类型广播（MGB3）数据的实验表明，与联合训练的串联系统和Hybrid说话人独立系统相比，CMLLR SAT产生4％的相对WER减少，并且通过系统组合获得WER的进一步降低。

2. 串联系统和SAT：

2.1 串联系统：

串联系统使用BN DNN来提取用于训练GMM-HMM声学模型的特征。 BN DNN具有BN层，其尺寸通常比其他隐藏层小得多，以便生成适合用作GMM中的特征的紧凑输出矢量。对于2.1节中介绍的传统串联系统，BN DNN和GMM是分开训练的，其中BN特征未针对GMM进行优化。对于联合MPE训练的串联系统，DNN参数{W 1 ... L，b 1 ... L}和GMM参数{φ（jm），μ（j），Σ（j）}同时使用 SGD（随机提督下降优化方法）和MPE（最小化音素级别的错误，目标函数）。在训练期间，不仅使用BN特征估算GMM，而且还针对GMM优化BN特征。联合MPE训练过程包括以下步骤[6]。

（i）BN DNN首先使用CE准则训练，使用由预训练系统生成的对齐结果。

（ii）一旦获得初始BN DNN，就移除BN层之后的层。 BN层激活函数改变为线性函数以生成BN特征。

（iii）通过将BN层的偏置项调整到线性BN特征标准差的六倍，从而将将BN层线性激活函数转换为几乎等效的ReLU函数。

（iv）使用BN层的ReLU函数输出值y bn（t），以最大似然（ML，在ML准则下，评价一个模型‘好坏’的标准是训练数据与模型匹配的似然度，如果似然度越高的话，我们说这个模型越好。）准则训练一组单因素GMM-HMM。这些系统表示为BN-GMM-HMM。

（v）单音素BN-GMM-HMM系统扩展到初始最大似然状态绑定的三音素GMM-HMM系统，使用HTK手册中的方法，即使用双模型重新估计方法重建以获取更准确的状态级对齐，以生成更好的决策树。

（vi）最后，使用基于MPE准则的SGD联合优化BN DNN和GMM。

注意，与通常基于标准声学特征构造决策树的传统串联系统不同，BN-GMM-HMM系统的决策树是基于CE准则的 BN特征构建的，这是对最终MPE的更好近似。训练有素的BN特征，可以有更好的表现[6]。此外，为了通过基于SGD的MPE训练获得良好的性能，I-smoothing [32]，动态最大互信息（MMI）先验的使用以及基于百分位数的方差计算均来自扩展的Baum-Welch（EBW）基于SGD框架的框架[6]。此外，为了使模型训练稳定有效，采用了许多方法，例如放大GMM学习率并基于相对阈值削减更新值[6]。

2.2 说话人自适应训练

SD CMLLR变换可用于对BN特征对归一化。该SD CMLLR线性层插入在BN层和GMM之间，其参数在基于SGD的联合训练期间被冻结。以与传统的基于CMLLR的GMM-HMM SAT类似的方式，在每个基于SGD的联合训练epoch之后以交错方式更新CMLLR变换。下面列出了将基于CMLLR的SAT纳入MPE联合训练的详细步骤。

（i）使用ML准则训练BN-GMM-HMM系统，并使用该系统使用来自该说话人的数据估计每个说话人的初始CMLLR变换;

（ii）使用MPE准则在每一个epoch联合训练BN DNN参数和GMM参数，其中来自最近的SD CMLLR变换（说话人相关的cmllr变换）的权重和偏差作为BN层之后的SD层插入。 SD层的参数切换到当前说话人的CMLLR变换的参数，并且在下一个联合训练时期不更新;

（iii）根据最新的MPE联合训练的BN特征和GMM，重新估算所有说话人的CMLLR变换;

（iv）重复步骤（ii）和步骤（iii），直到训练收敛或达到所需的迭代次数。

值得注意的是，CMLLR变换是基于优化的BN特征而不是标准声学特征来估计的。在测试时，使用在步骤（iii）中的联合训练的每个epoch结束时生成的BN-GMM-HMM，迭代地估计CMLLR变换。

3. 实验部分：

数据：MGB3（2017英语多类型广播数据），275小时，5.5小时做测试集和验证集

tandem si：传统串联系统，

混合SI系统：DNN-HMM混合系统：The Hybrid DNN had a structure 720×1000（输入输出）； 5 ×9000（隐藏层）， was ﬁrst trained using the CE criterion and then sequence trained using the MPE criterion [37].

语言模型：3-gram，64k词

结论：

本文研究了基于CMLLR的说话人自适应训练在联合MPE训练的Tandem系统中的应用。在该系统中，瓶颈特征和高斯参数由SGD联合训练，此外CMLLR变换应用于训练和测试。此外，还研究了基于p-sigmoid的无监督说话者适应的使用。多类型广播MGB3数据的语音识别实验表明，与传统的Tandem SAT系统相比，联合训练的Tandem SAT系统可以减少WER，并且还可以实现混合SI系统。在这两种情况下，联合训练的Tandem SAT系统使WER降低了约4％。此外，联合训练的Tandem系统比传统的Tandem系统更适合混合系统，并且在使用系统组合时进一步降低错误率。然而，不同的无监督说话者适应方法的组合不会对联合训练的Tandem SAT系统产生进一步的改进。

《Speaker adaptive training and mixup regularization for neural network acoustic models in automatic speech recognition》

这篇文章来自法国勒芒大学和俄罗斯圣彼得堡大学，以下是摘要：

这项工作研究了自动语音识别（ASR）系统中深度神经网络声学模型（AM）的说话人适应和正则化技术。在以前的工作中，GMM衍生（GMMD）特征已被证明是神经网络AM适应的有效技术。在本文中，我们提出并研究了一种使用GMMD特征改进神经网络AM的说话者自适应训练（SAT）的新方法。这个想法是基于使用来自ASR的不准确的转录在神经网络训练期间进行适应，同时保持神经网络目标的精确转录。此外，我们将最近提出的用于分类任务的混合技术应用于ASR的声学模型，并研究该技术对说话人自适应声学模型的影响。在TED-LIUM语料库上的实验结果表明，与说话人自适应的AM相比，所提出的方法在语音识别性能方面提供了额外的增益。

以下是主要内容：

第2节讨论了针对ASR的混合AM训练，并介绍了一种可能的方法来应用使用LF-MMI标准训练的DNN AM的混合。第三节讨论了基于GMMD特征的SAT技术及其改进。第4节描述了SAT，混合训练及其组合的实验结果。最后，结论在第5节中给出。

1. ASR中的混合声学模型

混合技术[34]，也称为[35]中的类学习，在最近的文献中为一些分类任务而提出，作为深度神经网络的数据增广和正则化的一种方法。该方法的思想基于在DNN训练期间添加原始特征向量的线性组合而获得的新合成特征向量。该合成特征的target（state）为组合使用的特征的对应target的线性组合。令x i和x j表示来自训练数据集的两个特征向量。然后，获得合成特征向量~x i，j（ξ）作为这些向量的线性组合，如下：

ξ ∈ [0, 1]，随机变量作为混合权重，服从标准正态分布u（0.0.5）。合成特征的taeget（state）向量 ˜y i,j (ξ) 如下：

在本文中，我们研究了语音识别任务的一个混合修改。更具体地说，我们感兴趣的是将混合概念应用于序列训练的神经网络AM，这些AM现在是ASR中声学建模的最新技术。

1.1 对序列训练的神经网络在lattice-free MMI的混合

补充：MMI 着重优化正确路径和其他相似路径的概率差。LF-MMI（Lattice-Free Maximum Mutual Information）训练准则通过在神经网络输出层计算出来所有可能的标注序列，根据这些标注序列计算出相应的 MMI 信息和相关的梯度，然后通过梯度传播算法完成训练。LF-MMI 训练准则能够在训练过程中直接计算所有可能路径的后验概率（Posterior Probability），省去了鉴别性训练前需要提前生成 Lattice 的麻烦，所以这种方法被叫做 Lattice-Free MMI。

生成步骤：

概念：ﬁnite state acceptors (FSAs)

2. 使用GMMD特征改进SAT

2.1 GMMD特征：

对于给定的声学特征向量，通过计算给定向量上的辅助GMM模型的所有状态的对数似然来获得新的GMMD特征向量。对于辅助GMM-HMM模型，可以使用具有少量状态（50-200）的单音素或三音素GMM-HMM。使用MAP自适应算法。

2.2 改进的SAT

在训练阶段的标准SAT方法中，使用来自训练语料库的原始（精确）转录来执行对每个说话人的自适应。但是，在测试时，来自ASR系统的不准确转录用于自适应。因此，在不同条件下执行说话人自适应训练和解码。而且，已知MAP方法对自适应中使用的转录的质量敏感。这两个因素都会降低适应性能。考虑到这些因素，我们建议使用基于GMM的适应框架来改进SAT程序，如图1所示。主要思想是基于使用来自ASR系统的转录来自适应辅助GMM模型。这与标准方法不同，其使用精确转录用于自适应。同时，在提出的SAT方案中，使用精确的转录获得训练的target（state）和对齐。训练语料库的解码可以使用说话人无关的（SI）AM和LM，其在评估实验中使用。从实际的角度来看，为了获得更加真实的SAT转录，我们应该从训练语料库中排除这个AM将要解码的AM数据。为了遵循这一原则，我们在本文中应用的一个解决方案是将训练语料库分成两部分：训练1和训练2并训练两个AM，相应地，AM 1和AM 2。然后，我们可以使用AM 1解码Train 2和AM 2来解码Train 1。这种方法的动机是使自适应在训练期间的过拟合和在测试时自适应期间的转录错误更加鲁棒。

3. 实验结果：

语料库：TED-LIUM，包含 1495 TED 演讲，207 小时 (141 hours of male, 66 hours of female) speech data from 1242 speakers, 16kHz.划分为约172小时训练集（1029说话人），3.5小时验证集（4说话人）和3.5小时测试集（说话人），

4-gram语言模型，152k词，baseline使用9层TDNN-LSTM网络，输入为40维MFCC特征，使用LF-MMI训练准则。

第一个SAT TDNN-LSTM AM对应于3.1节中描述的标准SAT方法。另外两个SAT TDNN-LSTM AM对应于3.2节中提出的改进的SAT。它们在SAT训练期间获得不精确的转录以进行自适应的方式不同：要么具有一个基线AM，要么具有在训练语料库的两个不同部分训练的两个AM。即 1 AM使用全体训练集训练一个AM，并使用该AM生成的转录标签数据对辅助GMM模型进行SAT训练。2 AMs将训练集分为两部分，分别训练两个AM，使用AM1来转录train set 2，使用AM 2来转录train set 1，使用转录数据对辅助GMM模型进行自适应训练用以生成GMMD特征。

Improved SAT (2 AMs) with mixup表示训练AM时使用mixup技术，

结论：

发现TDNN-LSTM声学模型使用MAP自适应算法及GMMD特征与混合训练技术可以互补，并且相对于说话人无关的AM，一起提供16-24％的相对WER减少。

由于最近在学习ivector特征，补充一篇：

《Speaker Adaptation of Neural Network Acoustic Models Using I-Vectors》

这篇文章来自IBM，发表于2013年，他引次数较高，以下是摘要部分：

提出通过将说话人身份向量（i-vector）作为输入特征提供给网络，与ASR的常规声学特征并行，使深度神经网络（DNN）声学模型适应目标说话人。对于训练和测试，给定说话人的i向量被连接到属于该说话人的每个帧并且在不同的说话人之间变化。在Switchboard 300小时语料库上的实验结果表明，训练有关说话者无关特征和i-vector的DNN相对于仅在说话者无关特征上训练的网络实现了10％的字错误率（WER）相对改善。这些网络在性能上与在说话人自适应特征（使用VTLN和FMLLR）上训练的DNN相当，其优点是仅需要一次解码通过。此外，在仅适合于说话者的特征训练的网络上进行无粗暴序列训练之后，训练有适合说话者的特征和i向量的网络在WER中实现5-6％的相对改善。

本文的结构如下：第二部分回顾了i-vector提取方法，第三部分提供了一些实验结果，用于在Switchboard英语会话电话任务中使用和不使用i-vectors进行训练的DNN，在第四部分我们总结发现。

引言部分：

不同于混合高斯模型（GMM）是一个生成性模型，深度神经网络（DNN）是一个鉴别性模型，因此现有的GMM中的自适应技术（如基于变换的MLLR方法）不能直接应用于深度神经网络中。

补充：在GMM-HMM框架内著名且非常有效的自适应技术包括：最大似然线性回归（MLLR，衍生fMLLR），声道长度归一化（VTLN），最大后验概率（MAP），向量泰勒级数（VTS）。

与高斯均值或方差不同，如果它们属于相同的声学类别（音素，HMM状态或者其聚类方法），它们可以一起变换，但很难在神经网络的权重中找到这种结构。相反，研究人员已经研究了类似于MAP的GMM方法，其中使用给定说话人的自适应数据直接更新神经网络权重。这种方法的问题在于更新的参数数量远远超过可用的自适应数据量，这可能导致过拟合，因此某种形式的正规化方法是必要的，或者考虑仅自适应偏置项。另一种方法是完全回避网络自适应问题，使用说话人自适应特征去训练网络。更好的方法可能是为网络提供未转换的特征，并让它在训练期间确定说话人归一化。为此，必须告知网络哪些特征属于哪个说话人。这可以通过创建两组时间同步输入来实现：一组用于语音识别的声学特征和另一组表征说话人的特征。这个想法类似于[3]，但有一个重要区别：在我们提出的工作中，表征说话人的特征对于该说话人的所有数据是相同的。与我们相关的另一项工作是[4]，作者建议学习说话人编码，这些编码被送入说话人自适应网络。该网络产生说话人自适应的特征，形成常规DNN的输入。我们提出的工作的主要区别（除了使用i-vector而不是说话人编码）是我们训练一个单独的网络，同时进行说话人自适应和音素分类，而不是两个独立的网络。最后，[6]中提出的噪声感知DNN用作输入无补偿特征和噪声的时间依赖估计，也与我们的工作相关。i-vectors [7]是一种用于说话人验证和说话人识别的流行技术，因为它们以低维固定长度表示封装了有关说话者身份的所有相关信息[8]。这使它们成为ASR说话人自适应技术的有吸引力的工具。在[9]中使用i-vector和ASR特征的串联用于具有区域相关线性变换的辨别性说话者自适应。在[10]，[11]中也使用了i-vector，用于在移动设备上聚类说话者或话语，以便更有效地适应。

I-vector提取方法：略

将i-vector特征w（s）串联到每个帧x t（s）以形成用于神经网络训练或解码的输入。

实验部分：

1.前端处理，帧长25ms，帧移10ms，每帧提取13维PLP特征，每9帧合并，使用LDA降维后变为40维。此外，对于说话人自适应的特征，在拼接和投射之前，用声道长度归一化（VTLN）使cepstra翘曲。然后，在训练和测试时间使用GMM-HMM系统在LDA特征之上计算每个会话侧的一个特征空间MLLR（fMLLR）变换。

2.i-vector提取，使用最大似然标准来训练两个2048个40维对角协方差GMM：一个用于说话人无关，一个用于说话人自适应的特征集。这些GMM用于通过（6）和（7）对所有训练和测试说话人预计算0阶和1阶统计量。 i-vector提取矩阵T1 ～T 2048初始化为从[-1,1]中的均匀分布中随机抽取的值，并通过交替足够的统计收集（11），（12）和因子子载荷矩阵更新（13），通过10次EM迭代估计。一旦训练了矩阵，我们就为所有训练集和测试集说话人提取了M维i-vector。对M等于40,100和200的3个不同值重复该过程。最后，对i-vector进行缩放，使得它们在用于神经网络训练的训练数据上具有近似单位方差。

4.DNN训练。训练集295小时，验证集5小时。输入特征包含11帧的上下文信息，输入层神经元为40x11+M。每个DNN有6个隐藏层，前五层有2048个节点，最后一个隐层有256个节点，sigmoid激活函数，使用的词汇有30.5K字和32.8K发音变体。解码语言模型是4元n-gram模型。

实验结果：

不管是使用交叉熵准则还是序列鉴别性准则（帧错误率，MPE），基于i-vector特征的说话人自适应模型都能取得超过10%的相对词错率降低。

比较了不同维度i-vector特征的性能，WER从40到100维度显着下降。性能为100和200维度，表明i-vector维数为100是此任务的合理选择。当然，来自更多说话人的更多训练数据可能导致不同的结果。

INTERSPEECH 2018 | 语音识别技术之说话人自适应技术相关推荐

Kaldi thchs30手札（六）说话人自适应训练（SAT)、FMLLR以及quick训练（line 87-104)
欢迎大家关注我的博客 http://pelhans.com/ ,所有文章都会第一时间发布在那里~ 本部分是对Kaldi thchs30 中run.sh的代码的line 87-104 行研究和知识总结, ...
滴滴单通道语音分离与目标说话人提取和抑制技术进展
桔妹导读:为了将目标语音从含多种干扰(如车噪.导航音.车内FM等)的复杂声学环境中分离出来同时尽量减小对原始语音的损伤,提高人机交互.客服听音等的效率,滴滴结合了在前端信号处理的多年研发积累与该领域的 ...
阿里《Java手册》做一个有技术情怀的人
导读最近重温了阿里的<码出高效Java开发手册>,感觉最后一页"聊聊成长"这一小块的内容写的很棒,特意把它复制出来,送给每一个技术人,愿你做一个有技术情怀的人. 正文 ...
谷歌再获语音识别新进展：利用序列转导来实现多人语音识别和说话人分类
准确识别「谁·在何时·说了啥」作者 | MrBear 编辑 | Pita 从 WaveNet 到 Tacotron,再到 RNN-T,谷歌一直站在语音人工智能技术的最前沿.近日,他们又将多人语音识 ...
【资讯博客翻译】----通过序列转导实现联合语音识别和说话人二值化
[翻译]通过序列转导实现联合语音识别和说话人二值化原文网址:https://ai.googleblog.com/2019/08/joint-speech-recognition-and-speake ...
语音识别（三）——声学模型, 解码器技术
声源定位(续) 波束形成声源定位的方法包括波束形成,超分辨谱估计和TDOA,分别将声源和阵列之间的关系转变为空间波束,空间谱和到达时间差,并通过相应的信息进行定位. 波束形成是通用的信号处理方法,这 ...
SH-SSS丨跨年龄声纹识别：学习年龄不变的说话人特征
SH Symposium Series on Speech (SH SSS 2022) SH SSS 是由语音之家打造的AI语音技术相关的前沿论文成果分享平台. 来自AI语音技术领域的优秀论文作者. ...
图像处理、语音处理的应用及前沿技术_人工智能，虚拟技术，语音识别技术在我们的生活中...
人工智能(Artificial Intelligence),英文缩写为AI.它是研究.开发用于模拟.延伸和扩展人的智能的理论.方法.技术及应用系统的一门新的技术科学. 人工智能是计算机科学的一个分支, ...
UC伯克利黑科技：用语音数据预测说话人手势
点击我爱计算机视觉标星,更快获取CVML新技术昨天CVPR 论文终于提供下载: 重磅!CVPR 2019 论文终于全面开放下载!附百度云链接看到一篇CVPR 2019 论文<Learning ...

INTERSPEECH 2018 | 语音识别技术之说话人自适应技术

INTERSPEECH 2018 | 语音识别技术之说话人自适应技术相关推荐

最新文章

热门文章