基于判别学习的语音预训练模型的发展历程大致从Deepmind的CPC开始，FAIR的wav2vec系列工作（Wav2vec, Vq-wav2vec, Discret BERT, Wav2vec 2.0，Wav2vec-U）专注于语音识别任务，一步步将预训练模型从特征提取器发展到带有离散化模块的端到端的自监督训练模型，一步步地挑战更为困难的语音识别数据集，使用更少的有标注数据或者完全使用无标注的数据，取得更好的结果。近期FAIR又提出HuBERT模型直接使用MLM的方式预测事先聚类好的离散的target。以及近近近期Meta AI的data2vec模型直接使用掩码加在线蒸馏的方法不仅在语音ASR达到SOTA，还在图像和NLP领域也有强劲的实力。（从CPC到data2vec都是旨在提出一个语音/vision/NLP都可以使用的一个自监督学习方法，从RNN时代到Transformer时代，仿佛历经一场轮回，但其实发表时间只是时隔3年而已…）

再看谷歌这边使用自家的Conformer框架一次次的基于Wav2vec2.0自监督训练方法针对于语音识别任务"pushing the limits"，把预训练模型做的更大更强，用1百万小时的youtube语音数据训练了8B参数的BigSSL，也把Wav2vec2.0和HuBERT模型结合提出了W2V-BERT模型，进一步刷新了自己的SOTA。

与此同时，微软也基于Wav2vec2.0提出了UniSpeech模型，在自监督学习时充分使用已标注好的数据，以及wav2vec-Switch模型专注于提升预训练模型的抗噪能力。基于HuBERT框架，微软针对ASR任务提出了ILS-SSL模型，通过让中间层也去预测target使ASR结果明显提升（与data2vec比肩的结果），针对Speaker相关的任务提出了Unispeech-SAT模型，通过加入句子混杂增强和句子之间的对比学习有效提升模型在speaker相关任务上的结果。为了实现ASR、Speaker以及其它语音下游任务的大一统，微软还提出的WavLM模型在十几个语音任务上都取得了SOTA结果。除了基于encoder的预训练模型，微软还有基于encoder-decoder的SpeechT5模型，能有效地用于所有文字和语音互相转化的任务（包括ASR, VC, TTS等等）

一、从声学特征到自监督语音特征

我们都知道，自监督学习的崛起与广泛研究工作不过是近几年的新闻而已，深度学习不过也流行了不过十年。在这一切之前，如何解决各种各样语音任务还是极度的依赖于资深语音信号大佬们专业知识。大佬们依据经验和公式推导可以从语音信号中提取出多种声学特征（Acoustic Feature），我们就可以直接将这些特征作为输入向量用于各项语音任务中，并且能取得很好的效果。

专家们指导我们可以从语音信号中提取出多种声学特征。（图源台大李宏毅老师slides: http://speech.ee.ntu.edu.tw/~tlkagk/courses/DLHLP20/ASR%20(v12).pdf）

然而，这些预先定义好的声学特征（MFCC、FBank等）只能够捕捉到很短时间内的局部时频特征的信息。

那么，我们能不能通过在大规模无标注的语音数据上用自监督的方法学习到一个模型，再使用这个模型为一段音频信号抽取出包含上下文的高维语义信息的特征向量呢？

目前的语音预训练模型的自监督学习方法主要包括：

基于生成的自监督学习方法；
基于判别的自监督学习方法；

1、基于生成的自监督学习方法

基于生成的自监督学习方法（如APC、VQ-APC、Mockingjay等）的输入和输出通常都是声学特征，通过使用自回归预测或者随机掩码输入特征的方式让模型去学习重构完整的声学特征。如很多论文（CPC、BEiT等）中提到的，这种基于MSE loss的自监督学习方法有个弊端是：它要求模型去重构声学特征中的每一个细节，而这其中的很多细节可能是一些低层或噪声信息，并非我们想要让模型学习的高维语义信息。这样就会浪费模型的建模能力以及宝贵的计算资源。

2、基于判别的自监督学习方法

如今更为主流的是基于判别的自监督学习方法（如CPC、wav2vec2.0、HuBERT等）。CPC和wav2vec2.0等模型主要使用对比学习的方法，其中想要预测的向量是正例，再从当前句子中的其他位置上选出一些负例。HuBERT模型则是用离线的方式先为每一帧语音打好一个label（比如从500个类别中选择一个ID），然后将此label视为正例，其他类别都视为负例，使用CrossEntropy loss进行训练。

NLP预训练模型综述_Mystery_zero的博客-CSDN博客

预训练模型最新综述：过去、现在和未来_PaperWeekly的博客-CSDN博客

一网打尽：14种预训练语言模型大汇总_zenRRan的博客-CSDN博客

10个预训练模型开始你的深度学习（计算机视觉部分）_小白学视觉的博客-CSDN博客

万小时数据预训练大规模中文语音预训练模型分享_lqfarmer的博客-CSDN博客

通用模型、全新框架，WavLM语音预训练模型全解_微软技术栈的博客-CSDN博客

带你了解3类预训练语音模型预测方法_华为云开发者联盟的博客-CSDN博客_语音识别预训练模型

基于判别学习的语音预训练模型（0）---简单总结 - 知乎

基于判别学习的语音预训练模型（1）---从声学特征到自监督语音特征 - 知乎

Audio-预训练模型（一）：概述相关推荐

音频预训练模型 Audio and Speech Pre-trained Models
1. 什么是预训练的模型? 预训练模型是其他人为解决类似问题而创建的模型.我们可以以其他问题训练的模型为起点,而不是从零开始构建模型来解决类似的问题.预训练模型在应用程序中可能不是100% 准确. ...
Paddle预训练模型应用工具PaddleHub
Paddle预训练模型应用工具PaddleHub • 本文主要介绍如何使用飞桨预训练模型管理工具PaddleHub,快速体验模型以及实现迁移学习.建议使用GPU环境运行相关程序,可以在启动环境时,如下 ...
人大团队研究：面向文本生成，预训练模型进展梳理
作者 | 刘媛媛来源 | 数据实战派文本生成是 NLP 中最重要且颇具挑战性的任务之一.近年来,预训练语言模型 (Pretrained Language Models ,下文简称 "PL ...
关于NLP相关技术全部在这里：预训练模型、图神经网络、模型压缩、知识图谱、信息抽取、序列模型、深度学习、语法分析、文本处理...
NLP近几年非常火,且发展特别快.像BERT.GPT-3.图神经网络.知识图谱等技术应运而生. 我们正处在信息爆炸的时代.面对每天铺天盖地的网络资源和论文.很多时候我们面临的问题并不是缺资源,而是找准 ...
ICLR 2020 | ELECTRA：新型文本预训练模型
今天介绍斯坦福大学和Google Brain团队在ICLR2020的论文,该研究提出ELECTRA语言模型,它是一种新型预训练方法,其关键点在于将预训练文本编码器作为标识符而非生成器,来处理现存语言模 ...
《预训练周刊》第16期：中科院推出全球首个图文音三模态预训练模型、顶会论文探索100层序列推荐模型的加速训练...
No.16 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第16期&l ...
《预训练周刊》第6期：GAN人脸预训练模型、通过深度生成模型进行蛋白序列设计
No.06 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第6期< ...
国内数十位大佬合作，综述预训练模型的过去、现在与未来
‍ ‍来源:机器之心 ‍ 来自清华大学计算机科学与技术系.中国人民大学信息学院等机构的多位学者深入地研究了预训练模型的历史和发展趋势,并在这篇综述论文中从技术的角度理清了预训练的来龙去脉. BERT ...
【NLP】ALBERT：更轻更快的NLP预训练模型
目前在NLP领域,出彩的预训练模型的新工作,几乎都是基于BERT的改进,前面我们就介绍了XLNET.今天我来介绍一个更新的工作,相比于BERT,它更轻量,效果也要好. 作者&编辑 | 小Dre ...
【NLP】人大团队研究：面向文本生成，预训练模型进展梳理
文本生成是 NLP 中最重要且颇具挑战性的任务之一.近年来,预训练语言模型 (Pretrained Language Models ,下文简称 "PLM") 的范式,极大地推动了该 ...

Audio-预训练模型（一）：概述

一、从声学特征到自监督语音特征

1、基于生成的自监督学习方法

2、基于判别的自监督学习方法

Audio-预训练模型（一）：概述相关推荐

最新文章

热门文章