自监督学习之掩码自动编码器(Masked Autoencoders, MAE)——音频识别方面

1.参考文献

《Masked Autoencoders that Listen》

2.背景

Transformers和self-supervised learning(自监督学习)占据了计算机视觉(Computer Vision,CV)和自然语言处理(natural language processing, NLP)的主导地位。

使用BERT进行屏蔽自动编码，通过对大规模语言语料库的自监督预训练，为各种NLP任务提供了一种新的最新技术。类似地，在CV社区中，Vision Transformers (ViT)变得越来越流行，在自监督的图像表示学习中，掩码自动编码器(MAE)使CV社区更接近BERT在NLP中的成功。

在这项工作中，主要研究了听的方面，即音频识别方面，如Audioset(规模最大的音频数据集)，环境声识别(ESC-50)，语音指令识别(SPC-2, SPC-1)，说话人识别(VoxCeleb)。

3.掩码自动编码器

MAE如上图所示。

①将音频的时频谱图分割成许多patch，对大部分patch进行掩码处理；

②通过把剩余可见的patch块进行编码操作；

③然后通过解码操作，对顺序恢复和掩码patch块进行重构输出；

④并与目标时频谱图计算MSE损失以此更新编码器和解码器；

这里编码器使用12-layer ViT-Base (ViT-B)

解码器用standard Transformer模块。

具体细节可以看原文。

4.微调至下游任务

MAE最终只保留编码器部分，解码器将删除，这样就能应用到下游任务。

5.结果

谱图修复结果如上图所示

MAE下游任务结果如上表所示

6.应用拓展

MAE预训练模型可以用于各种下游任务，对于提升识别率都很有效。

自监督学习之掩码自动编码器(Masked Autoencoders, MAE)——音频识别方面相关推荐

如何从数学角度解释何恺明新作Masked Autoencoders (MAE)？
何恺明最新一作论文 Masked Autoencoders(MAE)为自监督学习方法带来了一场革命,自提出以来,在 AI 领域内得到了极大的关注.MAE 不仅在图像预训练上达到了 SOTA 性能,更是 ...
Masked Autoencoders Are Scalable Vision Learners 论文导读
Facebook 人工智能研究 (FAIR) 团队发表的论文 Masked Autoencoders Are Scalable Vision Learners 已成为计算机视觉社区的热门话题.这也是K ...
李沐精读论文：MAE 《Masked Autoencoders Are Scalable Vision Learners》
论文:Masked Autoencoders Are Scalable Vision Learners 别再无聊地吹捧了,一起来动手实现 MAE(Masked Autoencoders Are Sca ...
MAE 论文《Masked Autoencoders Are Scalable Vision Learners》
<Masked Autoencoders Are Scalable Vision Learners>带掩码的自编码器是一个可拓展的视觉学习器,听名字就明白一二,应该是在编码器部分加上了 m ...
PyTorch笔记 - MAE(Masked Autoencoders) PyTorch源码
欢迎关注我的CSDN:https://blog.csdn.net/caroline_wendy 本文地址:https://blog.csdn.net/caroline_wendy/article/de ...
Masked Autoencoders Are Scalable Vision Learners（MAE）
VIT论文解读:Vision Transformer(ViT)_NLP_wendi的博客-CSDN博客论文链接:Masked Autoencoders Are Scalable Vision Lea ...
「Masked Autoencoders」MAE算法相关及后续工作整理
参考链接:https://zhuanlan.zhihu.com/p/518608011 (MAE, Kaiming He et al.)由于其从丰富的未标记数据中学习有用表示的能力而重新引起了人们的兴 ...
【论文和代码阅读】Masked Autoencoders Are Scalable Learners (MAE)
写在最前面先贴一下MAE的论文链接 https://arxiv.org/pdf/2111.06377.pdfhttps://arxiv.org/pdf/2111.06377.pdf紧随其后的是代码复 ...
【读点论文】Masked Autoencoders Are Scalable Vision Learners 完型填空应用到视觉处理上
Masked Autoencoders Are Scalable Vision Learners 本文表明,掩蔽自动编码器(MAE)是计算机视觉的可扩展自监督学习器. 本文的MAE方法很简单:通过屏蔽 ...

自监督学习之掩码自动编码器(Masked Autoencoders, MAE)——音频识别方面

自监督学习之掩码自动编码器(Masked Autoencoders, MAE)——音频识别方面

自监督学习之掩码自动编码器(Masked Autoencoders, MAE)——音频识别方面相关推荐

最新文章

热门文章