自监督学习之掩码自动编码器(Masked Autoencoders, MAE)——音频识别方面

1.参考文献

Masked Autoencoders that Listen

2.背景

Transformers和self-supervised learning(自监督学习)占据了计算机视觉(Computer Vision,CV)和自然语言处理(natural language processing, NLP)的主导地位。

使用BERT进行屏蔽自动编码,通过对大规模语言语料库的自监督预训练,为各种NLP任务提供了一种新的最新技术。类似地,在CV社区中,Vision Transformers (ViT)变得越来越流行,在自监督的图像表示学习中,掩码自动编码器(MAE)使CV社区更接近BERT在NLP中的成功。

在这项工作中,主要研究了听的方面,即音频识别方面,如Audioset(规模最大的音频数据集),环境声识别(ESC-50),语音指令识别(SPC-2, SPC-1),说话人识别(VoxCeleb)。

3.掩码自动编码器

MAE如上图所示。

①将音频的时频谱图分割成许多patch,对大部分patch进行掩码处理;

②通过把剩余可见的patch块进行编码操作;

③然后通过解码操作,对顺序恢复和掩码patch块进行重构输出;

④并与目标时频谱图计算MSE损失以此更新编码器和解码器;

这里编码器使用12-layer ViT-Base (ViT-B)

解码器用standard Transformer模块。

具体细节可以看原文。

4.微调至下游任务

MAE最终只保留编码器部分,解码器将删除,这样就能应用到下游任务。

5.结果

 谱图修复结果如上图所示

MAE下游任务结果如上表所示

6.应用拓展

MAE预训练模型可以用于各种下游任务,对于提升识别率都很有效。

自监督学习之掩码自动编码器(Masked Autoencoders, MAE)——音频识别方面相关推荐

  1. 如何从数学角度解释何恺明新作Masked Autoencoders (MAE)?

    何恺明最新一作论文 Masked Autoencoders(MAE)为自监督学习方法带来了一场革命,自提出以来,在 AI 领域内得到了极大的关注.MAE 不仅在图像预训练上达到了 SOTA 性能,更是 ...

  2. Masked Autoencoders Are Scalable Vision Learners 论文导读

    Facebook 人工智能研究 (FAIR) 团队发表的论文 Masked Autoencoders Are Scalable Vision Learners 已成为计算机视觉社区的热门话题.这也是K ...

  3. 李沐精读论文:MAE 《Masked Autoencoders Are Scalable Vision Learners》

    论文:Masked Autoencoders Are Scalable Vision Learners 别再无聊地吹捧了,一起来动手实现 MAE(Masked Autoencoders Are Sca ...

  4. MAE 论文《Masked Autoencoders Are Scalable Vision Learners》

    <Masked Autoencoders Are Scalable Vision Learners>带掩码的自编码器是一个可拓展的视觉学习器,听名字就明白一二,应该是在编码器部分加上了 m ...

  5. PyTorch笔记 - MAE(Masked Autoencoders) PyTorch源码

    欢迎关注我的CSDN:https://blog.csdn.net/caroline_wendy 本文地址:https://blog.csdn.net/caroline_wendy/article/de ...

  6. Masked Autoencoders Are Scalable Vision Learners(MAE)

    VIT论文解读:Vision Transformer(ViT)_NLP_wendi的博客-CSDN博客 论文链接:Masked Autoencoders Are Scalable Vision Lea ...

  7. 「Masked Autoencoders」MAE算法相关及后续工作整理

    参考链接:https://zhuanlan.zhihu.com/p/518608011 (MAE, Kaiming He et al.)由于其从丰富的未标记数据中学习有用表示的能力而重新引起了人们的兴 ...

  8. 【论文和代码阅读】Masked Autoencoders Are Scalable Learners (MAE)

    写在最前面 先贴一下MAE的论文链接 https://arxiv.org/pdf/2111.06377.pdfhttps://arxiv.org/pdf/2111.06377.pdf紧随其后的是代码复 ...

  9. 【读点论文】Masked Autoencoders Are Scalable Vision Learners 完型填空应用到视觉处理上

    Masked Autoencoders Are Scalable Vision Learners 本文表明,掩蔽自动编码器(MAE)是计算机视觉的可扩展自监督学习器. 本文的MAE方法很简单:通过屏蔽 ...

最新文章

  1. 清空控制台Console.log()信息
  2. 2021年春季学期-信号与系统-第六次作业参考答案-第九小题
  3. 【转】Office 2003 EXCEL多窗口打开
  4. 网页录音解决方案 FlashWavRecorder For Website API 关键地方已注释
  5. EOS开发步骤(2) 钱包操作
  6. elk-logstash时区问题
  7. rto初始化和计算_TCP系列15—重传—5、Linux中RTO的计算
  8. 使用盒子模型仿照优酷的页面片段
  9. 探索 OpenStack 之(7):Neutron 深入探索之 Open vSwitch (OVS) + GRE 之 Neutron节点篇
  10. 成为高级程序员的 10 个步骤
  11. 329例精选matlab算法原理及源码详解——老生谈算法
  12. 多旋翼飞行器设计与控制(四) —— 动力系统建模与估计
  13. 慧荣SM2246XT主控的固态硬盘修复开卡不识别怎么短接方法
  14. 世界计算机销量排名2015,全球电脑销量排名出炉,苹果位居第四,“榜首”为国产品牌!...
  15. 最简单的加载器免杀思路
  16. Excel 2010 VBA 入门 110 获取最小值的自定义函数
  17. 强化学习 qlearning解决tsp问题
  18. 安卓手机系统开发教程!BTAJ面试有关散列(哈希)表的面试题详解,大厂直通车!
  19. Java 递归算法详解
  20. vue实现对一段文字中违禁词的校验

热门文章

  1. MySQL 锁全集(共享锁/排它锁、记录锁/间隙锁/临键锁)
  2. 关于全球央行数字货币实验的若干认识与思考
  3. stm32cube学习1-rcc配置选择
  4. php里怎么输入,php怎么读取输入
  5. json数据解析,json数据转为java对象
  6. 低代码平台选型(三)国产化
  7. 美联英语在线VIP-师资(HTML,css)
  8. CSS 字体 文本 过渡 盒子初步
  9. rtl8139 群晖_Virtual Machine Manager
  10. 【渝粤题库】陕西师范大学164201 运筹学 作业(专升本)