目录

1.前言

2.摘要

3.引言

4.相关工作Related Work

5.实施方法Approach


1.前言

MAE Masked Autoencoders Are Scalable Vision Learners

自监督学习,随机遮住(mask)一部分patches,并重构原始图片。(基于BERT)

如图,左侧为mask一部分的图,中间为解码器重构的图,右侧为原始图片。

2.摘要

两个要点:一是基于非对称的编码器、解码器架构。编码器只输入没有mask的patch,编码器的输出(语义空间的潜表示latent representation)。二是mask较大比例(例如75%)的patches是一种非显然的有意义的自监督任务,由于输入图片大部分被遮住了,可以加速训练。MAE证明了,在ImageNet-1K data(ImageNet-1K data)、迁移学习、自监督学习等任务中都取得了较好的效果。

3.引言

引言中提出问题:what makes masked autoencoding different between vision and language?(视觉任务与语言任务的不同)

第一,卷积窗口不好将mask操作加入进去,卷积无法对mask进行特征提取。

第二,信息密度不同,比如一个词:树,可以表示一棵树。但一张图片中的树,需要多个patch来表示。transformer学习全局信息而不是关注局部的信息。

第三,解码器,还原像素是低层次的,而NLP里还原一个词是语义里比较高层面的,BERT使用MLP即可对标号进行预测。还原像素输出的解码器网络架构要复杂一些,例如语义分割里采用转置卷积做解码器,而MAE这篇文章采用了transformer做解码器。

4.相关工作Related Work

Masked language modeling: BERT,GPT

Autoencoding:Denoising autoencoders (DAE)

Masked image encoding:iGPT,BEiT

Self-supervised learning:contrastive learning

5.实施方法Approach

MAE是一个根据部分信息重构原始信息的自编码器,采用非对称设计(编码器输入25%未masked的patches,解码器输入编码器输出的潜表示以及masked的全部信息)。

(1)类似于ViT,patch切片后通过线性投影(linear projection)并加入位置信息(position embedding)得到token。

(2)随机masked,切片后随机打乱顺序(shuffle),masked最后75%并取出。将余下的25%token作为输入进入Encoder。

(3)Encoder是若干个个纯的transformer块,经过编码器提取特征后,输出潜表示。

(4)将编码器的输出与masked的patch,加入位置信息后输入解码器,损失函数采用MSE(最小均方误差),重构原始图片。

(5)如果用在迁移学习中,在下游任务中,只需编码器提取输入特征,然后进行分类即可。

参考自李沐在b站上的论文精读!

python的学习还是要多以练习为主,想要练习python的同学,推荐可以去看,他们现在的IT题库内容很丰富,属于国内做的很好的了,而且是课程+刷题+面经+求职+讨论区分享,一站式求职学习网站,最最最重要的里面的资源全部免费。

牛客网 - 找工作神器|笔试题库|面试经验|实习招聘内推,求职就业一站解决_牛客网求职之前,先上牛客,就业找工作一站解决。互联网IT技术/产品/运营/硬件/汽车机械制造/金融/财务管理/审计/银行/市场营销/地产/快消/管培生等等专业技能学习/备考/求职神器,在线进行企业校招实习笔试面试真题模拟考试练习,全面提升求职竞争力,找到好工作,拿到好offer。https://www.nowcoder.com/link/pc_csdncpt_ssdxjg_python

他们这个python的练习题,知识点编排详细,题目安排合理,题目表述以指导的形式进行。整个题单覆盖了Python入门的全部知识点以及全部语法,通过知识点分类逐层递进,从Hello World开始到最后的实践任务,都会非常详细地指导你应该使用什么函数,应该怎么输入输出。

牛客网(牛客网 - 找工作神器|笔试题库|面试经验|实习招聘内推,求职就业一站解决_牛客网)还提供题解专区和讨论区会有大神提供题解思路,对新手玩家及其友好,有不清楚的语法,不理解的地方,看看别人的思路,别人的代码,也许就能豁然开朗。

快点击下方链接学起来吧!

牛客网 - 找工作神器|笔试题库|面试经验|实习招聘内推,求职就业一站解决_牛客网

参考:

跟李沐学AI的个人空间_哔哩哔哩_bilibilihttps://space.bilibili.com/1567748478/?spm_id_from=333.999.0.0

MAE 掩码自编码是可扩展的学习相关推荐

  1. ES6基础3(扩展)-学习笔记

    文章目录 ES6基础3(扩展)-学习笔记 字符串扩展 数值扩展 函数扩展 扩展运算符 ES6基础3(扩展)-学习笔记 字符串扩展 //扩展//字符串扩展charAt(); //返回指定索引位置的字符 ...

  2. C#中的扩展方法学习总结

      版权声明:本文由秦元培创作和发表,采用署名(BY)-非商业性使用(NC)-相同方式共享(SA)国际许可协议进行许可,转载请注明作者及出处,本文作者为秦元培,本文标题为C#中的扩展方法学习总结,本文 ...

  3. SEED RL — 大规模扩展强化学习

    文 / Google Research 阿姆斯特丹分部研究工程师 Lasse Espeholt 过去几年间,强化学习 (RL) 取得了令人瞩目的进展,近期在 围棋 (Go) 和 Dota 2 等游戏上 ...

  4. bpe编码_缓冲池扩展(BPE)–如何工作?

    bpe编码 You already understand the benefits of the BPE and how to deal with the feature, now it's time ...

  5. bpe编码_缓冲池扩展(BPE)–缓冲池简介

    bpe编码 Introduced on SQL Server 2014, the Buffer Pool Extension came to build up a new layer of cache ...

  6. bpe编码_缓冲池扩展(BPE)–实施另一级缓存

    bpe编码 This third part of the BPE series shows the basics of Buffer Pool Extension and know how to im ...

  7. FFmpeg编码扩展之————编码库的扩展(libfdk-aac)

    ffmpeg windows版没有libfdk-acc 请求该地址下载:http://tmod.nmm-hd.org/FFmpeg/

  8. gb2312编码在线转换_python基础学习—04字符串与编码

    点击上方蓝字关注我们不迷路! 字符串与编码 一.了解计算机编码 1.1  编码 定义:将信息从一种形式转换为另外一种形式的过程叫做编码,即信息转换过程 举例:信息加密解密.语言翻译 1.2  计算机编 ...

  9. 彻底搞懂 python 中文乱码问题_彻底搞懂 Python 编码 - sylan215的软件测试技术学习 - 51Testing软件测试网 51Testing软件测试网-软件测试人的精神家园...

    因为中文的特殊编码,导致 Python2 和 Python3 使用过程中的各种编码问题,如果不清楚其中的关联关系,那么这就一直是个大坑,不是懵逼就还是懵逼,所以就目前碰到的情况彻底梳理下 Python ...

最新文章

  1. python 柱状图 保存_我如何从数据库中存储直方图数据?
  2. 第一章 自定义MVC框架
  3. java对象数组覆盖_java – 如何覆盖RAML 1.0中的对象数组属性类型
  4. bootstrap table 分页_Java入门007~springboot+freemarker+bootstrap快速实现分页功能
  5. python3.7怎么设置中文_Python3.7中文字符编码问题
  6. python list去重并删除某些元素_使用Python实现list(列表)中的重复元素删除,例如: X= [1,1,2,a,a,[1,2,3]] 去重后:X= 「1,2,a,[1,2...
  7. python对文件操作的相关函数_第六章、Python文件操作
  8. Himall商城文件帮助类IOHelper(1)
  9. 遗传算法java(中国外运杯)
  10. 雅虎终于死了:从1000亿到破产贱卖,最后连名字都没
  11. 英文歌的计算机普,好听的英文歌:See You Again--DJ Frank ECharlie Puth
  12. 视频动作识别(Action Recognition)综述
  13. [Delphi学习]Delphi Access Violation错误的分析
  14. 【已解决】系统找不到文件 C:\ProgramData\Oracle\Java\javapath\java.exe。
  15. php数据结构 链表,php数据结构-单链表
  16. Fortran学习3:控制流2:循环
  17. c#利用log4记录日志
  18. H264 nal_aud, TS格式分析;分析一帧数据包(H264)
  19. 用计算机的笔来画来画画说课稿,电脑画画教案设计
  20. AI 在视频领域运用—弹幕穿人

热门文章

  1. 狂神CSS3学习笔记
  2. python之正则表达式(基础篇)
  3. vulnhub靶场,FirstBlood
  4. Form 与 form_load
  5. Flutter安卓系统把状态栏设置为透明色
  6. 计算机应用在医学领域有哪些,计算机在医学领域的应用|网络安全技术
  7. 信息系统项目管理师案例分析万金油
  8. ThreadPoolExecutor线程池的使用
  9. 102-首发URSINA中文入门指南-打开山河社稷图
  10. 形容等待时间长的句子_形容等待时间长的诗句