斯坦福李飞飞团队新作:刷榜视觉自监督
点击上方“AI遇见机器学习”,选择“星标”公众号
第一时间获取价值内容
仅作学术分享,不代表本公众号立场,侵权联系删除
转载于:新智元
在计算机视觉领域,想要建立图像和场景(scene)之间之间的对应关系是一项比较困难的任务,尤其是在存在遮挡、视角改变或是物体外观发生变化的情况下。
最近,斯坦福大学李飞飞团队对MAE进行扩展,提出了孪生掩码自编码器SiamMAE(Siamese Masked Autoencoders)以学习视频中的视觉对应关系。
论文链接:https://siam-mae-video.github.io/resources/paper.pdf
先随机采样两个视频帧,并进行非对称掩码操作;然后SiamMAE编码器网络对两个帧进行独立处理,最后使用交叉注意层组成的解码器来预测未来帧(future frame)中丢失的图像块。
通过对未来帧中的大部分(95%)图像块进行掩码,同时保持过去帧(past frame)图像不变,SiamMAE促使网络专注于物体运动,并学习以物体为中心的表征。
尽管整个网络的设计概念比较简单,但通过SiamMAE学习到的特征在视频物体分割、姿势关键点传播和语义部分传播任务上都优于最先进的自监督方法。
SiamMAE在不依赖于数据增强、基于手工跟踪的前置任务或其他技术来防止表征崩溃的情况下,实现了非常有竞争力的性能。
孪生掩码自编码器
研究人员的目标是开发一种自监督的方法来学习对应关系,主要是将掩码自编码器(MAE)模型扩展到视频数据中。
Patchify
给定具有L帧的视频剪辑,首先随机采样两个视频帧,两帧之间的距离通过从预定的potential frame gaps范围中选择一个随机值来确定。
与原始ViT模型类似,通过将每个帧转换为一系列不重叠的N×N个patch来拼接视频帧。
最后,把位置嵌入加到线性投影上,并附加一个[CLS]标记,需要注意的是没有使用时序位置嵌入。
Masking
像图像和视频这样的自然信号是高度冗余的,分别表现为空间和时空上的冗余。
为了创造一个具有挑战性的预测性自监督学习任务,MAEs随机掩码了75%的图像patch,视频数据的掩码率提升到90%,并且对每帧都使用相同的掩码率。
这种设计可以使网络无法利用和学习到时间上的对应关系,避免在对应关系学习基准上达到次优性能。
研究人员认为,不对称的掩码可以创造一个更有挑战性的自监督学习任务,并且可以鼓励网络学习时间上的相关性。
所以对于采样的两个视频帧,对第一帧选择不掩码,对第二帧选择掩码95%,这样就可以将整个过去帧(entire past frame)作为输入,网络只需要将其扩散到未来中的适当位置即可,可以促进网络对物体运动进行建模并关注物体的边界。
为了进一步增加任务的难度,两个视频帧之间具有更大的时间间隔,尽管可能会导致对未来的预测变得模糊,并可能产生多种合理的结果,但为第二帧提供少量的patch作为输入,可以让网络的自监督学习变得更困难。
编码器
研究人员探索了两种不同的编码器配置来处理输入帧。
联合编码器(joint encoder)是图像MAEs在一对视频帧上的扩展,把两帧未掩码的图像patch串联起来,然后输入到标准的ViT编码器中进行处理。
孪生编码器(siamese encoder)是用于比较实体的权重共享神经网络,是对比表征学习方法的一个重要组件,用于对应学习(corresponding learning)时通常需要一些信息瓶颈来防止网络学习的解决方案,如使用颜色通道dropout来迫使网络避免依赖颜色来匹配对应关系。
在这篇论文中,研究人员使用孪生编码器来独立处理两幅图像,使用非对称掩码作为信息瓶颈。
解码器
编码器的输出通过线性层进行投影,并加入带有位置嵌入的[MASK] token,以生成对应于输入帧的所有token
研究人员探索了三种不同的解码器配置:
联合解码器(joint decoder)在两帧的token串联上使用原版Transformer模块,其主要缺点是对GPU内存的需求大幅增加,特别是在使用较小的patch尺寸时。
交叉自解码器(cross-self decoder)与原版Transformer模型的编码-解码器设计类似,每个解码器块由一个交叉注意力层和一个自注意力层组成,来自第二帧的token通过交叉注意力层与第一帧的token进行注意力操作,然后通过自注意力层进行相互融合。
可以注意到,交叉注意力层在功能上类似于自监督对应学习方法中经常使用的affinity矩阵。
交叉解码器(cross decoder)由交叉注意力层的解码器块组成,其中来自第二帧的token与来自第一帧的token进行注意力操作。
最后,解码器的输出序列被用来预测掩码图像块中的归一化像素值,在解码器的预测和真实值之间使用L2损失。
实验结果
视频物体分割
在多物体分割基准数据集DAVIS 2017上,使用480p分辨率的图像对模型进行评估。
实验结果可以发现SiamMAE明显优于VideoMAE(从39.3%提升到62.0%),研究人员将其归因于VideoMAE中使用了tube掩码方案,使得模型无法学习时间上的对应关系。
与DINO类似,研究人员也发现降低patch的尺寸会带来明显的性能提升。
并且文中使用的ViT-S/8(+9.4%)模型优于之前所有的对比学习和自监督的对应学习方法。
还可以注意到尽管较大的MAE-ST模型(ViT-L/16,304M参数)在随机掩码的情况下比VideoMAE表现更好,但其性能仍然落后于SiamMAE相当多。
而且在视频上训练的MAE与图像MAE的表现相似,视频与图像的不同之处在于,图像是(近似)各向同性的,时间维度是特殊的,并不是所有的时空方向都是同等可能的。
因此,对称地处理空间和时间信息可能是次优的。
视频部分分割(Video Part Segmentation)
在视频实例解析(Video Instance Parsing, VIP)基准上对SiamMAE进行评估,该基准包括为20个不同的人体部位传播语义掩码。
与评估的其他数据集相比,VIP特别具有挑战性,因为包括更长的视频(最长120秒)。
与先前工作类似,使用560×560的图像和单一背景帧进行评估后,可以发现ViT-S/8模型性能大大超越了DINO (从39.5提升到45.9)。
SiamMAE从更小的patch尺寸中,比DINO受益更多,实现了+8.6的mIoU评分,比DINO的+3.3 mIoU有所提高。
SiamMAE也优于之前所有的对比学习和自监督的对应关系学习方法。
姿势追踪(pose tracking)
在关键点传播的任务上对SiamMAE进行了评估,需要传播15个关键点,并且要求空间上的精确对应关系,使用320×320的图像和一个单一的背景帧,SiamMAE的性能优于所有其他模型,并且比DINO更受益于较小的patch尺寸(+14.9到+10.9 PCK@0.1)
欢迎大家加入我的这个”AIGC与GPT“知识星球,价格便宜,目前已有近130人
作为一个大厂算法工程师和机器学习技术博主,我希望这个星球可以:
【最全免费资源】免费chatgpt-API,最新AIGC和GPT相关pdf报告和手册。
【最专业算法知识】Transformer、RLHF方法、多模态解读及其论文分享。
【最新变现姿势】如何结合ChatGPT应用落地,各种可以作为副业的AIGC变现方式,打好这个信息差。
【最有趣AICG】ChatGPT+midjourney拍电影,制作壁纸,漫画等等有趣的AICG内 容分享。
一些截图:
斯坦福李飞飞团队新作:刷榜视觉自监督相关推荐
- AIGC爆发,千亿美元赛道,斯坦福李飞飞团队最新报告!!!
来源:新智元 近日,李飞飞领导的斯坦福HAI研究院发布了关于「生成式AI」的观点报告. 报告指出,当前大多数生成式人工智能都是由基础模型驱动的. 这些模型为我们的生活.社区以及社会带来的机会是巨大的, ...
- 斯坦福李飞飞团队「最惨」在读博士:论文被拒,项目被砍,本文教你如何正视失败!...
关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 论文被拒,项目被砍,甚至连好多 deadline 都没有赶上--我的博士生涯哪有这 ...
- 李飞飞团队新作登PNAS!AI 与人类互动才能提高智能水平!
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 转载自:AI科技评论 作者 | 李梅 编辑 | 陈彩娴 人类从与 ...
- 李飞飞团队最经典计算机视觉课更新!斯坦福出品,深度学习入门必备
萧萧 发自 凹非寺 量子位 报道 | 公众号 QbitAI 斯坦福最经典的计算机视觉课程CS231n--全称是面向视觉识别的卷积神经网络. 今天更新啦. 作为计算机视觉和深度学习领域的经典课程,CS2 ...
- 重磅!斯坦福李飞飞教授团队新研究登 Nature 子刊
作者 | 李梅.王玥 编辑 | 陈彩娴 转自:AI科技评论 在当前 AI 模型的开发以模型为中心转向以数据为中心的趋势下,数据的质量变得尤为重要. 在以往的 AI 开发流程中,数据集通常是固定的,开发 ...
- 斯坦福大学李飞飞团队图像分类课程笔记
斯坦福大学李飞飞团队图像分类课程笔记 Stanford image classification course notes 这是斯坦福CS231n课程图像分类基础知识. 目标:这一节先介绍图像分类基本 ...
- 回斯坦福之后研究成果曝光,李飞飞团队用机器学习教机械臂做动作
此次李飞飞团队结合了AI及深度学习等相关技术,让机械臂拥有模仿和学习的功能,是一次技术进步. 自从李飞飞离开谷歌回到斯坦福之后,她的研究方向及成果就备受业界关注.近日,其领导的团队在瑞士苏黎世召开的机 ...
- 李飞飞团队最新研究,真实场景中识别物体具体属性,连表面纹理都识别出来了...
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 整理:公众号@量子位 本文仅做学术分享,如有侵权,请联系删除. 现在,细微到物体表面的纹理,AI都可以 ...
- 李飞飞团队CVPR论文:让AI识别语义空间关系(附论文、实现代码)
本文经AI新媒体量子位(公众号ID:qbitai )授权转载,转载请联系出处. 本文共1000字,建议阅读5分钟. 斯坦福视觉实验室即将在CVPR 2018上发表的一篇关于研究"指称关系&q ...
最新文章
- python在哪写代码-python的代码写在哪里,怎么样运行python代码
- svm 的提前处理
- Scala 内部类及外部类
- day18 面向对象
- Spark-shell 脚本批量执行命令,命令行批量执行命令
- 理论基础 —— 线性表 —— 顺序表
- Tensorflow安装GPU环境
- android代码zip怎么用,Rxjava Android如何使用Zip操作符
- 内卷时代,普通测试员的铁饭碗究竟是什么?
- unity 导入gltf_基于gltf的GPU蒙皮动画(一)
- 破解sourceInsight4
- x64位游戏call代码测试注入器
- 表白页php制作html静态网页,九款表白网页源码静态HTML5下载
- ourdev 学习arm先看看,工具和软件分析
- 新体制SAR——BiDi SAR
- 每日一问。2015.1.8
- ES--Kibana相关操作创建索引和Mapping
- 相机光学(七)——光源
- 通过URL传参(参数也是URL)
- idea 拉取gitlab上面的项目
热门文章
- [iOS]iOS哪些设备支持蓝牙4.2哪些支持5.0?答案:=iPhone6 ,=iPhone8
- 友盟第三方登录(QQ登录)
- vulnhub - digitalworld.local: MERCY v2 (考点:信息搜集 smb 端口敲门 RIPS tomcat linux 提权)
- 基于PaddleNLP完成 千言情感分析————0.8014分方案
- 微信支持同手机号注册小号了
- C语言百日刷题第十三天
- 程序员诗词大赛开始了_你看过吗?
- 针对“扫雷”游戏,完成详细逆向复现报告
- python txt默认读取字符还是行,python读取中文txt文本的方法
- 李宏毅pm2.5作业【转载】