点击上方“视学算法”,选择加"星标"或“置顶

重磅干货,第一时间送达

丰色 发自 凹非寺
量子位 报道 | 公众号 QbitAI

只需第一帧图像+边界提示,就能将视频中各物体“抠”出来并进行轨迹跟踪

以上就是谷歌的最新研究成果。

该方法通过在视频中引入注意力机制,成功地解决此前采用了无监督学习的多目标分割和跟踪方法的一些不足。

现在的它,不仅可以泛化到更多样、视觉上更复杂的视频中,还能处理更长的视频序列。

通过实验还发现,相比此前的模型,谷歌这个新方法在MOVi数据集上的mIoU直接提高了近30%

为“动态抠图”引入注意力机制

方法被命名为SAVi(Slot Attention for Video)。

而此前的无监督目标分割和跟踪方法最大的问题,就是只能应用到非常简单的视频上。

为了处理视觉效果更复杂的视频,SAVi采用弱监督学习

(1)以光流(optical flow)预测为训练目标,并引入注意力机制;

(2)在第一帧图像上给出初始提示(一般是框出待分割物体,或者给出物体上单个点的坐标),进行分割指导。

具体来说,受到常微分方程的“预测-校正器”方法的启发,SAVi对每个可见的视频帧执行预测和校正步骤。

为了描述视频物体随时间变化的状态,包括与其它物体的交互,SAVi在进行光流预测时在slot之间使用自注意力

slot就是指视频中各物体,用不同颜色区分。

校正阶段,带有输入的slot-normalized交叉注意用于校正(更新)slot表示集。

然后预测器的输出根据时间来初始化矫正器,使模型最终能够以一致的方式随时间跟踪物体。

 SAVi模型架构图

在训练中,每个视频被分成六个6帧子序列,第一帧接收提示信号,每帧两轮slot注意力。

在完全无监督视频分割中,研究人员以64的batch size训练了十万步。

没有提示,也能进行简单视频的分割和跟踪

在CATER数据集上,测试表明,SAVi架构完全适用于无监督的物体表示学习。

在光流条件监督的情况下,SAVi在MOVi数据集上获得72.1%的mIoU,比基线模型CRW和T-VOS分别高了近30%和近20%

SAVi在MOVi++数据集上的mIoU得分为45.9%,比T-VOS略高一点,比CRW低了5%。

另外,还可以看到,在第一帧图像上给出质心形式的提示效果会比边界框好一点,但区别不大。

值得注意的是,即使没有任何提示,该方法也能分割一些具有简单纹理的动态场景,比如在数据集Sketchy上。

不过,在将SAVi完全用于现实世界里的复杂视频时,还有一些挑战需克服:

1、所采用的训练方法假设在训练时光流信息是可用的,而在真实视频中,这不一样有;

2、研究中所涉及的都是一些简单物体的基本运动,现实远比这个复杂

最后,作者表示,SAVi在分割和跟踪方面仍然表现出色,在第一帧给出提示信息的做法也可能会衍生出各种相关的半监督方法。

论文地址:
https://arxiv.org/abs.2111.12594

参考链接:
[1]https://slot-attention-video.github.io/(代码即将开源)
[2]https://www.marktechpost.com/2021/11/28/google-research-open-sources-savi-an-object-centric-architecture-that-extends-the-slot-attention-mechanism-to-videos/

点个在看 paper不断!

注入Attention,精度涨30%!谷歌发表最新多目标“动态抠图”模型相关推荐

  1. 《预训练周刊》第27期:谷歌发布最新看图说话模型、GitHub:平台上30%的新代码受益于AI助手Copilot...

    No.27 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 本期周刊,我们选择了9篇预训练相关的论文,涉及少样本理解.图像检测.决策图.大模型微调.对话微调.分子建模.蛋白质结构预测 ...

  2. 中国科学院、东南大学等联合发表最新的视觉 Transformer 综述

    作者丨闪闪红星闪闪@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p/433048484 编辑丨极市平台 导读 中国科学院.东南大学等单位联合发表最新的视觉 Transf ...

  3. 识别迷雾中的物体,谷歌提出最新目标检测算法Context R-CNN

    晓查 发自 凹非寺  量子位 报道 | 公众号 QbitAI 你能从下面的照片里看到什么吗? 呃,看起来像清晨的浓雾,但浓雾后面是什么,真的看不清楚.其实这是一群牛羚在山上行走. 虽然人眼已经无能为力 ...

  4. 25个视频神同步,还能给视频声音移花接木,谷歌开源最新自监督算法

    晓查 发自 凹非寺 量子位 出品 | 公众号 QbitAI 对于AI来说,识别视频里发生了什么已经不是难事,训练它的方法就是用带有标签的视频数据集进行监督学习. 比如我们给AI看带有"棒球& ...

  5. 疲劳驾驶样本集_谷歌AI最新3D数据集,1.5万张动图,让AR主宰你的生活

    萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 见过3D物体数据集,见过会动的3D物体数据集吗? 每段动态视频都以目标为中心拍摄,不仅自带标注整体的边界框,每个视频还附带相机位姿和稀疏点云 ...

  6. 谷歌X最新开源任务驱动的类级别机器人抓取CaTGrasp!

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨bowen 来源丨计算机视觉life 大家好,今天给大家介绍谷歌X最新开源任务驱动的类级别机器人 ...

  7. Google Play所有上架应用需缴纳30%谷歌税

    Google Play跟风苹果商店,也准备收取30%谷歌税,2021年11日后Google Play所有上架应用必须使用谷歌支付系统,应用内产生购买,必须给谷歌缴纳30谷歌税,不交分成直接下架! 了解 ...

  8. 谷歌AI最新3D数据集,1.5万张动图,让AR主宰你的生活

    谷歌AI最新3D数据集,1.5万张动图,让AR主宰你的生活 这是谷歌的开源3D物体数据集Objectron,包含15000份短视频样本,以及从五个大洲.十个国家里收集来的400多万张带注释的图像. 作 ...

  9. 谷歌AI论文BERT双向编码器表征模型:机器阅读理解NLP基准11种最优(公号回复“谷歌BERT论文”下载彩标PDF论文)

    谷歌AI论文BERT双向编码器表征模型:机器阅读理解NLP基准11种最优(公号回复"谷歌BERT论文"下载彩标PDF论文) 原创: 秦陇纪 数据简化DataSimp 今天 数据简化 ...

最新文章

  1. PIE SDK图层树伙伴控件示例
  2. 独家:Havok 发布新的 AI 中间件
  3. Java核心类库篇5——异常
  4. Python开发工程师常见的面试题及答案分享,记得收藏哈!
  5. 数字类 default 0和 default 0_04Optional类和接口中的default、static方法
  6. iOS模型输出和打印
  7. 边缘设备上的实时AI人员检测:使用预先训练的SSD模型检测人员
  8. 什么是立即执行函数,有什么作用?
  9. php word 简历模板,php程序员简历模板
  10. html文件中flash视频格式(flv、swf)文件的嵌入方法
  11. mysql实验四数据库查询和视图_数据库实验四答案
  12. caffe学习之conver_imageset.bin的使用方法,caffe下图片转lmdb格式类型数据总结
  13. 纯css实现正方体图片旋转效果
  14. javamail发送SSL---------Unrecognized SSL message, plaintext connection
  15. Linux复习题:2判断题
  16. Quartus II开发软件中的宏模块 (转摘)
  17. 求整数的位数及各位数字之和
  18. 2005年中兴软件校园招聘笔试题
  19. Java字节码技术(二)字节码增强之ASM、JavaAssist、Agent、Instrumentation
  20. 【51单片机】点阵LED的显示实验

热门文章

  1. LSGO软件技术团队招新
  2. 【通俗理解线性代数】 -- 理解二次型
  3. 没有提示_华为手机发出莫名的提示音,打开什么也没有?原来是它们在作怪
  4. 31个好用的 Python 字符串方法,建议收藏!
  5. 腾讯千帆战略升级,推出企业应用连接器
  6. 终于有人把Python讲清楚了!
  7. @所有技术社区,年度”社区之星“开选,快来盘点各家技术大佬
  8. 想学新的编程语言?考虑下Go吧
  9. 《评人工智能如何走向新阶段》后记(再续3)
  10. 行人被遮挡问题怎么破?百度提出PGFA新方法,发布Occluded-DukeMTMC大型数据集 | ICCV 2019...