翻译 | 王柯凝
编辑 | 阿司匹林
出品 | 人工智能头条(公众号ID:AI_Thinker)

【人工智能头条导读】近日,Yann LeCun 等人发表了一篇针对未来实例分割预测的论文。该论文提出了一种预测模型,可通过预测卷积特征来对未来实例分割进行预测。该算法有以下几大优势:

  • 可以处理模型输出大小不固定的情况,如对象检测和实例分割;

  • 不需要使用带有标记的视频序列进行训练,可以直接从未标记的数据中计算出中间的 CNN 特征映射图;

  • 支持可生成多个场景解释的模型,如曲面法线、对象边界框和人体部分标签,而不需要针对这些任务设计合适的编码器和损失函数。

以下内容是论文节选,人工智能头条编译:

▌简介

预测未来事件是实现智能行为的一个重要的先决条件,而视频预测就是其中一项任务。最近的研究表明,在对未来帧进行语义分割时,在语义层面上的预测,比先预测 RGB 帧,然后将其分段更加有效。本文考虑了未来实例分割中更具挑战性的一个问题——将单个对象进行细分。为了处理各图像中不同数量的输出标签,我们在 Mask R-CNN 实例分割模型的固定尺寸卷积特征空间中开发了一个预测模型。

我们将 Mask R-CNN 框架的“探测头(detection head)”应用于预测特征,以产生未来帧的实例分割。实验表明,与基于光流(optical flow)的基线相比,该算法在性能上有显著提升。


图 1:预测未来 0.5 秒。 光流基线 (a) 和本文算法 (b) 的实例分割比较。来自文献 [8] 的算法 (c) 和本文的实例语义分割算法 (d) 的语义分割比较。实例建模显着提高了单个行人的分割精度。

我们的贡献如下:

  • 引入未来实例预测这一新任务,在语义上比之前研究的预期识别任务更为丰富。

  • 基于预测未来帧的高维卷积神经网络特征的自监督算法,支持多种预期识别任务。

  • 实验结果表明我们的特征学习算法相对于强光流基线有所改进。

▌预测未来实例分割的特征

本节简要回顾了 Mask R-CNN 框架实例分割框架,然后介绍了如何通过预测未来帧的内部 CNN 特征,将该框架用于预期识别(anticipated recognition)。

使用 Mask R-CNN 进行实例分割

Mask R-CNN 模型主要由三个主要阶段组成。首先,使用一个 CNN 主干框架结构提取高层特征映射图。其次,候选区域生成网络 (RPN) 利用这些特征以包含实例边界框坐标的形式产生兴趣区域(ROI)。候选边界框用作兴趣区域层的输入,通过在每个边界框中插入高级特征,为每个边界框获取固定大小的表示(不管大小)。 将每个兴趣区域的特征输入到检测分支,并产生精确的边界框坐标、类别预测以及用于预测类别的固定二进制掩码。最后,在预测的边界框内将掩码插入到图像分辨率中,并报告为预测类的一个实例分割。

图2 :左,自上而下的特征采样结合相同分辨率吧的自下而上的特征,从而获得的 FPN(feature pyramid network ) 算法主干框架中的特征。右,为了得到未来实例分割,我们从 t-τ 到 t 帧提取 FPN 特征,并预测 t + 1 帧的 FPN 特征。

预测卷积特征

对处于不同 FPN 层级的特征进行训练,并将其作为共享“探测头(detection head)”的输入。然而,由于分辨率在不同层级上会发生改变,每层上的“空间-时间”动态特性也会不同。 因此,我们提出了一种多尺度算法,对每一级采用单独的网络进行预测。每级网络都经过训练,彼此完全独立地工作。对于每一级,我们关注的是特征维度输入序列的特征。

▌实验评估

我们使用的是 Cityscapes 数据集,数据来自于汽车在驾驶过程中录制的城市环境视频,每个视频片段时长 1.8 秒,一共分为 2,975 个训练集,500 个验证集和 1,525 个测试集。

我们使用在 MS-COCO 数据集上预先训练好的的 Mask R-CNN 模型,并在 Cityscapes 数据集上以端到端的形式对其进行微调。

未来实例分割:表1为未来特征预测算法 (F2F) 的实例分割结果,并将其与 Oracle、Copy 和光流基线的性能做比较。由表可知,F2F 算法效果最好,比最佳的中期基线提高了 74% 以上。

表1:Cityscapes val.数据集上实例分割的精确度

未来语义分割:我们发现,F2F 算法在 IoU 方面比所有的短期分割方法都有明显的改进,以61.2 %的成绩排名第一。


表2: 不同算法在 Cityscapes val. 数据集上的移动对象( 8 类)短期和中期语义分割表现。

图4显示,与 Warp 基线相比, F2F 算法能够与对象的实际布局更好地对齐,这表明该算法已经学会了对场景和对象的动态建模,且效果比基线好。如预期所示,预测的掩码也比那些 S2S 算法更加精确。




图4:对三个序列的中期预测(未来 0.5 秒)。

通过图5展示的示例,我们可以更好地理解,为什么在语义分割度量标准方面,F2F 和 Warp 基线之间的差异比实例分割度量标准要小很多。


图5:用 Warp 基线和 F2F 模型获得的中期预测的实例和语义分割。不准确的实例分割会导致精确的语义分割区域,请看图中的橙色矩形高光部分。

▌失败案例讨论

在图6(a) 的第一个例子中,由于前面的所有模型认为白色轿车完全被另一辆车遮挡,因此没有检测到。这是不可避免的一种情况,除非对象在较早的帧中可见,在这种情况下,长期记忆机制可能会避免不必要的错误。

在图 6(b) 中,卡车和行人的预测掩码在形状和位置上都不连贯。用明确建模遮挡机制或许可以获得更一致的预测。

最后,由于对象本身比较模糊,某些运动和形状转换很难得到准确的预测,如图 6(c)中的行人的腿部,对于这种情况,确切的姿势存在高度的不确定性。

论文地址:https://arxiv.org/abs/1803.11496

Yann LeCun等最新研究:如何对未来实例分割进行预测?相关推荐

  1. 2020年AI将会如何发展?吴恩达、周志华、Yann LeCun等大神对2020年 AI 发展趋势的预测的预测...

    点击上方"深度学习技术前沿",选择"星标"公众号 资源干货,第一时间送达 本文选自deeplearning.ai 终于,我们开启了 2020 年的进度条,在新的 ...

  2. 2202年了,AI还是不如猫!图灵奖得主Yann LeCun:3大挑战依然无解

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 来源丨新智元 编辑丨极市平台 导读 2022年了,LeCun依然认为 ...

  3. Yann Lecun 纽约大学Spring2020深度学习课程,附66页PPT下载

    本课程涉及深度学习和表示学习的最新技术,重点是有监督和无监督的深度学习.嵌入方法.度量学习.卷积网和递归网,并应用于计算机视觉.自然语言理解和语音识别. Yann LeCun 在人工智能研究领域,Ya ...

  4. 何恺明、陈鑫磊新研究:提出实例分割新方法,效果比肩Mask R-CNN

    https://www.toutiao.com/a6674769574212141579/ 何恺明大神的团队又有新研究了! 这一次,Facebook的陈鑫磊.何恺明等人,又从全新的角度,再次解决了实例 ...

  5. 毕业设计-基于深度学习的实例分割研究

    目录 前言 课题背景和意义 实现技术思路 一.实例分割研究现状 二.实例分割的特殊应用 实现效果图样例 最后 前言

  6. Yann LeCun:未来几十年AI研究的最大挑战是「预测世界模型」

    来源:机器之心 本文约4000字,建议阅读8分钟 本文为你介绍一种叫做分层 JEPA(联合嵌入预测架构)的架构. LeCun 认为,构造自主 AI 需要预测世界模型,而世界模型必须能够执行多模态预测, ...

  7. 图灵奖获得者Yann LeCun:未来几十年AI研究的最大挑战是「预测世界模型」

    来源:机器之心 LeCun 认为,构造自主 AI 需要预测世界模型,而世界模型必须能够执行多模态预测,对应的解决方案是一种叫做分层 JEPA(联合嵌入预测架构)的架构.该架构可以通过堆叠的方式进行更抽 ...

  8. Yann LeCun最新文章:自监督学习的统一框架

    作者:Yann LeCun.Ishan Misra 编译:梦佳.贾伟 Facebook 今天宣布了一项重大突破: Facebook 的 自监督AI 模型 SEER 能够在没有人类帮助的情况下,从10亿 ...

  9. Yann LeCun 最新发声:自监督+世界模型,让 AI 像人类与一样学习与推理

    来源:AI科技评论 本文约6100字,建议阅读10+分钟 Yann LeCun提倡下一代AI系统将不再依赖于精心标注的数据集. 如何突破当代人工智能(AI)的瓶颈?不同学者存在不同观点. 总体来看可以 ...

最新文章

  1. 「百度@了所有车企」:Apollo自动驾驶商用上岗,欢迎上车
  2. 区块链:新经济蓝图及导读
  3. @Configurattion注解的作用及一些列组合使用
  4. 请别再拿“String s = new String(xyz);创建了多少个String实例”来面试了吧---转
  5. boost::system::system_error相关的测试程序
  6. Blazor University (3)组件 — 创建组件
  7. poj3714 最近点对
  8. Linux内核中流量控制(4)
  9. linux批量配置文件,linux下根据用户输入批量修改配置文件ip
  10. 关闭笔记本电脑计算机键盘,笔记本电脑关闭键盘_笔记本电脑怎么关键盘
  11. 概率图模型——贝叶斯网络
  12. OSx86的来龙去脉
  13. C 语言判断某年是否为闰年该月有多少天
  14. 听YunOS“教父”王坚怎么说
  15. 干货|科技赋能财富硬核直播带货,助力宜信财富逆势增长
  16. H5网易注册页面实战
  17. vmospro启动黑屏_在Mac上从睡眠唤醒中修复黑屏 | MOS86
  18. C/C++日志库-log4cplus(log4j的C++版本)
  19. 02 固定效应模型与Stata实现
  20. RDKit分子的3D结构

热门文章

  1. Windows上安装Nacos
  2. 日期控件判断是否为空
  3. 特斯拉研究报告:产品、工厂、技术、生态展望
  4. 《数据科学家养成手册》傅里叶变换与反傅里叶变换笔记
  5. P1522 牛的旅行
  6. 基于XMPP的IOS聊天客户端程序(XMPP服务器架构)
  7. jquery仿邮箱文本输入框自动加载邮箱后缀
  8. Android库so文件及skia函数的调用
  9. 【青少年编程】【一级】森林的一天
  10. 【ACM】与全排列相关的STL函数 prev_permutation next_permutation