CVPR最佳作者新作！无监督学习可变形3D对象

点上方计算机视觉联盟获取更多干货

仅作学术分享，不代表本公众号立场，侵权联系删除

转载于：机器之心

AI博士笔记系列推荐

周志华《机器学习》手推笔记正式开源！可打印版本附pdf下载链接

在 CVPR 2020 最佳论文中，牛津大学 VGG 团队的博士生吴尚哲（Shangzhe Wu）等人提出了一种基于原始单目图像学习 3D 可变形对象类别的方法，且无需外部监督。近日，该团队又提出了通过单目视频的时间对应关系来学习可变形 3D 对象，并且可用于野外环境。

从 2D 图像中学习 3D 可变形对象是一个极其困难的问题，传统方法依赖于显式监督，如关键点和模板。但是，当这些对象不在实验室等可控环境中时，传统方法会限制它们的适用性。

有没有可以改进之处呢？近日，牛津大学 VGG 团队的研究者提出了一种全新方法 DOVE（Deformable Objects from Videos），该方法可以在没有显式关键点或模板形状的情况下高效地学习可变形 3D 对象。具体来讲，DOVE 方法基于自然地提供跨时间对应关系的单目视频（monocular video），并且可以应用于「野外」环境。

论文地址：https://arxiv.org/pdf/2107.10844.pdf
论文主页：https://dove3d.github.io/

DOVE 方法仅使用鸟类的 2D 图像即可预测 3D 标准形状、变形、视点和纹理，因而能够更容易地绘制鸟类动作的动画或操控它们的透视图。研究者提供了一些交互演示动画：

长期以来对象的动态 3D 重建一直是科学家与工程师的目标。现在，DOVE 方法通过其他视频中相机不同角度拍摄的不同视图之间的对应关系，即可从一个视频片段中自动重建一个对象的形状。想象一下，如果几分钟的镜头显示两只鸟停在树上，相机的所有镜头都是静止的。这时这些信息作为输入数据输入到模型中，该模型将具有足够的预测性，能够逐帧模拟下一步会发生些什么，而无需任何额外的训练或指令。

不同于现有方法的是，DOVE 方法不需要关键点、视点或模板形状等显式监督，仅依赖视频中固有的时态信息即可学习更多关于对象的几何形状。

DOVE 方法也能够高效地创建和绘制对象 3D 表示的动画。DOVE 算法甚至可以在没有关键点或模板形状的情况下从 YouTube 视频中学习。在给定目标检测和光流预处理模型的正确数据时，该系统可以比以前更快地进行训练。

方法介绍

该研究的目标是从视频剪辑集合中学习可变形对象类别的 3D 形状。具体来说，给定一个用固定相机捕获的对象短视频剪辑数据集，以此来训练一个重建模型，该模型将对象的单个图像作为输入，并预测其 3D 形状、纹理和 articulated 3D 姿态。下图 2 为训练 pipeline。

图片 - 几何自动编码

重建模型输入来自视频序列的单帧 I ∈ R ^3×H×W，使用三个网络（分别为 f_S、f_T 和 f_P）预测对象的 articulated 3D 形状、纹理和刚性姿态。然后重新组合这些信息以生成（渲染）对象的图像，可以将其与输入视频帧进行比较以进行监督。

形状由具有固定连接性和可变顶点位置 V ∈ R^3×K 的三角网格给出。该研究分两步获取 V ，来区分特定于实例的形状变化和特定于帧的关节。

Articulated 形状模型

第一步是在规范的「静止姿态」中重建一个特定视频对象实例的形状 V_ins。这解释了不同的对象实例（例如不同的鸟）具有相似但不同形状的事实。形状由下式给出：

其中，V_cat 是可学习的特定类模板， ∆V_ins 为特定于实例的形状变化。

从视频中学习

该研究的目标是从视频序列集合中学习重建模型，其中每个序列 S_i 包含帧

，其中，i 为序列索引，t 为帧索引（时间）。这些序列是通过使用实例分割技术 Mask R-CNN 对视频进行预处理获得的。

实验结果

数据集包括大量的鸟类短视频片段，这些视频片段来自 YouTube。Mask R-CNN 用来检测和分割鸟类实例，之后视频被自动分割成片段，每个片段包含一只鸟，图片大小调整为 128 × 128 用于训练。

下图 3 为单帧重建结果，注意在推理过程中不在需要视频。该研究不需要显示 3D、视点或者关键点信息进行监督，仅从单目训练视频中重建准确的 3D 形状。

该研究还与 SOTA 模型进行了比较，模型包括 CMR、U-CMR、UMR、VMR，结果如表 2 所示，由结果可得，该研究提出的模型实现了更好的形状重建和时间一致性。

下图 4 展示了不同方法之间的定性比较。在以往的方法中，CMR 方法生成了最具鲁棒的重建结果，这得益于它依赖关键点监督，但对于一些挑战性的姿态依然表现不佳，如主视图等。DOVE 在没有使用关键点或模板监督的情况下重建了准确的形状和姿态。并且与其他方法相比，该方法获得的重建结果具有更高的时序一致性。需要注意，研究者的模型是在 128 × 128 图像上训练的，其他方法在 256 × 256 图像上训练（除了 U-CMR），并且从输入图像中采样纹理，因此纹理质量存在差异。

-------------------

END

--------------------

我是王博Kings，985AI博士，华为云专家、CSDN博客专家（人工智能领域优质作者）。单个AI开源项目现在已经获得了2100+标星。现在在做AI相关内容，欢迎一起交流学习、生活各方面的问题，一起加油进步！

我们微信交流群涵盖以下方向（但并不局限于以下内容）：人工智能，计算机视觉，自然语言处理，目标检测，语义分割，自动驾驶，GAN，强化学习，SLAM，人脸检测，最新算法，最新论文，OpenCV，TensorFlow，PyTorch，开源框架，学习方法...

这是我的私人微信，位置有限，一起进步！

王博的公众号，欢迎关注，干货多多

王博Kings的系列手推笔记（附高清PDF下载）：

博士笔记 | 周志华《机器学习》手推笔记第一章思维导图

博士笔记 | 周志华《机器学习》手推笔记第二章“模型评估与选择”

博士笔记 | 周志华《机器学习》手推笔记第三章“线性模型”

博士笔记 | 周志华《机器学习》手推笔记第四章“决策树”

博士笔记 | 周志华《机器学习》手推笔记第五章“神经网络”

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机（上）

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机（下）

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类（上）

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类（下）

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习（上）

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习（下）

博士笔记 | 周志华《机器学习》手推笔记第九章聚类

博士笔记 | 周志华《机器学习》手推笔记第十章降维与度量学习

博士笔记 | 周志华《机器学习》手推笔记第十一章稀疏学习

博士笔记 | 周志华《机器学习》手推笔记第十二章计算学习理论

博士笔记 | 周志华《机器学习》手推笔记第十三章半监督学习

博士笔记 | 周志华《机器学习》手推笔记第十四章概率图模型

点分享

点收藏

点点赞

点在看

CVPR最佳作者新作！无监督学习可变形3D对象相关推荐

CVPR 2022｜MLP才是无监督学习比监督学习迁移性能好的关键因素
©作者 | 王逸舟单位 | 浙江大学研究方向 | 计算机视觉,无监督学习在这里和大家分享一下我们被 CVPR 2022 录用的工作"Revisiting the Transferabi ...
CVPR2019| 百度17篇CVPR论文学习记录（包含：无人驾驶、神经网络、GAN、无监督学习、目标检测）
首先感谢现在网上资源丰富,能够获得很多人的总结,结合自身实际进行了学习记录. 并着重标注了其中关键核心目录 1)Taking A Closer Look at Domain Shift: Categ ...
CVPR 2022 | MLP才是无监督学习比监督学习迁移性能好的关键因素
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达作者:王逸舟 | 已授权转载(源:知乎)编辑:CVer https://zhuanlan.zhihu. ...
无监督学习距离监督学习还有多远？Hinton组新作解读
本文原载于知乎,已获作者授权转载,请勿二次转载. https://zhuanlan.zhihu.com/p/107126866 最近一段时间,学术界对无监督学习的研究和关注越来越多.在ImageNet ...
2000 ~2019 年历届 CVPR 最佳论文汇总
原文链接:http://bbs.cvmart.net/topics/665/CVPR-Best-Paper 本文汇总了从 2000 ~ 2019年历届 CVPR 会议最佳论文,附上作者和论文链接(论文 ...
CVPR2020最佳论文下载、解读历届（2000～2020） CVPR 最佳论文汇总
本文汇总了从 2000 ~ 2020年历届CVPR 会议最佳论文 ,附上作者和论文链接(论文题目含超链),部分含论文解读和代码.文末有最佳论文合集的下载链接~ 值得注意的是:香港中文大学汤晓鸥教授. ...
“后浪95后”吴尚哲的 CVPR 最佳论文：无需任何监督，即可重建三维图像
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达我有一张二维照片,能让它变成三维图像么?可以,当前的一些3D电影相册工具,给图片加一个相框也能形成动态 ...
入围CVPR最佳论文，这项AI基础研究让我们对虎牙刮目相看
晓查发自凹非寺量子位报道 | 公众号 QbitAI AI正在变革视频行业,玩法越来越丰富. 近年来,越来越多的AI技术开始应用到视频网站中: 从简单的图像和行为识别,可以像文字搜索一样搜索图 ...
vb.net 图片水平翻转_太牛了！98 年后浪科学家，首次挑战图片翻转不变性假设，一作拿下 CVPR 最佳论文提名...
出品 | AI科技大本营(ID:rgznai100)刚刚结束的CVPR大会,总共收到6424篇论文中,仅有26篇获得最佳论文提名,占0.4%的比例.其中,康奈尔大学大四学生林之秋,以第一作者身份提交的 ...

CVPR最佳作者新作！无监督学习可变形3D对象

CVPR最佳作者新作！无监督学习可变形3D对象相关推荐

最新文章

热门文章