背景

论文主要贡献

背景

大规模人工标注的点云数据集由于其不规则性，在三维物体的分类、分割和检测等任务往往是费力的。Self-supervised学习，无需人为标注，是解决该问题的一个非常有前景的方法。在现实世界中，人类能够将从2D图像中学习到的视觉概念映射到3D世界中。受此启发，于是作者提出了CrossPoint，一种简单的跨模态对比学习方法，用于学习可转移的3D点云表示。

论文主要贡献

（1）使用2D-3D数据在自监督学习上做对比学习，有利于网络对点云的特征学习

（2）提出了端到端的自监督学习的目标封装intra-model以及cross-model损失函数，这使得2D图像特征能更好的嵌入到3D特征中，从而有效避免特定增强的偏差。

（3）将CrossPoint广泛应用到各种下游任务中，效果优于原先的无监督学习。

（4）在CIFAR-FS数据集上执行了少镜头的图像分类，以证明从CrossPoint调优预处理后的图像性能优于标准基线。(就是说加了图片对于点云后续任务更好)

网络架构

1. 整体分析

从整体网络架构可以看到，上半部分是3D点云的输入，下半部分是从随机角度拍摄的2D图像输入，分别送入 $f_{\theta _{p}}$ （Point cloud feature extractor）， $f_{\theta _{i}}$ （Image feature extractor），最后就是各自的 $g_{\phi _{p}}$ （Point cloud projection head）， $g_{\phi _{i}}$ （Image projection head），其实就是MLP。

这里上半部分是有两个P输入的，作者称其为augmented versions。其实就是原始3D模型进行随机变换（如旋转，放缩以及平移），这里其实很类似于前文提到的Siamese neural network，两层网络都共享权重，最后得到的Z取两个的平均。

2. 损失函数

这里有两个损失函数，一个是Intra-Modal Correspondence中的 $L_{IMID}$ 以及Cross-Modal Correspondence中的 $L_{CMID}$ （公式如下），作者利用到了NT-Xent损失函数。

其中N是batch-size， $\tau$ 是温度系数，s()是相似性度量函数（这里采用cosine相似度函数，详情点击余弦距离介绍）。目的仍然是为了最大化同一个点云模型不同姿态下以及由该模型渲染出来的2D图像输入的输出相似度，而最小化不同点云模型之间以及非该模型渲染出来的2D图像的输入的输出相似度（同一batch的其它数据）。那么具体怎么做到呢，下面根据公式进行推导。

便于理解，我们不妨把上述公式做一个转换

$L=log(1+\frac{\sum_{k=1}^{2N-1} exp(s(Z_{k}^{t_{1}} ,Z_{k}^{t_{2}})/\tau )}{exp(s(Z_{i}^{t_{1}} ,Z_{i}^{t_{2}})/\tau )})$

为了最小化 $L$ ，需要分母项增大而分子项减小（这里不是很明白为什么求和时两个都是k，按照原本的NT-Xent损失函数，比对的是该输出与batch中2N-2个样本之间的相似度，2N中一个是本身，一个是augmented version）。详情点击Normalized Temperature-scaled Cross Entropy Losss

而且从原文作者描述也能看到

最后总Loss就是两个相加

表现

1. 下游任务

1.1 2D渲染图数量的选择

作者发现，一张图是效果最好的，因此后续实验都选择了一张渲染图片。

1.2 分类任务

1.3 分割任务

1.4 IMID和CMID效果

1.5 在CIFAR-FS上的少镜头分类

后续点云下游任务并未用到image的extractor，而单单把该extractor用来做分类，效果就不太理想了，原文作者说是因为原先使用的是3D点云模型的渲染图做预训练，并不能很好的泛化到CIFAR数据集上导致的（效果差异非常大）。

总结

这篇是在CVPR202203上的文章，还是非常新的深度学习点云学习，个人觉得亮点是引入了self-supervised learning中的contrastive learning做pretrain，值得一读，上述全为本人论文阅读笔记，如有不对请评论区指出。

参考

[1]. Learning from 2D: Contrastive Pixel-to-Point Knowledge Transfer for 3D Pretraining

[2]. Self-Supervised Learning 入门介绍

[3]. 对比式无监督预训练简介（Contrastive Pre-training）

[4]. Siamese network 孪生神经网络--一个简单神奇的结构

[5]. contrastive loss 详解

[6]. Normalized Temperature-scaled Cross Entropy Loss

[7]. 余弦距离介绍

[8].CrossPoint

浅读CVPR2022-CrossPoint相关推荐

浅读《视觉SLAM十四讲：从理论到实践》--操作1--初识SLAM
浅读<视觉SLAM十四讲:从理论到实践>--操作1--初识SLAM 下载<视觉SLAM十四讲:从理论到实践>源码:https://github.com/gaoxiang12/s ...
Redux源码全篇浅读
本文是关于 redux(3.7.2)源代码的一些浅读在redux源码目录中 ,可以看到以下文件目录: |-- utils/|-- warning.js //打印error |-- 1. applyM ...
机器学习论文源代码浅读：Autoformer
原本想要和之前一样写作"代码复现",然而由于本人一开始对于Autoformer能力理解有限,参考了一定的论文中的源代码,写着写着就发现自己的代码是"加了注释版本" ...
浅读《解密社群粉丝经济学》几点观点
浅读<解密社群粉丝经济学>几点观点为什么会形成社群?因为在消费者主权时代,随时随地互联的移动互联网时代,每一个既弱小又能自主的个体,在信息过度的时空里,必然自发的基于某种机缘.兴趣和价值 ...
浅读西瓜书（第四章）
浅读西瓜书(第四章) 4.1基本流程决策树,顾名思义,肯定与做决策有关.实际上决策树既可以做决策也可以做回归.在我们生活中其实也经常用到决策树的模型.比如猜数字的游戏.给出一个数字,猜想者猜测一 ...
浅读《简约之美-软件设计之道》
浅读<简约之美-软件设计之道> 大家好,我是Lampard~ 这个周末阅读了一本程序设计相关的书籍<简约之美-软件设计之道>,它原著是<The Scien ...
SQL Server锁机制浅读
SQL SERVER 锁机制浅读内容为本人根据当前正在读的<SQL Server性能调优实战>(陈畅亮吴一晴著机械工业出版社)和前辈分享的PPT,通读后的总结与汇总. 序锁及事务 ...
Flask | 浅读文档，快速出发
最近在读一篇文档,作者是一位使用多种语言开发复杂程序并且拥有十多年经验的软件工程师,曾经用 PHP, Ruby, Smalltalk 甚至 C++ 写过 web 应用,他认为,在所有这些中,Pytho ...
Object Detection︱RCNN、faster-RCNN框架的浅读与延伸内容笔记
一.RCNN,fast-RCNN.faster-RCNN进化史本节由CDA深度学习课堂,唐宇迪老师教课,非常感谢唐老师课程中的论文解读,很有帮助. . 1.Selective search 如何寻找 ...

浅读CVPR2022-CrossPoint

背景

论文主要贡献

相关工作

1. 点云的表征学习

2. 点云上的自监督学习

3. Cross-Modal Learning

网络架构

1. 整体分析

2. 损失函数

表现

1. 下游任务

1.1 2D渲染图数量的选择

1.2 分类任务

1.3 分割任务

1.4 IMID和CMID效果

1.5 在CIFAR-FS上的少镜头分类

总结

参考

浅读CVPR2022-CrossPoint相关推荐

最新文章

热门文章