NeurIPS 2022 | 清华提出P2P：基于预训练图像模型的点到像素提示学习方法

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—> CV 微信技术交流群

在这里和大家分享一下我们被NeurIPS 2022录用的点云理解工作"P2P: Tuning Pre-trained Image Models for Point Cloud Analysis with Point-to-Pixel Prompting".

单位：清华大学

项目主页：http://p2p.ivg-research.xyz/

代码仓库：github.com/wangzy22/P2P

论文：arxiv.org/abs/2208.02812

简介：

预训练大模型最近在NLP和Vision领域都发展迅速，成为了深度学习领域的热门研究课题。得益于海量的训练数据和日益增长的模型参数量，预训练大模型的性能提升显著，并在各种下游任务上取得了出色的成绩。将预训练模型迁移到下游任务主要有两种方法，一种是大家常用的fine-tuning，需要对模型的所有参数都进行微调，将预训练模型适用于下游任务；另一种是最近NLP领域研究较多的prompt-tuning方法，通过将下游任务转换为类似于预训练时的任务，仅引入少量可学习参数而保持大部分预训练模型参数不变，实现预训练知识的下游任务迁移。随着下游任务种类日渐丰富，以下游任务为中心的fine-tuning模式需要对不同的下游任务做不同的参数调整，带来了非常大的计算资源消耗；而以预训练大模型为中心的prompt-tuning研究范式能够更好地解耦深度模型的特征提取和任务导向模块这两部分的研究，有助于实现由一个公有的基础模型和若干特异性设计功能模块组成的高效通用人工智能。目前计算机视觉领域针对prompt-tuning的研究还处于起步阶段，如何针对不同下游任务设计有效且轻量化的prompt模块、如何克服视觉任务之间的更为显著的差异性，是未来视觉领域关于通用人工智能研究的重点问题之一。

在三维视觉领域，针对预训练大模型和下游任务迁移的研究仍旧方兴未艾。与二维视觉的大规模训练数据（如包含22k类别，共1500万张图片的ImageNet）相比，三维视觉的数据量更少，数据多样性也更小。因此，我们在这篇论文中提出，将研究更加深入、训练更加充分的二维预训练模型迁移应用到三维点云的研究中，通过将三维点云转换为彩色二维图像的Point-to-Pixel (P2P) Prompting方法，以较少的可学习参数实现二维预训练知识向三维领域的迁移。下图展示了点云经过我们设计的P2P Prompting后生成的图像结果，第一行为输入点云，第二、三行分别为不同角度的彩色投影图像。

图1. P2P Prompting生成的彩色投影图像，左为ModelNet数据集样例，右为ScanObjectNN数据集样例

方法：

我们提出的P2P模型主要分为四个模块：(1)点云几何特征编码器；(2) Point-to-Pixel Prompting模块，用于生成彩色投影图像；(3)预训练图像大模型，包括ViT, ConvNeXt等结构；(4)任务处理head.

图2. P2P模型结构

首先，我们对输入点云进行逐点的特征编码，这一步的目的是为了获取点云中的几何空间信息。我们采用了一个轻量化的DGCNN网络聚合空间邻域特征，对N*3的输入点云数据最终输出N*C的点云特征。

在Point-to-Pixel Prompting模块，我们首先选取角度将N*C的三维点云特征投影为H*W*C的二维图像特征，其中H,W为预定义的图像大小。具体实现方法为，我们将三维点云按照旋转矩阵R旋转一个角度，然后将前两维坐标均匀划分到H*W的像素中，将第三维坐标直接省略以实现维度压缩。在找到从三维点云到二维图像的Point-Pixel对应关系后，我们将投影到同一个像素的点的特征进行加和，得到该像素点的特征。采用“加和”操作的优势主要在于，与“仅取投影表面点”相比，加和操作能够保留所有点的信息；与“取平均”相比，加和操作能够保留局部区域三维点的密度信息。这些三维知识都有助于减轻投影过程带来的维度损失和信息丢失。在得到H*W*C的二维图像特征后，我们设计了一个上色模块，对每个像素预测其RGB颜色。由于二维图像特征是三维点云特征的聚合，因此生成的彩色图像能够一定程度上体现出物体原本的几何信息，例如图1中的“半透明”结果。

在得到彩色投影图像后，我们通过一个预训练的二维图像模型进行特征提取和学习，最后经过一个任务处理head的到不同任务的预测结果。针对预训练二维图像模型，我们保持其绝大部分参数不变，只去优化其normalization层的参数，这是因为彩色投影图像和预训练数据集（如ImageNet）的图像之间还是存在较大的domain gap，因此我们简单通过对normalization层参数的调整更新去缩小这个domain gap.此外，由于整个模型是端到端学习的，因此固定的预训练模型参数也能一定程度上影响前面可学习部分的几何编码器和上色模块，使得生成的彩色投影图像能够更容易地被预训练模型识别理解。

实验结果：

我们在分类问题和分割问题上进行了实验，得出了以下实验结论：

P2P可以充分利用2D预训练知识，具有scale-up特性。我们应用了不同规模的预训练模型设计对比实验，发现同样的预训练模型结构，参数量更多的二维预训练模型能够为P2P带来更好的三维点云分类性能。
P2P在点云分类任务上取得了ModelNet40数据集94.0, ScanObjectNN数据集89.3的性能，取得了ScanObjectNN上的SOTA结果。
P2P也能成功应用到dense prediction类任务中，在ShapeNetPart数据集instance mIoU上取得了超过KPConv的性能。

具体实验结果如下：

由于二维图像领域的预训练大模型往往具有很好的scale-up特性，因此我们也应用了不同规模的预训练大模型来探究P2P的scale-up特性：

2. 我们将P2P的实验结果分别与基于模型结构设计的方法、基于预训练的方法进行了比较，在ScanObjectNN上达到了SOTA的结果，在ModelNet40上也达到了与主流方法相近的结果：

3. 在物体part分割任务上，我们的方法在instance mIoU也超过了主流方法KPConv等，证明了P2P也能成功应用到dense prediction类任务中：

结论：

P2P提出了一种prompt-tuning学习方法，将二维图像预训练模型迁移到三维领域，以很少的可学习参数达到了高性能的结果。更多细节请参考我们的文章与开源代码。

参考文献：

Yue Wang, Yongbin Sun, Ziwei Liu, Sanjay E Sarma, Michael M Bronstein, and Justin M Solomon. Dynamic graph cnn for learning on point clouds. ToG, 2019.
Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. Imagenet: A large-scale hierarchical image database. In CVPR, pages 248–255. Ieee, 2009.
Zhuang Liu, Hanzi Mao, Chao-Yuan Wu, Christoph Feichtenhofer, Trevor Darrell, and Saining Xie. A convnet for the 2020s. arXiv preprint arXiv:2201.03545, 2022.
Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. In ICLR, 2020.
Hugues Thomas, Charles R Qi, Jean-Emmanuel Deschaud, Beatriz Marcotegui, François Goulette, and Leonidas J Guibas. Kpconv: Flexible and deformable convolution for point clouds. In ICCV, 2019.

点击进入—> CV 微信技术交流群

CVPR 2022论文和代码下载

后台回复：CVPR2022，即可下载CVPR 2022论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立
扫描下方二维码，或者添加微信：CVer222，即可添加CVer小助手微信，便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注：研究方向+地点+学校/公司+昵称（如目标检测或者Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群▲扫码或加微信号: CVer222，进交流群
CVer学术交流群（知识星球）来了！想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料，欢迎扫描下方二维码，加入CVer学术交流群，已汇集数千人！▲扫码进群
▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看

NeurIPS 2022 | 清华提出P2P：基于预训练图像模型的点到像素提示学习方法相关推荐

CVPR 2022 | 清华提出Point-BERT: 基于掩码建模的点云自注意力模型预训练
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达作者:于旭敏 | 已授权转载(源:知乎)编辑:CVer https://zhuanlan.zhihu. ...
清华刘知远提出CPT：基于预训练视觉-语言模型的跨模态Prompt-Tuning
每天给你送来NLP技术干货! 论文:CPT:Colorful Prompt Tuning for Pre-Training Vision-Language Models 状态:Work in Prog ...
CPT：刷爆少样本REC任务！清华刘知远团队提出跨模态预训练Prompt Tuning
关注公众号,发现CV技术之美本文分享论文『CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models』,由清华刘知远团队提出 ...
基于预训练语言模型的检索- 匹配式知识图谱问答系统
基于预训练语言模型的检索- 匹配式知识图谱问答系统张鸿志 , 李如寐,王思睿,黄江华美团, 北京市朝阳区 100020 {zhanghongzhi03,lirumei,wangsirui,huan ...
阿里达摩院 | 基于预训练语言模型的行业搜索
作者|谢朋峻阿里巴巴达摩院整理|DataFunTalk 大家好,这里是NewBeeNLP.本文将分享行业搜索的相关技术和应用,主要包括三大部分: 行业搜索的背景相关技术研究行业搜索应用 01 ...
【论文写作分析】之三《基于预训练语言模型的案件要素识别方法》
[1] 参考论文信息论文名称:<基于预训练语言模型的案件要素识别方法> 发布期刊:<中文信息学报> 期刊信息:CSCD 论文写作分析摘要:本文非常典型.首先网 ...
微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法
作者丨张浩宇学校丨国防科技大学计算机学院研究方向丨自然语言生成.知识图谱问答本文解读的是一篇由国防科技大学与微软亚洲研究院共同完成的工作,文中提出一种基于预训练模型的自然语言生成方法. 摘要在 ...
【文本分类】基于预训练语言模型的BERT-CNN多层级专利分类研究
·阅读摘要: 本文利用BERT的预训练数据,结合CNN,应用于专利分类.由于专利的特性,本文还提出使用多层级方法来增强模型.(文章发表在<中文信息学报>,核心期刊) ·参考文献: ...
【NLP】bert4vec：一个基于预训练的句向量生成工具
一个基于预训练的句向量生成工具 bert4vec: https://github.com/zejunwang1/bert4vec 环境 transformers>=4.6.0,<5.0 ...

NeurIPS 2022 | 清华提出P2P：基于预训练图像模型的点到像素提示学习方法

NeurIPS 2022 | 清华提出P2P：基于预训练图像模型的点到像素提示学习方法相关推荐

最新文章

热门文章