点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—> CV 微信技术交流群

转载自:机器之心

来自华南理工大学、香港理工大学、跨维智能、鹏城实验室等机构的研究团队提出了一种基于文本驱动的三维模型风格化方法,该方法可对输入的三维模型根据文本进行更具真实性和鲁棒性的风格化。

根据给定输入创建 3D 内容(例如,根据文本提示、图像或 3D 形状)在计算机视觉和图形领域具有重要应用。然而这个问题是具有挑战性的,现实中通常需要专业艺术家(Technical Artist)耗费大量的时间成本去创作 3D 内容。同时,许多网上的三维模型库中的资源通常是没有任何材质的裸露三维模型,要想将他们应用到现阶段的渲染引擎中,需要 Technical Artist 为它们创作高质量的材质,灯光和法向贴图。因此,如果有办法可以实现自动化、多样化和逼真的三维模型资产生成,将是很有前景的。

因此,华南理工大学、香港理工大学、跨维智能、鹏城实验室等机构的研究团队提出了一种基于文本驱动的三维模型风格化方法——TANGO,该方法对于给定的三维模型和文本,可以自动生成更具有真实性的 SVBRDF 材质,法向贴图和灯光,并且对低质量三维模型有更好的鲁棒性。该研究已被 NeurIPS 2022 接收。

项目主页:https://cyw-3d.github.io/tango/

模型效果

对于给定的文本输入和三维模型,TANGO 可以产生精细程度较高的具有照片级真实感的细节,并且不会在三维模型表面产生自交问题。如下图 1 所示, TANGO 不仅在光滑的材料(如金,银等材质)上呈现出了逼真的反射效果,而且对于不平整的材质(例如砖块等)也能通过逐点法线的估计渲染出凹凸不平的效果。

图 1. TANGO 的风格化结果

TANGO 能够生成真实渲染结果的关键在于能够精准地把着色模型中的每一个部件(SVBRDF,法向贴图,灯光)拆分开,并分别学习,最后这些拆分的部件再通过球高斯可微分渲染器输出图片,并送到 CLIP 中和输入文本计算 loss。为了展现解耦部件的合理性,该研究对每个部件都进行了可视化。图 2 (a)展示了 “一双砖块做成的鞋子” 的风格化结果,(b)展示了三维模型原本的法向,(c)是 TANGO 对三维模型上每个点预测的法向,(d)(e)(f)分别表示 SVBRDF 中的漫反射,粗糙度和镜面反射参数,(g)是 TANGO预测的用球高斯函数表达的环境光。

图 2 解耦的渲染部件可视化

同时,该研究也可以对 TANGO 输出的结果进行编辑。例如在图 3 中,该研究可以换用其他的光照贴图对 TANGO 的结果进行重新打光;在图 4 中,可以对粗糙度和镜面反射度参数进行编辑,实现对物体表面反射程度的改变。

图 3 对 TANGO 风格化结果进行重新打光

图 4 对物体材质进行编辑

另外,由于 TANGO 采用预测法向贴图的方式增添物体表面细节,因此对于顶点数较少的三维模型也有很好的鲁棒性。如图 5 所示,原始的 lamp 和 alien 模型分别有 41160 和 68430 个面,研究人员对原始模型进行了降采样,得到了只有 5000 个面的模型。可以看到 TANGO 在原始模型和降采样模型上的表现基本相似,而 Text2Mesh 则在低质量的模型上出现了较为严重的自交现象。

图 5 鲁棒性测试

原理方法

TANGO 主要关注于由文本指导三维物体风格化的方法。这一领域目前最相关的工作是 Text2Mesh,它使用了预训练模型 CLIP 作为指导,预测三维模型表面顶点的颜色和位置偏移,从而实现风格化。然而简单地预测表面顶点颜色通常会产生不真实的渲染效果,且不规则的顶点偏移会造成很严重的自交。因此,该研究借鉴传统的基于物理的渲染管线,将整个渲染过程解耦为 SVBRDF 材质,法向贴图和灯光的预测过程,并分别用球高斯函数表达解耦的元素。这种基于物理的解耦方式使得 TANGO 可以正确产生具有真实感的渲染效果,并具有很好的鲁棒性。

图 6 TANGO 流程图

图 6 展示了 TANGO 的工作流程。给定一个三维模型和文本(例如图中的“一个金子做成的鞋”),该研究先把这个三维模型缩放到一个单位球内,接着在三维模型的附近采样相机位置,在这个相机位置发射射线找到与三维模型的交点 xp 和该交点的法线方向 np。接下来,xp 和 np 会被送入SVBRDF网络和 Normal 网络中,预测该点的材质参数和法线方向,同时,用多个球高斯函数来表达场景中的光照。对于每一次训练迭代,该研究使用可微分的球高斯渲染器渲染图像,然后使用 CLIP 模型的图像编码器对增强图像进行编码,最后 CLIP 模型反向传播梯度更新所有可学习的参数。

总结

本文提出了 TANGO,一种根据输入文本对三维模型生成逼真外观风格,对低质量模型具有鲁棒性的新方法。通过将外观风格解耦 SVBRDF,局部几何变化(逐点法向)和光照条件,并将这些用球高斯函数表示并渲染,能够用 CLIP 作为 loss 监督并进行学习。

与现有方法相比,即使对于低质量的三维模型,TANGO 也可以具有很好的鲁棒性。然而,逐点法向提供几何细节的方式在避免产生自交的同时,也会使得能表达的材质表面凹凸程度略微降低,该研究认为 TANGO 和基于顶点偏移的 Text2Mesh 在各自的方向上都进行了很好的初步尝试,会启发更多的后续研究。

点击进入—> CV 微信技术交流群

CVPR/ECCV 2022论文和代码下载

后台回复:CVPR2022,即可下载CVPR 2022论文和代码开源的论文合集

后台回复:ECCV2022,即可下载CVPR 2022论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲扫码或加微信号: CVer222,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!▲扫码进群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看

NeurIPS 2022 | 一句话让3D模型生成逼真外观风格!精细到照片级细节!相关推荐

  1. NeurIPS 2022 | CATER:针对模型窃取的版权保护之选择性水印

    ©PaperWeekly 原创 · 作者 | 何玄黎 单位 | 伦敦大学学院(UCL) 研究方向 | 自然语言处理 论文标题: CATER: Intellectual Property Protect ...

  2. 3D模型欣赏:战斗风格美女【3D游戏建模教程】

    作者YeongJin Jeon的作品,机器人,局长. 文章推荐阅读 [ 学习企鹅圈:1072172722 ] : 3d建模什么水平能找到工作?次世代游戏建模需要学多久 3D建模师薪资怎么样? 室内设计 ...

  3. 3D卷积GAN飞起!微软“可缩放”新框架只需2D数据即可生成逼真3D模型

    点击我爱计算机视觉标星,更快获取CVML新技术 本文转载自新智元.   新智元报道   来源:VB 编辑:元子 [新智元导读]Microsoft Research近日发表论文介绍了一种通过2D数据生成 ...

  4. Unfolder for mac(3D模型展开工具)

    Unfolder for mac版是Mac平台上的一款3D模型展开工具,Unfolder Mac可以导入3D模型,然后软件就会根据自己的算法或者通过你的单击2D视图或3D视图中的边缘轻松地拆分和接合面 ...

  5. 英伟达 Magic3D:一句话生成3D模型,分辨率清晰8倍,速度快2倍,编辑文本还可直接修改...

    丰色 发自 凹非寺  量子位 | 公众号 QbitAI 一句话生成3D模型,英伟达也来"秀肌肉"了- 来看它最新捣鼓出的Magic3D AI,效果是这样儿的. 输入"坐在 ...

  6. NeurIPS 2022|UIUC联合哥伦比亚大学提出VidIL模型,通吃小样本视觉语言任务

    原文链接:https://www.techbeat.net/article-info?id=4205 作者:seven_ 近来,视觉语言模型(video-language models)已经成为多模态 ...

  7. AI画师技术又精进了? AI画师三维版试玩——Dreamfields和DreamFusion向文本生成3D模型领域进发

    0.AI画师二维版的出圈 最近AI画师的杰出表现让人惊讶无比,2022虽然不是ai绘图这项技术诞生的时间,但却是到目前为止最爆火出圈的绘图元年,现在市场上也已经有了很多成熟的AI绘画APP:用户仅需打 ...

  8. 3D模型“换皮肤”有多简单?也就一句话的事

    丰色 发自 凹非寺 量子位 报道 | 公众号 QbitAI 给灰突突的3D模型加"新皮肤",这事儿能有多简单? 现在,只需要一句话就能搞定. 看! 一个普通小台灯,给个" ...

  9. 数据不够,Waymo用GAN来凑:生成逼真相机图像,在仿真环境中训练无人车模型...

    鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 疫情当下,Waymo等自动驾驶厂商暂时不能在现实世界的公共道路上进行训练.测试了. 不过,工程师们还可以在GTA,啊不,在仿真环境里接着跑车 ...

最新文章

  1. 第十六届全国大学智能车竞赛东北赛区报名信息统计
  2. OpenMP在Windows下用VS使用
  3. SQL Server : 禁止在SQL Server中生成用户实例
  4. Open XML格式化Excel数值
  5. 00后大学生调研四五线城镇商户:91%用上移动支付
  6. 查看详细_教师资格准考证开始打印!点击查看详细流程!
  7. c++ primer 6.5.1节练习答案
  8. 服务器上系统怎么启动iis,IIS服务器如何重新启动
  9. 岗位、职位、职级、职务的区别
  10. 聚是一团火散作满天星,前端Vue.js+elementUI结合后端FastAPI实现大文件分片上传
  11. 关于python的经典书籍推荐_5本Python经典书籍推荐,你都读过吗?
  12. Gambler's Ruin(赌徒破产问题 概率论)
  13. 无线通信系统中的一些基本概念
  14. Ubuntu kylin共享文件夹创建(极简)VM VirtualBox
  15. 多线程进阶=》JUC并发编程02
  16. 破解企业数字化增长困境的四大利刃
  17. 实时系统和分时系统的区别
  18. STM32的USB例程JoyStickMouse改成自定义HID设备
  19. STM32第七课(TIM,HAL)
  20. 机器数的三种表示形式---原码、补码、反码和移码

热门文章

  1. BIM-建筑信息模型
  2. 有哪些手机拍照扫描软件?向你分享这3个
  3. 【分享】ppt-数据安全治理实践指南 (2.0)
  4. Telink BLE 开发环境搭建
  5. 深入浅出Python量化交易实战--笔记01
  6. 二维平面内两直线交点计算
  7. IPV6服务器地址列表
  8. 基于EQ36软件的地球化学反应过程模拟实践
  9. Organ at Risk Segmentation for Head and Neck Cancer using Stratified Learning and Neural Architecture
  10. 被捧上天的Scrum敏捷管理为何不受大厂欢迎了?