羿阁 发自 凹非寺
量子位 | 公众号 QbitAI

有没有空间感差的小伙伴,每次拿到乐高说明书都不知如何下手?

这回,可以动的乐高说明书来了!

清华姚班校友、斯坦福大学助理教授吴佳俊,带领团队研发了一项能把纸上的说明书转化为3D动画的技术,目前该论文已入选2022年计算机视觉顶会ECCV。

看完效果图,有网友直呼:这对所有年龄段的乐高爱好者都大有帮助!

3D动画说明书

尽管乐高的说明书都是由专业设计师编写的,但对于想象力差的人,不得不说,还是3D动画更香。

这一步转化看上去容易,其实背后隐藏着两个技术上的难题。

第一个难题是如何将纸上的2D图像投影成3D动画。

研究团队要做的,是将任务分解为一系列可以顺利、高效执行的短步骤,通过建立一个模型,将说明书上的图像转换为机器可解释的算法,以简化机器学习的任务。

正如上图所示,要想把图a转化为图c,需要提取说明书中的每一个零件的图像位置,以便搭建最终的成品。

研究面对的第二个挑战是,乐高积木的形状实在是太多变了。

虽然很多基础配件形状差不多,但就像图中的吉他头一样,乐高也有不少灵活又复杂的配件。而且,这些配件可能产生的不同组合也大大增加了机器解读的难度:每一个搭建步骤都会形成一个新的不可知的图像。

为了解决这两个挑战,研究团队提出了一种新的基于机器学习的框架:手动执行计划网络(manual-To-executable-Plan Network, MEPNet)。

其核心思想是将基于神经网络的二维关键点检测方法与2D-3D匹配算法相结合,实现对不可见的3D对象的高精度预测。

MEPNet的运行有两个阶段。第一阶段要做的,是将基础形状和新零件的3D模型、目标形状的2D图像作为输入信息,为每个零件预测一组2D关键点、旋转角度和掩码。

在第二阶段中,通过寻找基础形状和新零件之间的可能联系,再将第一阶段预测的2D关键点反向投影到3D图像中。

值得一提的是,这个方法在训练时不需要任何ground truth图像。

另外,MEPNet的数据集表现优于其他现有方法。与基于端到端的学习方法相比,MEPNet保持了基于机器学习的模型效率,并可以被更好地推广到生成未知的3D对象上。

最值得注意的是,MEPNet能够利用合成数据进行单独训练,从而应用到真实的生活场景中。

目前,所有代码和数据已开源,感兴趣的小伙伴可以关注一下。

作者介绍

该篇论文来自斯坦福大学吴佳俊团队。作者还包括:Ruocheng Wang、Yunzhi Zhang,麻省理工大学的Jiayuan Mao以及Autodesk AI Lab的Chin-Yi Cheng。

吴佳俊,现任斯坦福大学助理教授,隶属于斯坦福视觉与学习实验室 (SVL)和斯坦福人工智能实验室 (SAIL)。在麻省理工学院完成博士学位,本科毕业于清华大学姚班,曾被誉为“清华十大学神之一”。

论文第一作者Ruocheng Wang,硕士毕业于斯坦福大学计算机科学专业,是吴佳俊门下的学生。本科毕业于浙江大学计算机专业,还在加州大学洛杉矶分校与Adnan Darwiche教授一起工作过一段时间。

One More Thing

虽然整篇论文都在以乐高为例,但作者也在论文中提到,其实这项技术还能应用到其他类型的组装说明书上。

好多“苦安装久矣”的网友就号召赶紧推出宜家版:

不过,在一片欢呼声中,也有网友提出了不同的声音:

我不知道这是惊喜还是毁了我玩乐高的乐趣。

对此,你怎么看?你是喜欢看着说明书拼乐高,还是自己发挥呢?

参考链接:
[1]https://cs.stanford.edu/~rcwang/projects/lego_manual/
[2]https://twitter.com/_akhaliq/status/1552118469214314496
[3]https://arxiv.org/abs/2207.12572
[4]https://jiajunwu.com/

纸质说明书秒变3D动画,斯坦福大学吴佳俊最新研究,入选ECCV 2022相关推荐

  1. #今日论文推荐# 纸质说明书秒变3D动画,斯坦福大学吴佳俊最新研究,入选ECCV 2022

    #今日论文推荐# 纸质说明书秒变3D动画,斯坦福大学吴佳俊最新研究,入选ECCV 2022 有没有空间感差的小伙伴,每次拿到乐高说明书都不知如何下手? 这回,可以动的乐高说明书来了! 清华姚班校友.斯 ...

  2. #今日论文推荐# 文字秒变3D?苹果发布最新AI生成模型GAUDI,根据文字提示创建3D场景

    #今日论文推荐# 文字秒变3D?苹果发布最新AI生成模型GAUDI,根据文字提示创建3D场景 继 AI 将文字变成图片后,又有 AI 可以将文字变成 3D 场景了. 苹果发布新 AI 系统 GAUDI ...

  3. 微信扫描识别少有人知,纸质文件秒变电子档,学习办公的好帮手

    微信扫描识别少有人知,纸质文件秒变电子档,学习办公的好帮手 大家在学习或者办公当中是不是经常有人会遇到无法把纸质文件转换成电子档的困难,当我们拥有着许多纸质的文件时,手动进行电子档输入,就显得很麻烦. ...

  4. 斯坦福大学自然语言处理研究的《信息检索》课程

    斯坦福大学自然语言处理研究的信息检索网上公开课程 课程根据IR界著名的克里斯托弗D.曼宁教授的<Introduction to Information Retrieval>一书讲述,对IR ...

  5. 华为手机摄影入门到精通pdf_原来按下华为手机这个键,马上变身扫描仪,200页纸质稿秒变PDF...

    用了这么久的华为手机,今天才发现它非常好用的扫描功能,纸质文件只需要轻松用手机扫一扫就能秒变电子稿了,以前还傻傻跑去打印店扫描,真的是太傻啦~ 接下来就一起来看看华为手机自带的逆天扫描功能吧! 一.华 ...

  6. 2D秒变3D!视角还能随意切!华为上交提出:CIPS-3D:基于GAN的3D感知生成器

    明敏 发自 凹非寺 来源:量子位(QbitAI) 如果让GAN生成的逼真人像变成3D版,会怎样? 仿佛有摄像机对着人像直拍,正面.侧面.仰视.俯视不同角度都能展现. 真的有种人要从画中走出来那味儿了. ...

  7. 古典人像秒变3D,视角还能随意切,华为上交联手出品

    明敏 发自 凹非寺 量子位 报道 | 公众号 QbitAI 如果让GAN生成的逼真人像变成3D版,会怎样? 仿佛有摄像机对着人像直拍,正面.侧面.仰视.俯视不同角度都能展现. 真的有种人要从画中走出来 ...

  8. MugLife静态照片变3D动画算法研究

    MugLife app是一款可以将静态照片变成3D动画的手机应用,如下效果图所示: 大家可以看到,这个静态图具有了类3D的动画特效,是不是很好玩? 这种算法是如何实现的呢? 这里给出一篇论文" ...

  9. 黑鲨手机计算机科学技术器,手机秒变3D 黑鲨科技与康得新共推裸眼3D神奇“膜”法...

    2018年10月10日,康得新与黑鲨科技就裸眼3D领域合作在北京签署战略协议,黑鲨科技联合创始人.高级副总裁罗语周,康得新智能显示移动运营平台总裁高峻出席了签约仪式. 据了解,中国高分子材料知名企业康 ...

最新文章

  1. Java中long和Long有什么区别
  2. 在项目中代替DevExpress(一)
  3. 线性代数之行列式矩阵术语中英对照
  4. Linux 下修改hosts文件
  5. 分页第一页用0还是1_如何设计api分页
  6. opencv的两个错误
  7. 多数据源处理-苞米豆-dynamic
  8. 斐波那契回调线怎么画_Lionheart万汇:斐波那契回调线,实战使用方法和难点
  9. 朋友很喜欢打篮球,我用Python爬取了1000张他喜欢的NBA球星图片送给他【内附源码】
  10. html api中文文档,Svelte API 中文文档 | Svelte 中文网
  11. 文字处理技术:最小布局
  12. 计算机程序设计类论文,计算机编程论文
  13. 14万字面试题汇总整理,祝你顺利斩获大厂前端offer
  14. 企业级业务架构设计理论与方法
  15. js获取浏览器的宽度和高度
  16. 电阻参数_电阻的基础知识和参数介绍
  17. BUCK电感工作模式
  18. 静止卫星遥感图像太阳及卫星天顶、方位角(SOZ/SOA/SAZ/SAA)计算方法
  19. 如何手动启动MySQL服务器
  20. mysql命令行集锦

热门文章

  1. 推荐几个常用的JS库
  2. JVM jhat命令(分析dump文件)
  3. 查询amazon ec2费用
  4. paddle之LeNet
  5. 深入浅出解析阿里成熟的微前端框架 qiankun 源码
  6. 一文看懂软件定义汽车全产业链
  7. 笔记本电脑如何禁用系统自带键盘
  8. 美国出差返回,所见所闻感悟分享
  9. 对路径 的访问被拒绝
  10. iPhone App开发实战手册