来源:量子位

从汽车动力学“转行”智能视觉感知,3年斩获2篇CVPR论文。

其中一篇,还是今年CVPR论文的最佳学生论文奖。

奖项颁了二十多届,今年第一次颁给来自中国高校的学生一作,打败了哈佛大学博士生&谷歌的另一篇论文研究。

这是同济大学在读二年级硕士、阿里达摩院实习生陈涵晟的真实经历。

转方向前,他对汽车动力学同样兴趣十足,曾经加入过赛车队,主导空气动力学开发,最终团队在大学生国际赛事上获了奖;

读研第一年,论文就入选了CVPR,但却因为理论不够充分,转而继续深入研究,才有了今年这篇最佳学生论文奖。

在与陈涵晟同学的交流中,我们了解了更多关于他的故事。

本科第五年才转型自动驾驶

陈涵晟就读的同济汽车学院,本科是五年制。

一入学他就参加了同济翼驰车队。这是一个上百人组成的学生社团,在学校、学院和赞助商支持下,每年都会设计、制造赛车并参加国内和国际比赛。

在车队里陈涵晟负责的是空气动力学开发,主要涉及仿真计算、曲面建模等技术。

他渐渐成为车队的骨干,还助力团队在2018年的日本大学生方程式赛车上拿了最佳空气动力学奖。

其实汽车和计算机都是陈涵晟从小开始就有的爱好,他表示自己也搞不清楚更喜欢哪个,另外数学也是他一直感兴趣的学科。

高考后他也曾考虑过计算机专业,不过最终还是选择了汽车。

到毕业那年,他看到一个把这些爱好更紧密结合起来的新道路。

智能汽车、自动驾驶的大潮来了。

当时,同济刚成立不久的智能汽车研究所也在招生,他的毕业设计就选择了自动驾驶方向。

有机遇,就想尝试一下新东西。

陈涵晟加入了熊璐教授的课题组开始学习新知识,熊璐老师也将成为他后来在研究生阶段的导师。

熊璐现任同济大学新能源汽车工程中心副主任,长期从事汽车底盘控制、分布式驱动电动汽车动力学控制相关科研工作,

在研究生阶段陈涵晟还有一位副指导老师,同济大学汽车学院助理教授田炜,他主要研究智能驾驶的环境目标感知技术和轨迹预测技术。

转方向、学习交叉学科压力会很大吗?陈涵晟认为对他来讲并不会很累,反而两个领域的碰撞总能让他产生更多灵感。

毕业那年是这些年来最舒服最轻松的那年,完全的去学习新知识,有很大的收获感。

不满足炼丹要搞懂理论,一连斩获2篇CVPR

到了研一,田炜老师给他布置的课题方向是在传统模型中中加入概率和不确定性。

陈涵晟将之与自己感兴趣的3D物体位姿问题结合起来,发表了他的第一篇CVPR。

虽然中了顶会,不过陈涵晟还是觉得差了些什么。

这篇文章是根据经验设计的,虽然模型效果好但我不明白他为什么效果好,也无法用数学理论去证明这个方法就是最优的。

这次获奖的第二篇论文与之前相比最大的突破点,陈涵晟认为在于“从理论出发去解决问题”。

我们把各种方法都统一起来,套在一个大框架里面。

然后又从这个框架里找到了一个更通用、效果更好的方法,第二篇论文就诞生了。

陈涵晟的这两篇CVPR论文,具体来说研究的都是通过单张2D图像估计3D物体位姿的问题。

对于人类来说,通过一张2D照片,判断里面各物体大致的位置很简单。

但对于计算机来说,这是个颇为复杂的问题,像下面这些车在它看来,并没有远/近的距离感:

因此,如何让计算机学会通过2D照片估计3D物体的位置和朝向,就变成了一个需要解决的问题,像自动驾驶(用摄像头估计车辆位置)、AR(判断虚拟物体距离)等领域都要用到:

然而,现有的两类解决方法几何推理深度学习,都有一定缺陷。

几何推理,最常见的就是PnP(Perspective-n-Point)算法,具体指通过已知的n个3D空间点(c1、c2、c3、c4)的坐标、对应2D平面上点的坐标,结合相机内参来反推相机的位姿。

本质上来说,就是找到3D空间点的坐标系w以及相机坐标系c的对应关系,来推导出相机和这些3D点的空间距离:

PnP图示,来源OpenCV文档

这个方法非常简洁,原理也好理解,然而必须得有一大堆参数(3D、2D坐标和对应的相机内参)才能计算出结果。现实是往往只能用一张2D照片做估计,没有对应的3D坐标。

深度学习方法倒是不需要这么多参数,直接用AI搞预测就行。

但这样问题又来了,不仅模型可解释性差,预测结果不一定准确,而且数据集样本量少的时候,还非常容易过拟合。

他的第一篇论文,便是在PnP算法中引入了不确定性,在此基础上提出MonoRUn检测算法。

相比用自监督方法直接学习位姿,这篇论文先用自监督方法学习2D和3D坐标之间的关系,再用PnP算法求解。

论文估计了坐标预测结果的不确定性,并用不确定性PnP算法,让模型学会关注不确定性较低的前景点(检测对象的点)

MonoRUn做出来后,效果很好,不需要提前知道物体的几何形状,就能预测3D位姿,直接登上CVPR 2021。

但这却让陈涵晟有点懵:为啥用不确定性PnP算法,效果就这么好?

这一方向上继续深入研究之后,他最终发现了“盲点”:PnP算法本质上在某些点是不可导的。

也就是说,上一篇论文把不确定性引入PnP算法,虽然效果很好,但本质上将PnP视为确定性这一操作并不可导。

这会导致PnP算法求解得到模糊的位姿解,从而导致反向传播(收敛过程)不稳定。

一番思索后,陈涵晟突然意识到,为什么不将这种确定性问题转化成概率密度的问题呢?

也就是说,将PnP的输出视为位姿的概率密度函数,这样问题就从不可导变成了可导,这便是End-to-end Probabilistic Perspective-n-Points(EPro-PnP)算法的由来。

这次的模型做出来后,灵活性和可解释性都得到了很大的提升,收敛也稳定多了,最终在CVPR 2022中获得最佳学生论文奖。

据陈涵晟介绍,第二篇论文是他在阿里达摩院做研究型实习生期间完成的。

达摩院的研究氛围很好,与他同期的一组实习生虽然做的都是不同方向,但经常和带他们的几位老师在一起讨论问题。

论文里面虽然没有挂上那么多人的名字,但很多细节都是在平时的讨论中获得灵感,再完善出来。

相比之下,今年疫情封校期间他一直待在宿舍,“缺少了和人的交流,研究灵感反而少了很多”。

陈涵晟还提到了实习期间“算力充足”的快乐——

搞这项研究期间,达摩院的导师王丕超还特意帮他多申请了一台服务器,才能顺利完成整个模型的研究训练。

还以为比较冷门,没想到能够获奖

这次成果能获奖,陈涵晟和导师、达摩院的几位合作者都没有预料到。

我原来以为这篇论文可能比较冷门,因为太偏数学,没想到能够获奖。

整个作者团队没有人在美国新奥尔良的CVPR现场,领奖还是远程接入的。

不过从这届CVPR整体风格来看,确实更倾向于基础理论而不是更热门的模型结构调整方向。

像最佳论文奖,也是颁给了一项用神经网络解决传统几何问题的研究。

就陈涵晟观察,CVPR的评委可能更多的是在鼓励理论上具有突破传统范式的贡献。

对于获奖时有什么想法,陈涵晟回答的很实在:

最大的感触就是以后的路更好走了。

如今面临研究生毕业,陈涵晟对未来的打算很明确,想继续做科研。

不过以后不一定是做自动驾驶领域的科研,可能还会尝试新东西,主要还是按自己的兴趣去做。

在交流中,我们观察到兴趣是陈涵晟做事最大的驱动力,一旦开始做事他就会非常投入。

有达摩院的同事爆料他推导公式时不时会拍自己大腿,甚至吓到周围的人。

陈涵晟觉得可能是因为自己太专注了,成功或者出错都会情不自禁表达一下激动或沮丧的心情。

除了专注,他还擅长把不同兴趣结合起来。

他在本科时参加了合唱团,那时他也会利用编程创作音乐作品、或者用计算机模拟管风琴。

最后,我们问了问他对于做科研有什么心得。

陈涵晟认为独立思考是最值得一说的。

很多时候他面对一个课题不是先把领域内的文章通通看一遍,而是自己先尝试,有了比较完善的想法之后再去读论文。

如果有人做的话,至少说明我的思路是正确的。如果没有人做的话,有可能我发现了一个新的东西。

论文链接:
https://arxiv.org/abs/2203.13254

参考链接:
[1]https://cvpr2022.thecvf.com/cvpr-2022-paper-awards
[2]https://wap.peopleapp.com/article/6767948/6638309
[3]https://arxiv.org/abs/2103.12605
[4]https://weibo.com/2027586097/Gyx9dp8lN

推荐阅读

  • 西电IEEE Fellow团队出品!最新《Transformer视觉表征学习全面综述》

  • 如何做好科研?这份《科研阅读、写作与报告》PPT,手把手教你做科研

  • 最新 2022「深度学习视觉注意力 」研究概述,包括50种注意力机制和方法!

  • 【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载!

  • 分层级联Transformer!苏黎世联邦提出TransCNN: 显著降低了计算/空间复杂度!

  • 清华姚班教师劝退文:读博,你真的想好了吗?

  • 2021李宏毅老师最新40节机器学习课程!附课件+视频资料

欢迎大家加入DLer-计算机视觉技术交流群!

大家好,群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享,主要方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)

25岁同济硕士生斩获CVPR 2022 最佳学生论文奖相关推荐

  1. 同济、阿里的CVPR 2022最佳学生论文奖研究了什么?这是一作的解读

    视学算法发布 作者:陈涵晟(同济大学研究生.阿里达摩院研究型实习生) 距离 CVPR 2022 各大奖项公布没多久,来自同济大学研究生.阿里达摩院研究型实习生陈涵晟为我们解读最佳学生论文奖. 本文解读 ...

  2. 25岁同济硕士生斩获中国首个CVPR最佳学生论文奖,他还是个「赛车发烧友」

      新智元报道   编辑:拉燕 好困 [导读]同济大学25岁硕士生拿下CVPR最佳学生论文奖,作者是个会说德语,爱玩儿赛车的计算机天才. 6月22日的CVPR大会上,颁奖嘉宾大声地念出了最佳学生论奖文 ...

  3. CVPR 2022缅怀孙剑!同济、阿里获最佳学生论文奖,何恺明入围

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 来源丨新智元 编辑丨极市平台 导读 2年没见,CVPR 2022终于 ...

  4. 【学术相关】顶级论文创新点怎么找?中国高校首次获CVPR最佳学生论文奖有感...

    几天前,同济大学公布了一条重磅消息:本校学生陈涵晟获得CVPR2022最佳学生论文奖,这也是CVPR自2001年设立最佳学生论文奖以来,获奖论文的第一作者首次来自中国高校. 华人在CV领域崛起 最近几 ...

  5. 国内首次!3位清华姚班00后学霸斩获计算机理论顶会最佳学生论文奖

    作者丨Joey 好困 来源丨新智元 [导读]2022年计算机理论顶会STOC正式开幕,来自清华姚班的三位00后学霸斩获最佳学生论文奖. 近日,理论计算机科学领域顶级国际会议第54届ACM计算理论年会( ...

  6. 国内首次,3位清华姚班本科生斩获STOC最佳学生论文奖

    近日,清华大学在官方微博官宣了一则好消息,一个由3名姚班本科生组成的团队,在全球顶会计算理论年会(STOC)上击败众多本硕博组合获得了最佳学生论文奖. 据了解,这三位00后学霸分别是范致远(计科91班 ...

  7. SIGGRAPH 2022最佳技术论文奖重磅出炉!北大陈宝权团队获荣誉提名

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 转载自:新智元 |  编辑:David [导读]SIGGRAPH ...

  8. CVPR 2020最佳学生论文分享回顾:通过二叉空间分割(BSP)生成紧凑3D网格

    机器之心发布 机器之心编辑部 在近日举行的 CVPR 2020 大会上,最佳论文.最佳学生论文等奖项悉数公布.加拿大西蒙弗雷泽大学陈之钦(Zhiqin Chen )等人的「BSP-Net」相关研究获得 ...

  9. 一位冉冉上升的青年理论计算机科学家:陈立杰斩获ACM STOC最佳学生论文

    雷锋网 AI 科技评论按:前不久我们刚刚介绍了出自清华姚班并获得 2019 年斯隆研究奖的华裔学者鬲融,近日我们又获悉另一位姚班天才少年陈立杰获得 ACM STOC 2019 最佳学生论文奖殊荣.我国 ...

最新文章

  1. 消息称中国商务部已批准高通收购恩智浦
  2. 基础 —— ip地址与子网掩码的认识
  3. 《架构漫谈》读书笔记五
  4. 源码包部署tomcat
  5. 在dreamweaver mx中它只能对html文件可以进行编辑,【职称计算机考试网页制作历年试题及答案二】- 环球网校...
  6. RAPID 信号的互锁和同步 WaitTestAndSet 和 TestAndSet
  7. dart语言和java语言_Java不是文明语言吗?
  8. linux指令查看tomcat日志
  9. postgresql 数据表【转】
  10. java hash取余_为什么Java的hash表的长度一直是2的指数次幂?为什么这个(hash(h-1)=hash%h)位运算公式等价于取余运算?...
  11. 安卓抓包工具tcpdump
  12. App测试实战:测试内容、测试工具、测试效果
  13. ERP系统测试用例设计
  14. MT6573 android 系统默认语言处理流程
  15. 江苏计算机一级证书考试试题,2016年江苏省计算机一级考试试题
  16. Yii Zii组件 CGridView 使用详解
  17. Ubuntu下安装Luma qq
  18. Java神奇代码奇葩代码
  19. esri wkt转rings json字符串 java
  20. python接口自动化-发邮件带附件

热门文章

  1. 电子计算机二级的模拟试题,计算机二级模拟试题
  2. 为intent添加FLAG_EXCLUDE_STOPPED_PACKAGES标记
  3. Android Studio 加载arr文件.arr文件
  4. Flutter 最佳扫码插件
  5. 小木虫网站登录返回404
  6. 多级弹出菜单jQuery插件ZoneMenu
  7. 原来在国内我上的不是大学
  8. 量化交易 米筐 获取股票列表与历史合约数据
  9. 72、公安网络视频监控系统解决方案
  10. PHP自学笔记(基础语法篇)