名家丨 顾险峰:当深度学习遇到3D
转载自:老顾谈几何(ID:conformalgeometry)
作者:顾险峰
2019年10月底11月初,国际计算机视觉大会(ICCV 2019)在韩国首尔举行,参会学者多达七千五百多人,创了历史记录。大会接收论文一千多篇,排在前几位的论文关键词是:图像(image),物体(object),检测(detection),三维(3D)和视频(video)。
会址选在首尔经济最为发达的江南区,特指汉江南岸靠近景福宫的区域,由于鸟叔脍炙人口的“江南Style”而闻名遐迩。大会在coex商业中心举行,门口硕大的金色雕塑,描绘了鸟叔骑马揽缰的手势。这里旅店赌场环绕,食肆酒楼鳞次栉比。各色亲民食品琳琅满目,朝鲜冷面,越南河粉,中东烤肉,美式牛排。游客熙熙攘攘,人声鼎沸。令人感动的是商业中心的黄金地带,居然矗立着规模宏大的开放式图书馆,由书籍砌成的墙壁直达天顶。这在灯红酒绿的商业气氛中,流出一股清新的书香。
图1 首尔 coex 中心,starfield 图书馆
韩国非常注重保存和弘扬传统文化。在周边的商铺中,老顾看到了很多中国东北的传统玩具,触发了几乎已经遗忘的儿时记忆。例如弹弓,冰猴儿(陀螺),嘎拉哈儿,麦芽糖,打糕,高丽纸扇,狼毫毛笔。老顾童年有很多朝鲜族的同学,印象中他们都非常直爽豪迈,能歌善舞。小学时候,音乐课上教授朝鲜歌谣《桔梗谣》、《阿里郎》,每逢文艺汇演必有朝鲜太平鼓舞、新罗筝弹奏。古老的东北亚文化,在首尔的现代社会中被保存发展,实在令人欣慰。
在大会上,老顾和朋友们组织了“计算机视觉中的统计深度学习”的workshop,遇到了很多老朋友,也结交了很多新同道。老顾一位毕业多年的学生目前在首尔做教授,他和他的导师请老顾品尝了韩国著名的人参鸡。老顾的一位朝鲜族教授朋友也请老顾品尝了正宗的韩式烧烤。和他们深入的交谈,使得老顾深深感到朝鲜和韩国的民众都对自己的民族充满了深沉的热爱,民族分裂的悲剧反而激发他们更为强烈的爱国心和历史责任感。韩国教授笑谈韩国总统是世上最为危险的职业。当谈到韩国前总统卢武铉为理想而殉道,大家都肃然起敬。朝鲜族教授谈到民族分裂,难抑内心悲怆。
统计学习的范畴语言
在统计深度学习的workshop上,老顾汇报了近期和丘成桐先生合作的工作,用最优传输的几何理论来解释对抗生成网络。
我们倾向于认为,统计深度学习的理论框架可以用范畴语言来描述,范畴为 {流形上的概率分布,流形间的变换}。数据集是流形上的分布,深度神经网络表达流形间的变换。生成模型是随机采样,图像去噪是向流形投影,迁移学习是计算流形间的映射,对抗样本是寻找分布之间的缝隙。我们用下面的例子加以佐证。
深度学习成功的本质原因在于深度学习方法抓住了数据的内在模式,而数据的内在模式可以归结为流形分布律:一类自然的数据可以表示成低维流形上的一个概率分布,而这个低维流形嵌入在高维的数据空间之中。如图5所示,人脸图片是一类自然数据,每张图片被视为一个点,这类数据被视为一个点云,嵌入在图像空间之中。图像空间的维数等于每张图片的像素个数乘以通道数目(512x512x3),大约78万维。而人脸图片点云集中在某个低维流形附近,此流形的维数大约一百几十维左右。人脸图片点云在此流形上的分布不是均匀的,不同的民族和年龄对应的分布也不相同。
因此,深度学习的核心任务有两个:降维和概率变换。降维就是将数据流形从图像空间映射到隐空间,即所谓的编码映射,将每张人脸图片映射到隐空间的一个点,即特征向量。编码映射的逆映射为解码映射,将隐空间映射回数据流形。所谓概率变换,就是在隐空间或者图像空间中,将一个概率分布变换成另外一个概率分布。
图2 不保概率分布的降维
我们用一个玩具例子来加以解释。如图2所示,假设我们关心的数据集是弥勒佛曲面上的均匀分布,二维的弥勒佛流形嵌入在三维的背景空间之中。降维操作的目的是将弥勒佛映射到平面上(隐空间)。这样的映射有无穷多个,图2中的降维映射没有保持测度。我们在平面圆盘上均匀采样,拉回到弥勒佛上,采样不再均匀。
图3 概率变换
这时,我需要进行概率变换,如图3所示,我们求取圆盘到自身的一个映射,使得概率密度高的区域扩张,概率密度低的区域收缩,最后密度分布均匀。这一步可以用最优传输理论来解决。
图4 保概率分布的降维
经过降维和概率变换之后,我们得到图4的结果。如果我们在平面圆盘上均匀采样,就得到弥勒佛上的均匀采样。
图5 基于最优传输理论生成的人脸图片
实际应用中的生成模型和这一框架没有本质不同,只是规模扩大了很多,以至于无法直接看清。比如,我们希望生成逼真的人脸图片,我们先在人脸流形上稠密采样(就是收集大量人脸图片),得到人脸图片所组成的点云,我们用这个点云来离散逼近人脸图片的数据流形;然后,我们用深度学习的方法,例如自动编码器(autoencoder),将流形编码到隐空间,同时将隐空间解码到原来的数据流形上。注意所有的计算都是基于离散的点云,如果我们用ReLU深度神经网络,那么编码映射和解码映射被表示成分片线性映射。这一点非常类似传统的有限元方法(finite element method);在隐空间,我们将单位立方体内的均匀分布,用最优传输映射(optimal transportation map),映射到人脸图片集合在隐空间上的分布。生成人脸图片的过程如下:我们产生一个均匀分布的随机样本,用最优传输映射到隐空间数据分布中的一个样本,再用解码映射,映射到数据流形上的一个点,结果就是一张逼真的人脸图片。如图5所示,所有的人脸图片都是如此随机生成。
图6 最优传输映射的几何理论,亚历山大定理
如上所述,整个过程中至关重要的一步是图3中的概率变换,这一步可以用经典的最优传输理论来解决。奇妙的是,这一理论具有完美的几何解释。如图6所示,给定一个凸多面体,如果我们知道每个面的法向量,和每个面的投影面积,那么亚历山大(Alexandrov)断言我们可以确定多面体的形状。Alexandrov定理和最优传输映射实际上是等价的。我们可以用几何算法来完成概率变换的任务,从而将深度学习黑箱的一部分变得透明。
图7 模式崩溃的几何解释。
最优传输理论的解释进一步揭示了深度学习所面临的本质困难:模式崩溃。如图7所示,我们用Alexandrov定理来计算实心兔子内部的均匀分布和球体内部的均匀分布之间的最优传输映射。我们看到兔子边界曲面的像在球体内部形成复杂的皱褶,因此从球体到兔子的保概率映射在这些皱褶处间断。这意味着概率变换映射通常是非连续的,但是深度神经网络(DNNs)只能表达连续映射。这一本质矛盾,使得对抗生成网络的训练难以收敛,经常发生模式崩溃(mode collapse)。
开普勒vs牛顿
复古思潮
缺失的关键一环
3D深度学习
1. Tamar Rott Shaham, Tali Dekel and Tomer Michaeli, SinGAN: Learning a Generative Model from a Single Natural Images, ICCV2019.
2. T.Duff, K. Kohn, A. Leykin, PLMP-Point-Line Minimal Problems in Complete Multi-View Visibility, ICCV2019.
3. T. Alldieck, G. Pons-Moll, C. Theobalt and M. Magnor, Tex2Shape: Detailed Full Human Body Geometry From Single Image, ICCV2019.
4. F. Agostinelli, S. McAleer, A. Shmakov and P. Baldi, Solving the Rubik's cube with deep reinforcement learning and search, Nature Machine Intelligence, 1 256-363 (2019).
5. Tomas Rokicki, Herbert Kociemba, Morley Davidson and John Dethridge, The diameter of the Rubik's cube group is twenty, SIAM J. Discrete Math, Vol 27, No.2, pp. 1082-1105, 2013.
——END——
名家丨 顾险峰:当深度学习遇到3D相关推荐
- 线上分享会预告之深度学习在3D场景中的应用
大家好.上周我们迎来了第一期的线上分享,三维模型检索技术介绍,此次分享是一次接力形式的分享,每周都将有一位主讲人分享,希望更多的小伙伴加入我们一起分享,也是给自己一个机会锻炼.这里先预告一下,线上直播 ...
- 史上最全 | 基于深度学习的3D分割综述(RGB-D/点云/体素/多目)
点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 点击进入→自动驾驶之心[分割]术交流群 后台回复[分割综述]获取语义分割.实例分割.全景分割.弱监督分割等超全 ...
- 用深度学习完成3D渲染任务的蹿红
大纲 用深度学习完成3D渲染任务的蹿红 研究背景和研究意义 基于传统多视图几何的三维重建算法 相机标定以及坐标转换 主动式--结构光法 主动式--TOF激光飞行时间&三角测距法 被动式--SF ...
- 基于深度学习和3D图像处理的精密加工件外观缺陷检测系统
由于精密五金加工工艺特殊.零件形状复杂,表面存在金属材质纹理.加工残留纹路以及加工工艺的干扰,如切削液.油污.电镀.喷砂.氧化处理不良等.这样的金属加工件外观缺陷难以使用普通2D视觉检测系统进行高效检 ...
- 顾险峰:当深度学习遇到3D
转载自:老顾谈几何(ID:conformalgeometry) 作者:顾险峰 本文7647字,建议阅读20分钟. 本文中顾险峰老师分享了传统几何理论和方法与深度学习融合的相关知识. 2019年10月底 ...
- 干货丨科普丨大牛的《深度学习》笔记,Deep Learning速成教程
深度学习,即Deep Learning,是一种学习算法(Learning algorithm),亦是人工智能领域的一个重要分支.从快速发展到实际应用,短短几年时间里,深度学习颠覆了语音识别.图像分类. ...
- 干货丨吴恩达深度学习课程的思维导图总结
这几天每天花了点时间看完了吴恩达的深度学习课程视频.目前还只有前三个课程,后面的卷积神经网络和序列模型尚未开课.课程的视频基本上都是十分钟出头的长度,非常适合碎片时间学习. 一直以为深度学习的重点在于 ...
- 实录丨戴琼海:深度学习遭遇瓶颈,全脑观测启发下一代AI算法
2020-09-03 20:03:00 目前我们还无法精细到神经元级别的观测,只能从功能层面理解大脑,但这些成果也启发了很多经典的人工智能算法,例如卷积神经网络启发自猫脑视觉感受野研究,胶囊网络启发自 ...
- 干货丨从冷战到深度学习:一篇图文并茂的机器翻译史
实现高质量机器翻译的梦想已经存在了很多年,很多科学家都为这一梦想贡献了自己的时间和心力.从早期的基于规则的机器翻译到如今广泛应用的神经机器翻译,机器翻译的水平不断提升,已经能满足很多场景的基本应用需求 ...
最新文章
- echarts python源码_基于Echarts的微代码开发平台SmartChart, 免费开源使用
- JavaFX——fxml文件加载错误:[javafx.fxml.LoadException]解决方案之一
- ASP.NET Core Docker部署
- java 泛型 `<E extends Enum<E>>`
- 普通机器学习模型的提升
- vector元素个数_STL之vector
- 用友系统与银行接口对接实现财务数据的导入
- npm 更新_npm 的安全困扰:仅有 9.27% 的 npm 开发者使用 2FA
- springboot集成activiti6在线编辑器
- office2010每次打开都要配置进度的解决方案
- GridView样式
- # DZY Love Math 系列
- mysql数据库特别大怎么备份_如何备份还原mysql数据库 mysql数据库太大备份与还原方法...
- 【叶神中级】四篇-3.页面访问
- 正弦分析2--三角函数线
- 杨紫开直播被吐槽脸胖、脖子粗、嘴唇厚,这就是明星开美颜的原因
- 当你程序运行出现错时~
- c语言实现二分查找法
- e3是合法浮点数吗_下面四个选项中,均是不合法的浮点数的选项是
- C# 小工具开源分享之本机IP修改器