点击上方“视学算法”,选择加"星标"或“置顶

重磅干货,第一时间送达

作者丨谢凌曦、数据误码率、Zhifeng

来源丨知乎问答

编辑丨极市平台

导读

在目前的深度学习领域,有些研究方向已经较为成熟,实现新突破的难度与过去相比显著提升。那么就目前来看,还有哪些方向处于朝阳阶段,相比之下更有研究潜力?

问题链接:

https://www.zhihu.com/question/460500204

0

1

作者:谢凌曦

来源链接:

https://www.zhihu.com/question/460500204/answer/1930151239

注:本回答所有内容均只代表作者本人观点,均有可能被推翻,二次转载务必连同声明一起转载。

我的主要研究方向是计算机视觉,所以本文也会比较偏重CV方向。

1. 不适合的研究方向

首先我要反对两个方向:对比学习为代表的自监督学习算法(包括BYOL等)和Transformer。它们的上限几乎是肉眼可见的,在没有非平凡的改进之前,很难有本质上的突破。在大量研究者投入精力的情况下,只要没有持续的产出,就必然会导致其加速衰落。前些年盛极一时的网络架构搜索(NAS)就是一个非常典型的例子。

我们首先分析NAS、对比学习、Transformer的局限性:

(1) 原本以NAS为代表的AutoML技术受到了广泛的期待,我还主张“自动机器学习之于深度学习,就好比深度学习之于传统方法”,不过后来发现它的缺陷是明显的。在搜索空间指数级扩大之后,算法就必须在精度和速度之间做出选择。后来盛行的权重共享类搜索方法,相当于追求搜索空间中的平摊精度,而平摊精度与最佳个体的精度往往并不吻合。

(2)对比学习被广泛引入图像领域作为自监督任务以后,前世代的自监督算法(如预测旋转、拼图、上色等)纷纷被吊打,甚至开始在下游任务中超越有监督训练的模型。然而,当前的对比学习类方法(包括BYOL)对于数据扩增(data augmentation)的依赖过重,因而不可避免地陷入了invariance和consistency之间的矛盾:强力的augmentation能够促进学习效果,但是如果augmentation过强,不同view之间的可预测性又无法保证。

(3)至于Transformer,虽然目前还处在比较兴盛的状态,然而它的上限也是明显的。除了更快的信息交换,似乎这种模型并没有体现出显著的优势。问题是:CV任务真的需要频繁而快速的视觉信息交换吗?遗憾的是,学界依然沉浸在“先将所有任务用Transformer刷一遍”的廉价快乐中,鲜有人愿意思考一些更深入的问题。

因此,我特别希望初学者不要看到一个热门方向就一拥而上,而要冷静地思考这个问题:如果全世界都知道这个方向火热,那么你的研究要想脱颖而出,就必然有某些过人之处——比如你有特别多的卡,或者你有丰富的PR资源。否则,很可能还是捧红了别人的文章,浪费了自己的时间。

2. 应该关注的方向(但未必能够保证产出)

我认为CV领域还是存在很多本质问题没有解决的。但是这些问题往往非常困难,投入长期研究的风险也比较大,因而大部分研究者会回避这些问题。然而要从根源上推进CV的发展,这些问题就不得不去面对、解决:

(1)是否存在神经网络之外的推理方式?当前,神经网络成为训练以后的唯一产物,而几乎所有算法均假设将输入送给神经网络以后,一次性地得到输出结果。然而,是否能够设计直接向前传递以外的其他推理方式?例如,当一个物体处于罕见的视角或者被严重遮挡时,能否通过多次迭代式的处理,逐渐恢复其缺失的特征,最终完成识别任务?这就涉及到将强化学习引入训练,或者通过类似于image warping的方式找到一条困难样例和简单样例之间的路径。后者可以导向一个非常本质的问题:如何以尽可能低的维度刻画语义空间?GAN以及相关的方法或许能够提供一些思路,但是目前还没有通用的、能够轻易跨越不同domain的方法。

(2)是否存在更精细的标注方式,能够推进视觉的理解?我最近提出了一个假想:当前所有的视觉识别算法都远远没有达到完整[1],而这很可能是当前不够精细的标注所导致的。那么,是否能够在可行的范围内,定义一种超越instance segmentation的标注方式,进一步推进视觉识别?这就涉及到一系列根本问题:什么是一个物体?如何定义一个物体?物体和部件之间有什么联系?这些问题不得到解决,物体检测和分割将步图像分类的后尘,迅速陷入过拟合的困境。

(3)如何解决大模型和小样本之间的矛盾?当前,大模型成为AI领域颇有前景的规模化解决方案。然而,大模型的本质在于,通过预训练阶段大量吸收数据(有标签或者无标签均可),缓解下游小样本学习的压力。这就带来了一个新的矛盾:大模型看到的数据越多,模型就越需要适应一个广泛而分散的数据分布,因而通过小样本进行局部拟合的难度就越大。这很可能是制约大模型思路落地的一个瓶颈。

(4)能否通过各种方式生成接近真实的数据?生成数据(包括虚拟场景或者GAN生成的数据)很可能会带来新的学习范式,然而这些数据和真实数据之间存在一种难以逾越的domain gap,制约了其在识别任务中发挥作用。我们提出问题:这种domain gap,本质上是不是特定的识别任务带来的learning bias?我们希望通过改变学习目标,使得这种domain gap得到缓解甚至消失,从而能够在有朝一日消灭人工标注,真正开启新的学习范式。

(5)是否存在更高效的人机交互模式?目前,人机之间的交互效率还很低,我就经常因为为做PPT而头疼不已。我认为AI算法或许会深刻地改变人机交互的模式,使得以下场景变得更容易:多媒体内容设计和排版、跨模态信息检索、游戏微操作,等等。多模态算法很可能会在这波“人机交互革命”中发挥重要作用。

在我看来,上述任何一个问题,相比于无止境的烧卡刷点,都要有趣且接近本质,但是风险也要更大一些。因此,大部分研究人员迫于现实压力而选择跟风,是再正常不过的事情。只要有人在认真思考这些问题并且稳步推进它们,AI就不是一个遥不可及的梦。

限于时间,无法将上述每个点写得太仔细;同时限于水平和视野,我也无法囊括所有重要的问题(如可解释性——虽然我对深度学习的可解释性感到悲观,不过看到有学者在这个领域深耕,还是能够感觉到勇气和希望)。

非常欢迎针对各种问题的讨论,也希望这些观点能够引发更多的思考吧。

[1] https://zhuanlan.zhihu.com/p/376145664

0

2

作者:数据误码率

来源链接:

https://www.zhihu.com/question/460500204/answer/1915471641

如果以CVPR为CV的导向的话,目前发展大概是这样:

MLP(2012年的前)—>CNN(2012-约2020)—>transformer(2020年以后)—>MLP(??Google最近又把这玩意刨出来了,至于是不是,不敢推测结果如何)

先说结论:

越来越比拼硬件资源能力了。

总之就我做的医学图像分割上来说,最直观的感受就是几个点吧:

(1)传统基于CNN的文章除非在理论上、网络结构上(万年薅UNet,各种魔改)有大的创新,否则给人的感觉创新性都不大,甚至可以归为“水文”,二区都难。

(2)独立于网络之外的用于提升网络性能的模块上,attention-gate、channel- attention、spatial- attention、channel- spatial attention、non-local、scale- attention……反正就是魔改,要说最近的方向,可能就是类似ECA-module这种类似的走轻量注意力上才有的发paper。

(3)transformer:是个很新的方向,目前应该是医学图像分割上最好灌水的方向之一了,我记得去年开组会刚想把Unet的编码器或者解码器部分改成transformer,试试效果如何,结果一上知乎,我校某实验室就在编码器部分搞了出来一篇transUnet。看完swin-tranformer我一拍大腿,我去,这个好,这下解码器编码器都可以改了,对我这个小菜鸡还好理解点,结果马上有人做出来了swin-unet。总的来说就是,目前想水医学图像分割的transformer文章的,代码+硬件两手都硬的同行们,可以抓紧了。因为目前只要你速度够快,method部分不需要写大量公式计算,也不用憋着想如何写创新点,创新点统一为:

“本文首次把transformer应用于XXX检测/识别/分类/分割”

(4)大显存、多数量GPU,无论显存还是数量,越多越好,堪比挖矿。我曾经尝试把DA-Net中的PAM和CAM丢到UNet里去,结果直接out of memory….you need another 64GB。把我吓得,团队只有4卡RTX2080Ti瑟瑟发抖。transformer那种基于self-attention的大型注意力包,理论上计算资源只会多不会少,等忙完这段时间我准备搞一个3层的swin结构的编解码结构试试,但愿能跑起来,这样毕业论文就显得新一点 。

0

3

作者:Zhifeng

来源链接:

https://www.zhihu.com/question/460500204/answer/1902459141

回答几个我最近在研究的方向~ 我主要在做生成模型,不过乱七八糟的也有涉猎。

1. 可解释性

feature-based研究的很多了,instance-based个人感觉在上升期,从研究的角度来说缺乏benchmark/axiom/sanity check. 主流方法是influence function, 我觉得这里面self influence的概念非常有趣,应该很值得研究。当然,更意思的方向是跳出influence function本身,比如像relatIF 加一些regularization,也是水文章的一贯套路(relatIF是好文章)。

Influence function for generative models也是很值得做的。Influence function for GAN已经有人做了,虽然文章直接优化FID是有点问题的,但是框架搭好了,换一个evaluation换个setting就可以直接发paper.

我最近写了Influence function for VAE, 有不少比较有意思的observation (paper[1]; code repo: VAE-TracIn-pytorch).

2. 无监督生成学习

最近的denoising diffusion probabilistic model(DDPM)绝对是热坑,效果好,但是速度慢没有meaningful latent space限制了很多应用,有待发掘。我去年实习写了一篇DiffWave是这个方法在语音上的应用,效果很好,最近应该能看到这个模型的application井喷,比如3D point cloud生成。

DDPM的加速最近已经有不少paper了,目前来看有几类,有的用conditioned on noise level去重新训练,有的用jumping step缩短Markov Chain,有的在DDPM++里面研究更快的solver. 我最近写了FastDPM, 是一种结合noise level和jumping step的快速生成的框架(无需retrain, original DDPM checkpoint拿来直接用),统一并推广了目前的好几种方法,给出了不同任务(图像, 语音)的recipe (paper[2]; code repo: FastDPM_pytorch).

生成模型里的Normalizing flow模型,用可逆网络转化数据分布,很fancy 能提供likelihood和比较好的解释性但是效果偏偏做不上去,一方面需要在理论上有补充,因为可逆或者Lipschitz网络的capacity确实有限。另一方面,实际应用中,training不稳定可能是效果上不去的原因,其中initialization 和training landscape都是有待研究的问题。潜在的突破口:augmented dimension或者类似surVAE那种generalized mapping. 除此之外,normalizing flow on discrete domain也是很重要的问题,潜在突破口是用OT里面的sinkhorn network.

我对residual flow这个模型有执念,很喜欢这个框架,虽然它不火。今年早些时候我写了residual flow的universal approximation in MMD的证明,很难做,需要比较特殊的假设 (paper[3])。之后可能继续钻研它的capacity和learnability.

再补充一个:

3. 生成模型的overfitting是一个长久的问题,但是本身很难定义,很大一个原因是mode collapse和copy training data耦合在一起。我们组去年发表了data-copying test用于检测相关性质,不过这个idea还停留在比较初级的阶段,我觉得这一块需要更多high level的框架。

4. Meta learning + generative model方向个人十分看好,meta learning 框架可以直接套,loss改成生成模型的loss就可以了。Again, GAN已经被做了,不过GAN的paper那么多,随便找上一个加上meta learning还是很容易的。类似可以做multitask + GAN.

[1] https://arxiv.org/pdf/2105.14203.pdf

[2] https//arxiv.org/pdf/2106.00132.pdf

[3] https://arxiv.org/pdf/2103.05793.pdf

如果觉得有用,就请分享到朋友圈吧!

点个在看 paper不断!

干货 | 2021年,深度学习还有哪些研究方向可以做?相关推荐

  1. 【github干货】主流深度学习开源框架从入门到熟练

    文章首发于微信公众号<有三AI> [github干货]主流深度学习开源框架从入门到熟练 今天送上有三AI学院第一个github项目 01项目背景 目前深度学习框架呈百家争鸣之态势,光是为人 ...

  2. 2021年深度学习哪些方向比较有研究潜力?

    来源:知乎问答 作者:陀飞轮.Zhifeng.谢凌曦 转自:极市平台 深度学习成为近些年来较为热门的领域,算法工程师这一岗位也变得越发的抢手,尽管已经踏入了这一领域但对整体的大环境其实是还不能够准确的 ...

  3. ACM MM 2021|基于深度学习的图像水印去除

    作者丨牛力@知乎 来源丨https://zhuanlan.zhihu.com/p/398435169 编辑丨3D视觉工坊 随着互联网时代的兴起,图片的版权保护得到了广泛的关注:为了声明图片的所有权, ...

  4. 2021年深度学习主机配置推荐

    点击上方"CVer",选择加"星标"置顶 重磅干货,第一时间送达 作者丨小马哥@知乎(已授权)编辑丨极市平台 来源丨https://zhuanlan.zhihu ...

  5. 纯干货-17 分布式深度学习原理、算法详细介绍

    介绍 无监督的特征学习和深度学习已经证明,通过海量的数据来训练大型的模型可以大大提高模型的性能.但是,考虑需要训练的深度网络模型有数百万甚至数十亿个参数需要训练,这其实是一个非常复杂的问题.我们可以很 ...

  6. 【干货书】深度学习合成数据

    来源:专知 本文为书籍,建议阅读8分钟 这是关于深度学习的合成数据的第一本书. 这是关于深度学习的合成数据的第一本书,其覆盖的广度可能使这本书成为未来几年合成数据的默认参考.这本书也可以作为介绍机器学 ...

  7. 干货回顾丨深度学习应用大盘点

      当首次介绍深度学习时,我们认为它是一个要比机器学习更好的分类器.或者,我们亦理解成大脑神经计算. 第一种理解大大低估了深度学习构建应用的种类,而后者又高估了它的能力,因而忽略了那些不是一般人工智能 ...

  8. 干货回顾丨深度学习性能提升的诀窍

    Pedro Ribeiro Simoes拍摄 原文: How To Improve Deep Learning Performance 作者: Jason Brownlee 你是如何提升深度学习模型的 ...

  9. 干货丨除了深度学习,你还应该了解这些发展方向

    导读: 毫无疑问,AI 的终极未来是达到并超越人类的智能.但是,这是一个非常遥远的目标.即使我们之中最乐观的人,也只敢打赌称人类级别的 AI(泛人工智能(AGI)或者超人工智能(ASI))将会在 10 ...

最新文章

  1. 独家 | 数据科学机器学习面试题,来挑战吧~
  2. python数据导入一个列表_Python基础数据类型list 列表
  3. 模拟ssh的远程网络传输
  4. 指纹浏览器 开源 linux,浏览器指纹--Canvas指纹
  5. 现实工程中常用到的C语言函数总结(不断更新)
  6. 【dfs】病毒(jzoj 1284)
  7. ir指令、立即数的作用_ARM-汇编指令集(总结)
  8. 刘德华--2初恋时节
  9. word 批量替换空格和回车
  10. 12、Urban Radiance Fields
  11. WPS格式的文件如何转换为word格式
  12. 如何做到精准引流获客?
  13. tlc5615 c语言程序,第10章 TLC5615数模转换器DAC
  14. php左测导航栏,商城左侧大分类导航菜单教程完整代码
  15. 使用GSAP的动画库为Bootstrap传送带制作动画
  16. c语言return 0和return 1的区别
  17. c语言课程设计 选课系统,学生选课系统c语言课程设计.doc
  18. Dell电脑Fn与功能键的切换
  19. (三)棋盘覆盖问题(思路)
  20. NET开源 .NET Open Source Developer Projects

热门文章

  1. 希尔排序——算法系列
  2. silverlight学习之storyboard (动画)
  3. 微软企业库4.1学习笔记(七)创建对象 续集1
  4. 有兴趣的执行一下这段代码
  5. 刻意练习:LeetCode实战 -- 二叉树的前序遍历
  6. LeetCode实战:反转字符串
  7. 技术图文:进一步完善自动化交易系统 - 01
  8. 【Python】Label组件 Button组件 Checkbutton组件
  9. 基于 OpenCV 的人脸追踪
  10. 对标Oculus Quest2,爱奇艺奇遇VR打的什么牌?