点上方计算机视觉联盟获取更多干货

仅作学术分享,不代表本公众号立场,侵权联系删除

转载于:作者丨谢凌曦、数据误码率、Zhifeng

来源丨知乎问答

编辑丨极市平台

AI博士笔记系列推荐

周志华《机器学习》手推笔记正式开源!可打印版本附pdf下载链接

问题链接:

https://www.zhihu.com/question/460500204

0

1

作者:谢凌曦

来源链接:

https://www.zhihu.com/question/460500204/answer/1930151239

注:本回答所有内容均只代表作者本人观点,均有可能被推翻,二次转载务必连同声明一起转载。

我的主要研究方向是计算机视觉,所以本文也会比较偏重CV方向。

1. 不适合的研究方向

首先我要反对两个方向:对比学习为代表的自监督学习算法(包括BYOL等)和Transformer。它们的上限几乎是肉眼可见的,在没有非平凡的改进之前,很难有本质上的突破。在大量研究者投入精力的情况下,只要没有持续的产出,就必然会导致其加速衰落。前些年盛极一时的网络架构搜索(NAS)就是一个非常典型的例子。

我们首先分析NAS、对比学习、Transformer的局限性:

(1) 原本以NAS为代表的AutoML技术受到了广泛的期待,我还主张“自动机器学习之于深度学习,就好比深度学习之于传统方法”,不过后来发现它的缺陷是明显的。在搜索空间指数级扩大之后,算法就必须在精度和速度之间做出选择。后来盛行的权重共享类搜索方法,相当于追求搜索空间中的平摊精度,而平摊精度与最佳个体的精度往往并不吻合。

(2)对比学习被广泛引入图像领域作为自监督任务以后,前世代的自监督算法(如预测旋转、拼图、上色等)纷纷被吊打,甚至开始在下游任务中超越有监督训练的模型。然而,当前的对比学习类方法(包括BYOL)对于数据扩增(data augmentation)的依赖过重,因而不可避免地陷入了invariance和consistency之间的矛盾:强力的augmentation能够促进学习效果,但是如果augmentation过强,不同view之间的可预测性又无法保证。

(3)至于Transformer,虽然目前还处在比较兴盛的状态,然而它的上限也是明显的。除了更快的信息交换,似乎这种模型并没有体现出显著的优势。问题是:CV任务真的需要频繁而快速的视觉信息交换吗?遗憾的是,学界依然沉浸在“先将所有任务用Transformer刷一遍”的廉价快乐中,鲜有人愿意思考一些更深入的问题。

因此,我特别希望初学者不要看到一个热门方向就一拥而上,而要冷静地思考这个问题:如果全世界都知道这个方向火热,那么你的研究要想脱颖而出,就必然有某些过人之处——比如你有特别多的卡,或者你有丰富的PR资源。否则,很可能还是捧红了别人的文章,浪费了自己的时间。

2. 应该关注的方向(但未必能够保证产出)

我认为CV领域还是存在很多本质问题没有解决的。但是这些问题往往非常困难,投入长期研究的风险也比较大,因而大部分研究者会回避这些问题。然而要从根源上推进CV的发展,这些问题就不得不去面对、解决:

(1)是否存在神经网络之外的推理方式?当前,神经网络成为训练以后的唯一产物,而几乎所有算法均假设将输入送给神经网络以后,一次性地得到输出结果。然而,是否能够设计直接向前传递以外的其他推理方式?例如,当一个物体处于罕见的视角或者被严重遮挡时,能否通过多次迭代式的处理,逐渐恢复其缺失的特征,最终完成识别任务?这就涉及到将强化学习引入训练,或者通过类似于image warping的方式找到一条困难样例和简单样例之间的路径。后者可以导向一个非常本质的问题:如何以尽可能低的维度刻画语义空间?GAN以及相关的方法或许能够提供一些思路,但是目前还没有通用的、能够轻易跨越不同domain的方法。

(2)是否存在更精细的标注方式,能够推进视觉的理解?我最近提出了一个假想:当前所有的视觉识别算法都远远没有达到完整[1],而这很可能是当前不够精细的标注所导致的。那么,是否能够在可行的范围内,定义一种超越instance segmentation的标注方式,进一步推进视觉识别?这就涉及到一系列根本问题:什么是一个物体?如何定义一个物体?物体和部件之间有什么联系?这些问题不得到解决,物体检测和分割将步图像分类的后尘,迅速陷入过拟合的困境。

(3)如何解决大模型和小样本之间的矛盾?当前,大模型成为AI领域颇有前景的规模化解决方案。然而,大模型的本质在于,通过预训练阶段大量吸收数据(有标签或者无标签均可),缓解下游小样本学习的压力。这就带来了一个新的矛盾:大模型看到的数据越多,模型就越需要适应一个广泛而分散的数据分布,因而通过小样本进行局部拟合的难度就越大。这很可能是制约大模型思路落地的一个瓶颈。

(4)能否通过各种方式生成接近真实的数据?生成数据(包括虚拟场景或者GAN生成的数据)很可能会带来新的学习范式,然而这些数据和真实数据之间存在一种难以逾越的domain gap,制约了其在识别任务中发挥作用。我们提出问题:这种domain gap,本质上是不是特定的识别任务带来的learning bias?我们希望通过改变学习目标,使得这种domain gap得到缓解甚至消失,从而能够在有朝一日消灭人工标注,真正开启新的学习范式。

(5)是否存在更高效的人机交互模式?目前,人机之间的交互效率还很低,我就经常因为为做PPT而头疼不已。我认为AI算法或许会深刻地改变人机交互的模式,使得以下场景变得更容易:多媒体内容设计和排版、跨模态信息检索、游戏微操作,等等。多模态算法很可能会在这波“人机交互革命”中发挥重要作用。

在我看来,上述任何一个问题,相比于无止境的烧卡刷点,都要有趣且接近本质,但是风险也要更大一些。因此,大部分研究人员迫于现实压力而选择跟风,是再正常不过的事情。只要有人在认真思考这些问题并且稳步推进它们,AI就不是一个遥不可及的梦。

限于时间,无法将上述每个点写得太仔细;同时限于水平和视野,我也无法囊括所有重要的问题(如可解释性——虽然我对深度学习的可解释性感到悲观,不过看到有学者在这个领域深耕,还是能够感觉到勇气和希望)。

非常欢迎针对各种问题的讨论,也希望这些观点能够引发更多的思考吧。

[1] https://zhuanlan.zhihu.com/p/376145664

0

2

作者:数据误码率

来源链接:

https://www.zhihu.com/question/460500204/answer/1915471641

如果以CVPR为CV的导向的话,目前发展大概是这样:

MLP(2012年的前)—>CNN(2012-约2020)—>transformer(2020年以后)—>MLP(??Google最近又把这玩意刨出来了,至于是不是,不敢推测结果如何)

先说结论:

越来越比拼硬件资源能力了。

总之就我做的医学图像分割上来说,最直观的感受就是几个点吧:

(1)传统基于CNN的文章除非在理论上、网络结构上(万年薅UNet,各种魔改)有大的创新,否则给人的感觉创新性都不大,甚至可以归为“水文”,二区都难。

(2)独立于网络之外的用于提升网络性能的模块上,attention-gate、channel- attention、spatial- attention、channel- spatial attention、non-local、scale- attention……反正就是魔改,要说最近的方向,可能就是类似ECA-module这种类似的走轻量注意力上才有的发paper。

(3)transformer:是个很新的方向,目前应该是医学图像分割上最好灌水的方向之一了,我记得去年开组会刚想把Unet的编码器或者解码器部分改成transformer,试试效果如何,结果一上知乎,我校某实验室就在编码器部分搞了出来一篇transUnet。看完swin-tranformer我一拍大腿,我去,这个好,这下解码器编码器都可以改了,对我这个小菜鸡还好理解点,结果马上有人做出来了swin-unet。总的来说就是,目前想水医学图像分割的transformer文章的,代码+硬件两手都硬的同行们,可以抓紧了。因为目前只要你速度够快,method部分不需要写大量公式计算,也不用憋着想如何写创新点,创新点统一为:

“本文首次把transformer应用于XXX检测/识别/分类/分割”

(4)大显存、多数量GPU,无论显存还是数量,越多越好,堪比挖矿。我曾经尝试把DA-Net中的PAM和CAM丢到UNet里去,结果直接out of memory….you need another 64GB。把我吓得,团队只有4卡RTX2080Ti瑟瑟发抖。transformer那种基于self-attention的大型注意力包,理论上计算资源只会多不会少,等忙完这段时间我准备搞一个3层的swin结构的编解码结构试试,但愿能跑起来,这样毕业论文就显得新一点 。

0

3

作者:Zhifeng

来源链接:

https://www.zhihu.com/question/460500204/answer/1902459141

回答几个我最近在研究的方向~ 我主要在做生成模型,不过乱七八糟的也有涉猎。

1. 可解释性

feature-based研究的很多了,instance-based个人感觉在上升期,从研究的角度来说缺乏benchmark/axiom/sanity check. 主流方法是influence function, 我觉得这里面self influence的概念非常有趣,应该很值得研究。当然,更意思的方向是跳出influence function本身,比如像relatIF 加一些regularization,也是水文章的一贯套路(relatIF是好文章)。

Influence function for generative models也是很值得做的。Influence function for GAN已经有人做了,虽然文章直接优化FID是有点问题的,但是框架搭好了,换一个evaluation换个setting就可以直接发paper.

我最近写了Influence function for VAE, 有不少比较有意思的observation (paper[1]; code repo: VAE-TracIn-pytorch).

2. 无监督生成学习

最近的denoising diffusion probabilistic model(DDPM)绝对是热坑,效果好,但是速度慢没有meaningful latent space限制了很多应用,有待发掘。我去年实习写了一篇DiffWave是这个方法在语音上的应用,效果很好,最近应该能看到这个模型的application井喷,比如3D point cloud生成。

DDPM的加速最近已经有不少paper了,目前来看有几类,有的用conditioned on noise level去重新训练,有的用jumping step缩短Markov Chain,有的在DDPM++里面研究更快的solver. 我最近写了FastDPM, 是一种结合noise level和jumping step的快速生成的框架(无需retrain, original DDPM checkpoint拿来直接用),统一并推广了目前的好几种方法,给出了不同任务(图像, 语音)的recipe (paper[2]; code repo: FastDPM_pytorch).

生成模型里的Normalizing flow模型,用可逆网络转化数据分布,很fancy 能提供likelihood和比较好的解释性但是效果偏偏做不上去,一方面需要在理论上有补充,因为可逆或者Lipschitz网络的capacity确实有限。另一方面,实际应用中,training不稳定可能是效果上不去的原因,其中initialization 和training landscape都是有待研究的问题。潜在的突破口:augmented dimension或者类似surVAE那种generalized mapping. 除此之外,normalizing flow on discrete domain也是很重要的问题,潜在突破口是用OT里面的sinkhorn network.

我对residual flow这个模型有执念,很喜欢这个框架,虽然它不火。今年早些时候我写了residual flow的universal approximation in MMD的证明,很难做,需要比较特殊的假设 (paper[3])。之后可能继续钻研它的capacity和learnability.

再补充一个:

3. 生成模型的overfitting是一个长久的问题,但是本身很难定义,很大一个原因是mode collapse和copy training data耦合在一起。我们组去年发表了data-copying test用于检测相关性质,不过这个idea还停留在比较初级的阶段,我觉得这一块需要更多high level的框架。

4. Meta learning + generative model方向个人十分看好,meta learning 框架可以直接套,loss改成生成模型的loss就可以了。Again, GAN已经被做了,不过GAN的paper那么多,随便找上一个加上meta learning还是很容易的。类似可以做multitask + GAN.

[1] https://arxiv.org/pdf/2105.14203.pdf

[2] https//arxiv.org/pdf/2106.00132.pdf

[3] https://arxiv.org/pdf/2103.05793.pdf

-------------------

END

--------------------

我是王博Kings,985AI博士,华为云专家、CSDN博客专家(人工智能领域优质作者)。单个AI开源项目现在已经获得了2100+标星。现在在做AI相关内容,欢迎一起交流学习、生活各方面的问题,一起加油进步!

我们微信交流群涵盖以下方向(但并不局限于以下内容):人工智能,计算机视觉,自然语言处理,目标检测,语义分割,自动驾驶,GAN,强化学习,SLAM,人脸检测,最新算法,最新论文,OpenCV,TensorFlow,PyTorch,开源框架,学习方法...

这是我的私人微信,位置有限,一起进步!

王博的公众号,欢迎关注,干货多多

王博Kings的系列手推笔记(附高清PDF下载):

博士笔记 | 周志华《机器学习》手推笔记第一章思维导图

博士笔记 | 周志华《机器学习》手推笔记第二章“模型评估与选择”

博士笔记 | 周志华《机器学习》手推笔记第三章“线性模型”

博士笔记 | 周志华《机器学习》手推笔记第四章“决策树”

博士笔记 | 周志华《机器学习》手推笔记第五章“神经网络”

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(上)

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(下)

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(上)

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(下)

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习(上)

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习(下)

博士笔记 | 周志华《机器学习》手推笔记第九章聚类

博士笔记 | 周志华《机器学习》手推笔记第十章降维与度量学习

博士笔记 | 周志华《机器学习》手推笔记第十一章稀疏学习

博士笔记 | 周志华《机器学习》手推笔记第十二章计算学习理论

博士笔记 | 周志华《机器学习》手推笔记第十三章半监督学习

博士笔记 | 周志华《机器学习》手推笔记第十四章概率图模型

点分享

点收藏

点点赞

点在看

2021年,深度学习还有哪些有潜力且处于上升期的研究方向?相关推荐

  1. 【深度学习】2021年深度学习哪些方向比较新颖,处于上升期或者朝阳阶段,没那么饱和,比较有研究潜力?...

    先写两个最近火热我比较看好的方向Transformer和Self-Supervised,我这里举的例子倾向于计算机视觉方向.最后再补充Zero-Shot和多模态两个方向. 1.Transformer ...

  2. 2021年深度学习哪些方向比较新颖,处于上升期或者朝阳阶段,比较有研究潜力?

    可解释性:feature-based研究的很多了,instance-based个人感觉在上升期,从研究的角度来说缺乏benchmark/axiom/sanity check. 主流方法是influen ...

  3. 2021年,深度学习还有哪些未饱和、有潜力且处于上升期的研究方向?

    作者丨谢凌曦.数据误码率.Zhifeng 来源丨知乎问答 编辑丨极市平台 问题链接: https://www.zhihu.com/question/460500204 0 1 作者:谢凌曦 来源链接: ...

  4. 2021年深度学习哪些方向比较有研究潜力?

    来源:知乎问答 作者:陀飞轮.Zhifeng.谢凌曦 转自:极市平台 深度学习成为近些年来较为热门的领域,算法工程师这一岗位也变得越发的抢手,尽管已经踏入了这一领域但对整体的大环境其实是还不能够准确的 ...

  5. ACM MM 2021|基于深度学习的图像水印去除

    作者丨牛力@知乎 来源丨https://zhuanlan.zhihu.com/p/398435169 编辑丨3D视觉工坊 随着互联网时代的兴起,图片的版权保护得到了广泛的关注:为了声明图片的所有权, ...

  6. 【李宏毅2021机器学习深度学习——作业2 Classification】 Phoneme Classification 记录(双过strong baseline)

    文章目录 实验结果:(已过 strong baseline) 可视化实验记录:(稳定在0.75升不上去了,50个epoch可以收敛了) 修改记录: 改进想法: 做完这个实验应该有的收获: 参考资料: ...

  7. 2021年深度学习主机配置推荐

    点击上方"CVer",选择加"星标"置顶 重磅干货,第一时间送达 作者丨小马哥@知乎(已授权)编辑丨极市平台 来源丨https://zhuanlan.zhihu ...

  8. 【李宏毅2021机器学习深度学习】作业讲解 笔记收藏 课程主页

    作业仓库 15个作业仓库 作业参考 大佬代码参考 参考2–目前只有1-3作业? 笔记收藏 21 年 课程主页 sample code & slide 21 年笔记 20 年笔记 [<20 ...

  9. 2012-2022:深度学习十年后是撞墙了吗?Hinton、LeCun、李飞等大佬纷纷发声

    来源:机器之心 自 2012 年,以 AlexNet 为代表的深度学习技术突破开始,至今已有 10 年. 10 年后,如今已经成为图灵奖得主的 Geoffrey Hinton.Yann LeCun,I ...

最新文章

  1. Open3D DbScanClustering聚类算法
  2. linux oracle手动启动两个实例
  3. 参数 中_理解JavaScript中函数的参数
  4. Java容器-面试题
  5. 【leetcode】726. Number of Atoms
  6. Unity2018引用System.Windows.Forms.dll发布报错
  7. Spark Mllib里相似度度量(基于余弦相似度计算不同用户之间相似性)(图文详解)...
  8. Web全栈工程师基本素养
  9. 纬地道路纵断面设计教程_纬地道路辅助设计系统教程 (纵断面设计).doc
  10. 怎么将kux格式视频转换成MP4格式
  11. ICCV 2021 口罩人物身份鉴别全球挑战赛冠军方案分享
  12. oracle 磁带备份,磁带备份 - Linux下实现自动备份Oracle数据库_数据库技术_Linux公社-Linux系统门户网站...
  13. 云创办公智慧企业丨企业的下一个前沿阵地
  14. ORACLE隐式类型转换
  15. python读取部分文件_Python文件读取部分,python,篇
  16. Facebook 登录、分享
  17. 政府的工作流千变万化怎么办(2)
  18. 空间存储公链(SSCC):共建数字化特性的共识价值和存储网络
  19. 文件夹加密码的方法有哪些?文件夹加密方法盘点
  20. 产品8D报告是指哪8D步骤

热门文章

  1. 计算机根服务器 信息安全,信息安全课件
  2. php中的递归算法,PHP递归算法(四)
  3. ha linux 设置虚拟ip_如何在虚拟机中设置CentOS静态IP?
  4. python网络爬虫软件哪个好用_好好学Python,入门网络爬虫之精华版!
  5. 2020蓝天杯论文评比系统_教师写作:专业表达的快乐旅行 2020梅小暑期教师教育论文、教育随笔、读书心得评比结果...
  6. 【Linux】kali 2019.4 安装中文输入法
  7. Esxi 6.5u2升级Esxi 6.7
  8. 在c 语言中 一个函数由函数头和,C语言程序设计基础教程_习题答案
  9. sql sum 结果集不为零_sql语句分类练习题
  10. 北语20春oracle数据开发2,北语20春《Oracle数据库开发》作业3题目【标准答案】