干货！底层视觉研究，我们应该往哪里走？

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

2022年8月27日，PhD Debate第十二期“底层视觉研究，我们应该往哪里走？”，特别邀请了苏黎世联邦理工大学梁经韵、中国科学院大学博士生刘翼豪、南洋理工大学博士生冯锐成和悉尼大学博士生顾津锦作为嘉宾，与大家一起探讨底层视觉研究，我们应该往哪走？

一、 Low-level Vision 中 Transformer 是未来的趋势吗？

二、如何看待实验室的技术在真实场景下效果并不好的问题？有没有什么技术是有希望有助于解决落地问题的？

三、如何看待底层视觉研究进入定式化的状态？还有哪些高价值问题值得我们探索？

四、如何看待现在底层视觉的论文发表趋势？

Low-level Vision 中 Transformer

是未来的趋势吗？

最近Transformer很是热门，也有着很多高效的Transformer设计。Transformer对于low-level的应用有什么意义呢？毕竟模型又大又慢，部署起来还很困难。

顾津锦首先分享了自己的看法，他提出Transformer近期很是火爆，但是也不乏很多研究是跟风在做。Transformer确实是比CNN效果好，但是对于Low-level Vision的意义是什么？是其带来了和CNN完全不同的东西吗？

梁经韵认为Transformer可以理解为一种新的backbone，和卷积神经网络还是有一定区别的，相当于动态的卷积神经网络。感受也越好，也有利于获取更多的信息进而恢复更多的像素。眼下对于CNN的研究也停滞了很久，Transformer的效果相比之前的CNN要提升了很多，而且我们也可以利用其出色的表达能力去探明边界。

顾津锦对梁经韵的看法提出了自己的异议，Transformer是否只是一个边际marginal的提升，而不是之前人们期待的那样呢？

梁经韵认为Transformer提供给我们的其实是一种解释的思路，大部分思路都是通过学一个映射从低分辨率图像到高分辨率图像。现在还有些思路是从感受野入手，认为感受野较大带来的效果会比较好。他还提出，high-level方面不能用pixel做token可能是因为考虑到计算量，并且他们也不需要那么精确的东西。

刘翼豪认为虽然我们将Transformer运用到low-level的过程看似一个简单的迁移，但是从实际的过程、实验和数据的角度上来说和high-level的Transformer还是有一定区别的。Low-level会先用一个CNN去把feature提取出来，之后再输入进Transformer的block，并在最后采用一个CNN去得到最后的输出图。另外，他认为这些应用最终还是要落地的，终端上肯定没有我们研究时拥有的计算性能，那么更快更小的模型也是值得我们去探究的。

顾津锦提出他听说目前有公司在用特别大的Transformer训练一个很好的模型，然后一步一步将其蒸馏到小模型上，可以取得更好的效果。但是，他认为这样的研究成本是很高的。

梁经韵补充道，low-level的好处是小模型上如果有提升，大模型上肯定也有提升。平时做实验可以简单的将层数和通道数变少，设定好一个baseline，这样的实验还是可以接受的。因为如果这样可以提升的话，变成大模型一定也会有提升。而且这样的迭代速度也很快，我们花费的时间也想会相对较少。

冯锐成提到，如今我们在手机上处理的图片分辨率都有1K甚至2K那么大，既然分辨率那么高，Transformer如果需要在移动端上处理，这是一个蛮困难的事情。

梁经韵提到如今的已经有一些模型已经实现了在手机上运行，PyTorch推出了一个帮助把模型迁移到手机上运行的package，即便速度还不是很快，但至少是已经可以在手机上运行了。

如何看待实验室的技术在真实场景下效果

并不好的问题？

有没有什么技术是有希望有助于解决落地

问题的？

顾津锦提到这个问题其实已经为学术界和工业界的很多人所注意，如去噪等在实际场景中的效果并没有那么好。未来我们是否应该去研究这个问题？又或是从什么角度去研究这个问题呢？

梁经韵提到大概有三种思路：一种是相当于给我们一堆低分辨率的图片和高分辨率的图片且彼此之间并没有配对，我们需要想办法将低分辨率的图片都变成高分辨率的。然而这方面的研究目前已经停滞；第二种是收集、配对低分辨率和高分辨率的图片。但是这样也可能存在配对不一定准的问题；第三种是设计一些真实的对话模型。目前在真实图像上还是取得了明显的效果提升。尽管设计起来较为麻烦，但是数据收集等人力成本还是不高的。

顾津锦针对梁经韵提到的第二种思路提到自己听说华为等公司目前在工业界投入很多在光学模组上，从low-level的角度来说是不是不能算作一种聪明的办法呢？

刘翼豪提到目前实验室中的low-level用到真实场景中的效果并不是很好，而无论是无监督或各种设计的方法肯定是不如有监督方法的。对于low-level，其最大的问题在于成本问题。从数据集解决这个问题的话，一方面如果要去合成数据集，我们需要对真实场景下的退化有更加明确的了解；如果对真实退化有了清晰了解之后，我们可以通过物理建模方法来模拟这个过程，近似得到一个更接近于真实采集的数据集。但是，真实场景中的许多退化是我们难以进行建模的。

顾津锦提到针对数据收集的问题，实拍收集数据对很困难。如今的各公司依旧在各自的图片库做和前些年相同的事情，他感觉工业界还没拿到比较好的工具。

刘翼豪提到如果想在真实场景落地，真实场景的数据是必须要制作的。能否在一些较少的成本和代价之下加入一些最新的技术来达到相当的效果，是值得我们后续去探究的。

顾津锦也提到其实数据才是每个公司的护城河和技术壁垒。对学术界而言，这样是否意味着学术界做的不够呢？

刘翼豪觉得数据少的时候，我们可以使其提升足够好的效果；而数据足够多的时候也会衍生出新的问题。无论是数据集少还是数据集多，总会有新的问题出现。

冯锐成补充道，确实有一类问题是难以从数学上建模的，而当下数据驱动的方式会提供很好的思路和新的解决方案。他以手机拍照的“鬼影”现象为例，提到了鬼影就是光线经过镜头多个镜片之间发生了多次反射造成的，这种问题和光的入射角度以及镜头生产工艺有关，具有一定随机性，因此难以从数学上进行建模。这种问题只能从数据的角度去处理。

如何看待底层视觉研究进入定式化的状态？

还有哪些高价值问题值得我们探索？

梁经韵提到这个问题其实是有好也有坏的，首先坏处是很容易陷入刷点的怪圈，模型好但点不够或是点刷起来了但模型没有创新型都不太行。而好处是比较起来相对其他领域也是比较公平的。无论是训练还是测试，比较起来都是十分规范的。

刘翼豪表示如今大多数做low-level问题的研究还是在跟随high-level领域的进展。之后我们可能需要逐步跳出这种研究的模式，需要关注low-level本身的独特性。其中的一些问题其实是有一些很好的数学物理建模，我们可以将它们融入到方法的设计上。因此，他认为后续应该是需要回归low-level的本质。

冯锐成提到传统上处理low-level问题大多是建模一个方程并当作优化问题，我们可以参考这种思路，把对问题的理解当作prior term，data term则是用数据驱动的方式进行mapping，这种方法围绕的其实还是我们如何把本质的prior利用起来，也是我们后续要探索的。扩散模型在今后可能是一个新的热点，从发论文的角度来看也是值得探索和研究的。

顾津锦提到他有段时间是很关注生成模型发展的，尤其是将生成模型应用到底层视觉之中。我们都看到如今的一些模型效果确实是好，高分辨率的效果也很惊艳。但是对于low-level上，他还对效果存疑，毕竟目前都是在特定的数据集上。这样的应用场景就很有限，而在一些自然图片上训练生成模型的效果又很差。同时，模型依然没有跳出模型退化的假设。

梁经韵提到如今的相关论文大多是从工程角度出发，然而只是将自己的设置套用上，但是中间的迭代过程是不会变的。

主持人毛海涛提到low-level领域中的数学物理知识，他认为深度学习之前就已经有各种各样的知识基础，而深度学习出现之后随之而来的是越来越多的暴力求解。他认为需要找一些先验知识，如给定一定的先验，但又要保留模型的可学性。

如何看待现在底层视觉的论文发表趋势？

刘翼豪提到目前low-level论文的发表还是在刷各种各样的benchmark。这个确实是目前最常见的论文发表趋势，然而大家都这样做也导致了benchmark都渐趋饱和，同时越来越难出成果。他认为现在的low-level比较欠缺一些可解释和分析类的工作，很少有人关注low-level学到了什么，而这些在high-level的工作之中是很常见的。不过，这种分析类的文章确实也很难快速聚焦到一个任务上并取得惊艳的效果，但这并不妨碍它值得我们去关注。因为这种文章是能够加深我们对深度学习和low-level各种任务的理解。同时，他也希望大家后续更关注一些实际场景。虽然有一些可以在benchmark上刷到很高的分数，但是在实际场景之中毫无作用。我们更需要关注网络的泛化性和鲁棒性，能帮助到真实场景更好的发展。

梁经韵提到自己之前投稿的被拒经历，有些审稿人觉得他文章的创新性不是很强。这也说明大家想象中是可以做出来的，但是能做成什么样子还是无法确定的，总之这还是要看审稿人的喜好。

顾津锦觉得如今的审稿人对文章的要求是非常苛刻的，即便实现的效果很好，但只要出了一点点问题就会使得文章被拒。还有刚刚提到的那些情况，如果审稿人觉得文章很容易就能读懂，那么审稿人可能就会思考是否要接收这篇文章。而如果审稿人读不太懂文章，反而很可能会选择接收这篇文章。

冯锐成也提到这些在如今的审稿中还是很常见的，他说如果自己作为审稿人会更关注文章是否有给到自己一些新的知识。而那些进行修修补补或是刷点的工作，作为科研训练是没什么问题的，但可能之后还是要对研究工作有一些更高的追求。比如找一些新的问题，如何通过自己的思考找到方法把问题解决也是一种不错的文章思路，其中解决问题体现的思路也是可以提供给他人不少有价值的东西。

刘翼豪认为文章作者本身需要不断提升自己的品味，随着能力的提升而提升自己的科研追求。现在存在论文灌水的嫌疑，也使得审稿人不免习惯性地对文章进行挑刺。作者自身也应该对自己有个清醒的认知，什么样的工作投什么样的会议，什么阶段做什么样的工作，应该向前看。对于审稿人而言，也要降低自己的戾气，多去发现不同文章的亮点。如果真的发现有问题，审稿人也可以从帮助的角度出发告诉作者应该从哪些方向改进，并将文章的亮点也不吝告诉作者。因此，无论是作为投稿人还是升高人，都要去不断提升自己、警醒自己，这样才能进入一个良性循环。

顾津锦也提到现在的审稿人在第一次留意见的时候并不是很谨慎，现在部分会议是开放式讨论机制也使得投稿人还有沟通后中稿的机会。同时他提到提到有的论文并不是因为做的很完美才被接收的，而是因为它能激发很多的讨论。

刘翼豪也说OpenReview这种开放式的讨论可以令投稿人和审稿人更多地参与到讨论和沟通中，是一个很好的机制。通过这种讨论，审稿人很可能慢慢就会发现投稿人文章的优势在哪里，从而改变对投稿人文章的看法。不过这也取决于审稿人本身对论文讨论的热情，希望审稿人能多多参与讨论。

提

醒

点击“阅读原文”，即可观看本场精彩回放

整理：林则

审核：梁经韵、刘翼豪、冯锐成、顾津锦

往期精彩文章推荐

记得关注我们呀！每天都有新知识！

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了800多位海内外讲者，举办了逾350场活动，超300万人次观看。

我知道你

在看

哦

点击 阅读原文 查看回放！

干货！底层视觉研究，我们应该往哪里走？相关推荐

CVPR 2022 Oral | MLP进军底层视觉！谷歌提出MAXIM：刷榜多个图像处理任务，代码已开源！...
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达作者:假熊猫 | 已授权转载(源:知乎)编辑:CVer https://zhuanlan.zhihu.co ...
学术新星畅谈计算机视觉科研之路：视觉研究已经成熟，跨学科方法成为趋势...
4月22日,微软亚洲研究院创研论坛 CVPR 2021 论文分享会在线上举行.来自国内外计算机视觉领域的21位优秀代表与观众零距离交流,分享了他们在 CVPR 2021 发表的最新研究成果. 本次论文 ...
华为北大等联手打造的Transformer竟在CV领域超过了CNN：多项底层视觉任务达到SOTA...
杨净发自凹非寺量子位报道 | 公众号 QbitAI 提起Transformer,就会想到BERT.GPT-3. 但其实,这个在各种自然语言处理任务中「混迹」,强大的无监督预训练模型,现在已经在 ...
预训练图像处理Transformer：刷榜多项底层视觉任务
来源|机器之心作为自然语言处理领域的主流模型,Transformer 近期频频出现在计算机视觉领域的研究中.例如 OpenAI 的 iGPT.Facebook 提出的 DETR 等,这些跨界模型多应 ...
NeurIPS 2020｜图像处理（超分、去噪等）、底层视觉相关论文汇总
AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权.平台包含了超过2.3亿学术论文/专利和1.36亿学者的科技图谱,提供学者评价.专家发现.智能指派.学术地图等科技情报专业化服务.系统2 ...
华为视觉研究路线图：三大挑战，六项计划
2020-03-30 16:13 导语:数据.模型.知识雷锋网AI科技评论按:昨天在华为开发者大会上,华为首席科学家陈雷发布的全场景AI计算框架MindSpore开源框架,引起业界广泛关注,毕竟在短 ...
深度学习专家Karpathy加入特斯拉，或将负责自动驾驶视觉研究
特斯拉称已聘请深度学习和计算机视觉专家安德烈·卡帕斯 (Andrej Karpathy) 在关键的自动驾驶仪部门挑大梁. 近日,据外媒报道,深度学习和计算机视觉专家安德烈·卡帕斯 (Andrej Ka ...
视觉研究的前世今生（中）王天珍（武汉理工大学）
视觉研究的前世今生(三) 王天珍 §3 空间知觉 §3-1概述学术界一致同意空间知觉是视觉的最高层次,也是视觉中最抽象,最难以理解的.众所周知.物体上一点发出的光线落到视网膜上只是一个点,但我们怎么 ...
视觉研究的前世今生（上）王天珍（武汉理工大学）
视觉是人类最重要的知觉,没有视觉人类很难定位,识别物体,了解坏境,得以生存发展.20世纪两次世界大战,使得西方各国,不论是为了飞机安全着陆,还是导弹精确制导,都对视觉研究有了非常大的兴趣,系列的欧洲视 ...
CVPR 2021 底层视觉最新进展分享
微软亚洲研究院 2021 CVPR 论文分享会已完美结束.今日起,CV君将根据不同类别的分享主题进行逐一分享,欢迎查收! 今日分享的主题为:底层视觉论文一论文名称:Neighbor2Neighbo ...

干货！底层视觉研究，我们应该往哪里走？

干货！底层视觉研究，我们应该往哪里走？相关推荐

最新文章

热门文章