链接：https://www.zhihu.com/question/390783647

编辑：深度学习与计算机视觉

声明：仅做学术分享，侵删

本人研究方向是语义分割（研一），但目前学习有些迷茫，目前感觉在自己只知道一些fcn，unet，deeplab等模型，看的论文也大多是语义分割模型构建之类的，然后在自己做模型也就是（空洞卷积，编码解码结构，restnet，fuse，concat一顿组装）结果还惨不忍睹，感觉自己自从看完哪些必要的网络结构模型外，已经很久没有提升了。

不知道自己应该如何提升，看的论文除了构建模型结构，还要看哪些？或者学习哪些知识？

你有这方面的疑惑么？

我们看看其它小伙伴的高赞回答。

作者：Jianping Shi
https://www.zhihu.com/question/390783647/answer/1233078978

最初觉得一语道破各种trick的回答大快人心，道出了几年中我的心中所想，再后来随着昨天李沐团队风波的帖子，渐渐感受到的是，当技术突破趋于平缓后，行业中的众人无可奈何，于是来给大家讲讲这几年积累的不同的思路

时间线拉到五年前，那时快要phd毕业的我已经将近消极怠工快一年。达到毕业要求后，停下了写（那些不那么work的）paper的节奏，读了很多深度学习的论文，眼看着行业这两年突飞猛进，各大数据集精度每年上涨10%，身边各位大佬们都在做着前一年想都不敢想的事情，想着什么时间我也能真正做些work的，能有真正突破的，有用的技术

当时笔记本上立的flag

随后毕业加入了商汤。那时候的商汤还是个大研究院，我对商汤的初始工作的认知来自于MSRA，因为这边的leader和小伙伴们也都来自于MSRA。。。5月到北京跟旭东聊，因为分类、检测、关键点这些重要方向都有人在做，于是分配给了我语义分割的方向，于是在随后的好几年中，我的小组的名字，除了叫建萍组，就叫是图像视频分割组。看来也真是很适合回答这个问题的了。

15年的商汤并没有什么确定的行业方向，在这一年，我一直在复现各个方向的算法，也在做些遥感、人像分割的行业应用。16年暑假师弟恒爽来实习，一起做了PSPNet的方案，终于如愿以偿拿到了第一个世界第一，并把各个leaderboard刷高10个点，达到了一年前梦想的状态。

那时的感觉非常棒，自己想要的达到的目标终于实现了，做了一些work的方案，推动的行业的边界，把圆圈上的一个小点往前推了一点点。

在此特别感谢恒爽给力的输出，也要感谢公司丰富的计算资源，训练平台组/IT组的大力支持解决各类代码隐藏bug（特指多卡BN）、集群相关问题，以及公司/mmlab里各个train model的大佬提供的base model。后来想想看，这样的成绩确实无法在一年前读PhD的时候达到，没有这么多GPU做大规模训练尝试这么多方案，也没有这么多人能够协助系统的解决大数据、大实验量遇到的问题，更没有各位train base model的大佬提供的模型，推进深度学习的边界确实是工业界更有效

下个问题，16年之后做了什么，也就是语义分割该如何走下去呢？当时也在想这个问题。

其实核心原因是确实Cityscapes和ADE20K再刷10个点太难了。于是，接下来的几年，绕开核心问题，主要做了几个方向

语义分割问题的各类Extension：

怎么训分割小模型 : ICNet
怎么做视频分割 : 刷了Davis Dataset，低延迟的视频分割算法
Segmentation+各类Attention : PSANet，Context Encoding for Semantic Segmentation

语义分割问题的兄弟问题们（长得像Segmentation的各类问题）：

Instance Segmentation（题目就带Segmentation，当然算兄弟问题），刷了几年coco比赛：PANet，HTC，也算是把Detection和Instance Segmentation在coco上刷高了10个点
Object Detection（Instance Segmentation也就同时做了Object Detection）：Libra-RCNN
车道线检测（其实应该叫车道线分割问题）：Spatial CNN
Stereo Matching（全像素预测问题）：SegStereo（没错，就是Segmentation+Stereo，走A+B的方向）
Depth/Optical Flow（全像素预测问题，试图使用CNN来解决几何问题）：GeoNet

再往后，机缘巧合负责了公司的自动驾驶方向，有了更多的业务压力，也在实际过程中确认了哪些才是真实场景中的核心问题，又去推动其他的一些方向

怎么能够更高效的利用数据

Domain Adaptation（怎么更好的把各类不同源的数据用起来）：Penalizing Top Performers: Conservative Loss for Semantic Segmentation Adaptation、IBN-Net
利用GAN生成数据来扩充训练集：Generative Adversarial Frontal View to Bird View Synthesis、Towards Instance-level Image-to-Image Translation

Lidar感知方向（L4的自动驾驶使用点云比摄像头现阶段更可靠）

Lidar检测：PV-RCNN
Lidar MOT：mmMOT

做了这么久的Segmentation，总结下语义分割本身的问题，Segmentation给出像素级的输出，在学术界看，这是最自然的图像表达形式，但是在实际应用中却并不好用。其核心原因是Segmentation没有结构化的输出，没有办法让下游应用更有效的接入，不像Detection、Keypoint、Tracking等的应用本身就是下游需要的输入形式。所以语义分割可以表示一切，却也需要碰到每个问题都需要design一套后处理来接入。如果我们需要更结构化的输出表示，那么或多或绕会绕回到Bbox, Keypoint, 3D Bbox等形式。显然的，Instance Segmentation也有类似问题，所以这个问题定义本身更像是学术界制造的产物，不如Detection好用，大多数情况没必要预测mask。

但是语义分割的好处，首先，可以将分割问题看做其他问题的backbone的优化，所以分割所做的各种module，可以直接加到其他方案中（形成所谓A+B的套路方法），反之亦然。其次，同语义分割类似的像素级应用，把最后一层softmax换成回归，你将收获一大批其他同类型问题（同理可以套用A+B到C等的相关套路）。

但是很遗憾的是，在实际业务的应用中，因为有着各种算力限制、芯片支持方案限制，大部分的学术界Paper的方案都不太work，或者是算力换取的性能提升不够。深度学习的精髓越来越变成了如何快速、准确的获取训练数据。在此，工业界的研发与学术界的论文开始走上了不同的岔路，怎么更好的定义问题（怎么教标注员标数据），怎么更高效的标注数据（怎么标便宜）变得更为重要

当然，打了这么多比赛，也总结出了打比赛的套路，假如某个领域在一个比赛周期内一年的时间中，能够持续的将核心指标每年提升10%，那么这个行业是飞速成长的，技术更新换代很快，能带来的业界的机会也非常多，想象力也非常大（但不去做你怎么知道做不到呢？）。反之，整个行业技术在缓慢改进阶段，之前快速进步时遗留的各种问题都会暴露出来，技术的突破带来的改进会越来越少，能够体系化作战，真正解决实际问题反而变成更重要的方向。

再拓展下，当精度提升2%个点对项目推进、业务发展没有本质帮助时，会慢慢发现，团队管理、战略方向选择等，本身变成了更重要的事项。然而，他们大多也可以通过像做Research一样，走着如下的套路：定义问题、文献调研、复现SOTA、分析实验、总结与提出新方案（毕竟前人已经写过很多管理学、战略分析、精益运营的文献，还开了很多的课程）

于是，语义分割这个问题本身并不完全重要，学会做Research的思路，并能够在新遇到的、更重要的问题上举一反三更重要。毕竟孙正义的第一桶金也是通过A+B的idea获得的。

作者：ICOZ
https://www.zhihu.com/question/390783647/answer/1223513344

主要是看你追求的理想是什么了，如果是对业界科研界有很大的雄心，你可以硬啃fully supervised segmentation的setting。但是这种突破别人很难给你建议，你需要有大量的积累才能做出有亮点的创新，而且往往这些积累来自于其他的task。

或者一些比较实用性的方向，

1.轻量级语义分割。把参数量，计算时间等因素考虑进来，或者做一些low bit，二值化的网络，便于落地到移动设备里。

2.NAS for segmentation。Deeplab的作者最近搞了挺多，坑也不多了。

3.interactive segmentation。在deeplearning之前，这个做的很多。现在结合DL之后，也慢慢多起来了。用来抠图实用性还是很大的。

也可以考虑更多的setting，

1.weakly supervised segmentation。这个也趋近于饱和了，做的最多的就是 image label supervision。还有其他的extreme point， bounding box，scribble等等等。

2.few shot segmentation。小样本学习和分割结合，目前还在起步阶段，paper日渐增多。

3.co segmentation/group segmentation。传统的segmentation task，结合新的数据集和DL，又有了新的benchmark。

或者考虑其他分割相关task

1.video segmentation。非常硬核，卡少最好别做。

2.点云分割。

3. panoptic segmentation。语义分割和实例分割一起做，更加的有挑战性。但是越是复杂的task，可发挥的地方就越多。也是卡少劝退。

作者：FTYang
https://www.zhihu.com/question/390783647/answer/1183126491

个人感觉现在纯做2D语义分割且不能再网络结构上有大的进步的话，已经很难再有突破了。个人建议可以把研究方向向：instance分割，视频分割，点云分割拓展一下，或者也可以研究具体工业运用的方法，比如：网络剪枝，弱监督，在线学习等。当然GAN，胶囊网络，图网络也是可以摸一摸的。

楼主研一就已经把这些主流的网络都刷了一遍，我大胆猜测向CS231这类的课应该也是都看过了。根据楼主所说：

（1）如果是直接从github上下模型，用人家预处理好的dataset，还是train不好，排除别人代码有问题的情况，那很有可能是对tensorflow或者pytorch之类的学习框架理解还不够，建议多看看相关教程。

（2）如果是套模型到自己的dataset上效果不好，很有可能是对模型或者深度学习没有真正理解。这个时候建议看看Goodfellow的Deep Learning 或许会有帮助。

深度学习本来就是个大坑，对于语义分割这种纯监督学习的方向，有时候调参比改网络提点还要明显。个人感觉是比较浪费时间且吃经验的。

作者：Fisher Yu
https://www.zhihu.com/question/390783647/answer/1245032140

想结合自己的研究经验的谈谈我的看法。

总体上来说，我觉得好的研究或者论文需要明确指出现有方法的问题，有独到的见解，提出可靠的解决方案，并证明该研究在相关领域潜在的影响力。

这里面最难的可能是指出现有方法的问题，为大家指出新的方向。当然了，这样做项目的风险也比较大，因为要自己立意的话会遭到很多的质疑，这也可能是为什么我们看到很多沿着现在已经知道的路线继续推进的论文，这样的项目可能更“保险”，但是也会让人觉得缺乏新意。

我对别人的工作可能了解不够，不知道其他人是如何发现并解决的问题的，不过我可以结合自己在这个领域的工作简单聊一聊，如果大家对这些工作的细节感兴趣，可以看看abstract或者原文，我这里只是简单说说这些工作的初衷。

在2015年大家刚开始用deep learning做图像分割的时候，我发现无论是UNet还是FCN都有物体边缘分割不准的问题，同时很多大的物体的分割有缺乏consistency的问题，也就是说现有模型对context的分析能力比较弱。

我试过一些不同的方法，后来把注意力放到dilated convolution的性质的研究上，发现这个操作正好可以同时解决边缘和context不准这两个问题。

Dilated Convolutions

后来有很多人继续用dilated convolutions做分割模型，不断提出学习feature and context的新方法。但是我注意到虽然我们的模型在精确度上不断的上升，但是输出的结果总会有一些格状的artifacts。虽然一些模型在网络的同一层中用不同的dilation，但是这种artifacts只是有所减弱，而不是真的消失。

我发现这个问题是由于网络中很多层是在做类似传统image processing上的differentiation，比如前几层一般是在做类似edge extraction或者laplacian的操作。这种differentiation会在造成spatial上不连续的信号，这些信号经过dilated convolution，就会产生格状的输出。这个就是后来的Dilated Residual Networks (DRN)这篇文章。

如果进一步地说影响力的话，我还发现一些新模型中的信号可以直接拿来做weakly supervised object localization，效果有明显的提升。

几种不同的DRN模型，中间的图片显示格状的artifacts，右侧为新的模型

另外，分割模型是很多其他计算机视觉工作的基础，因为现在大部分计算机视觉的问题都需要这种像素级别的输出，比如我后来和几位同学合作，在PairedCycleGAN中把DRN用在image synthesis上，发现去掉feature的artifacts后我们可以生成更高质量的图片。

PairedCycleGAN用DRN生成高质量的面部图片

用dilation的模型一直都有两个问题，一个是内存占用高，另一个是受内存的限制，不能直接输出原图的resolution；这个导致很多问题，比如边缘检测都需要单独的模型。这是为什么我后来做了Deep Layer Aggregation (DLA)。

我希望能找到一种模型解决不同像素级别预测的问题，DLA在分类，分割，和边缘预测上都得到了不错的效果，内存需求相比DRN也有明显的下降。后来我希望能解决optical flow和segmentation一直都是用不同模型，而且输出没有confidence signal的问题，于是做了 "Hierarchical Discrete Distribution Decomposition for Match Density Estimation" 。这里面DLA也有不错的表现。

DLA对小物体的分割和边缘的判断都很好

我希望借这几个例子跟大家说说我个人的视角。语义分割是一种最fundamental的计算机视觉的问题，这个问题上的每一个突破都会对其他的问题有新的启发，而且和representation learning有紧密的连接。

现在无论是语义分割还是representation learning，都还有很多有待解决的问题。比如语义分割如何能做到appearance，shape和scene layout的disentangled representation，使得同一个物体在不同的场景中都可以被有效地分割出来，这样我们也许只要少量数据就可以训练出非常稳定的模型。

对这个问题的理解也会帮助我们解决很多domain adaptation的问题。在这些方面，我们还需要更多的奠基性工作。

留言送书福利

为了感谢大家长期以来的支持，小编会在每次发送课程文的第二天做一次送书”活动！

在本文文末留言即可参与活动，留言内容需为主题相关，多多留言会提升中奖概率哟~~

这次选择了《Python数据分析与可视化从入门到精通》送给2位粉丝。本书以“零基础”为起点，系统地介绍了Python在数据处理与可视化分析方面的应用。既适合希望从事Python数据处理与可视化的用户学习，也适合广大职业院校作为相关专业教材，还可作为社会培训班的参考用书。

书籍详情可点击“阅读原文”查看

/ 留言主题 /

你怎么看待昨天发的《开源代码准确率99%+，人脸识别问题是否被解决了呢？》，对你有帮助么？有什么建议？

本次“留言送书”活动截至到5月29号，抽留言走心的粉丝2名 免费赠送这本书籍（走心留言将经过筛选）。届时会公布中奖者评论截图及福利领取方式~

☆ END ☆

如果看到这里，说明你喜欢这篇文章，请转发、点赞。微信搜索「uncle_pn」，欢迎添加小编微信「 mthler」，每日朋友圈更新一篇高质量博文（无广告）。

↓扫描二维码添加小编↓

语义分割如何走下去？| 文末送书相关推荐

文末送书 | WAF 那些事
Hi!,我是小小,这是小小本周的最后一篇,本篇将会介绍WAF的事情,本篇将会文末送书.在此小小举出小手,相当欢迎各位快点快点快点参加. 什么是WAF WAF是一种产品,一种web应用防火墙,通过执行一 ...
深度学习与计算机视觉群 | 文末送书
深度学习与计算机视觉③群已组建,上次开放进群,没来得及进的小伙伴,抓紧啦 .之后,我们会在交流群开展"你挑我送"为主题的送书活动哟~ 欢迎加入!!! 在过去的750天里,深度学习与 ...
真实的上海IT圈：张江男vs漕河泾男（文末送书）
点击上方"Python爬虫与数据挖掘",进行关注回复"书籍"即可获赠Python从入门到进阶共10本电子书今日鸡汤人生难得几回搏,此时不搏待何时. ...
媳妇居然在家偷偷背着我偷看我的面试笔记，一个月后拿下大厂offer！(文末送书)...
知乎热议: 到底要掌握哪些技术才能顺利的找一份20K的工作? 根据这些年的工作经验,加上网络搜集,我特意整理了一套针对职场进阶的干货! 有很多朋友靠着这些内容进行复习拿到了BATJ等大厂的offer, ...
月薪没过20K的程序员要注意了！（文末送书）
知乎热议: 到底要掌握哪些技术才能顺利的找一份20K的工作? 根据这些年的工作经验,加上网络搜集,我特意整理了一套针对职场进阶的干货! 有很多朋友靠着这些内容进行复习拿到了BATJ等大厂的offer, ...
挖槽！堪称神级的Java技术手册火了？？？（文末送书活动）
前言本文是为了帮大家快速回顾了Java中知识点,这套面试手册涵盖了诸多Java技术栈的面试题和答案,相信可以帮助大家在最短的时间内用作面试复习,能达到事半功倍效果. 本来想将文件上传到github上 ...
文末送书 | 数据分析简单入门
这是小小本周的最后一篇,本周重点!文末送书, 我是小小,下面是本期文章,为您奉上! 前言本实例将会以一个完整的例子用来阐述一个较为简单的Python数据分析.其中Python基础部分不再讲解构建数 ...
性能无敌的HikariCP数据库连接池实战（文末送书）
导读:数据库连接池在Java数据库相关中间件产品群中,应该算是底层最基础的一类产品,作为企业应用开发必不可少的组件,无数天才们为我们贡献了一个又一个的优秀产品,它们有的随时代发展,功成身退,有的则还在 ...
张益唐被曝已证明黎曼猜想相关问题，震动数学界（文末送书）
金磊 Alex 发自凹非寺量子位 | 公众号 QbitAI 文末送书活动,记得看完啊 ! 先加群后抽奖,这次仅限群友参与 Breaking News! 网传数学家张益唐,已经攻克了朗道-西格尔零点 ...
如何让Join跑的更快？(文末送书)
JOIN 一直是数据库性能优化的老大难问题,本来挺快的查询,一旦涉及了几个 JOIN,性能就会陡降.而且,参与 JOIN 的表越大越多,性能就越难提上来. 其实,让 JOIN 跑得快的关键是要对 JO ...

语义分割如何走下去？| 文末送书

你怎么看待昨天发的《开源代码准确率99%+，人脸识别问题是否被解决了呢？》，对你有帮助么？有什么建议？

语义分割如何走下去？| 文末送书相关推荐

最新文章

热门文章