你是什么时候对深度学习失去信心的？

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

作者丨霍华德、爱睡觉的KKY、信息门上飞二哈（已授权）

来源丨https://www.zhihu.com/question/544763123

编辑丨极市平台

二次转载须经原作者授权

极市导读

“越做越自闭，各种魔改的网络自己用起来根本不work 。各类文章报告的结果和自己用他们的模型文件跑的完全不一样，难道深度学习真的变成一门炼金术了吗？”

# 回答一

作者：霍华德

来源链接：https://www.zhihu.com/question/544763123/answer/2613151319

早就有些碎碎念了，随便写写，不一定有啥逻辑。

对于深度学习的现状，工业界还是很清楚的。如果没有变革性的突破，弱人工智能时代的范式应该基本就要确定了。

大模型 + 拖拖乐

基本范式就是大模型 + 拖拖乐，下游少量数据微调，在前端表现为拖拖乐形成DAG，自动生产模型。拖拖乐平台，各大云厂商都有提供，如阿里的PAI，腾讯的Ti平台、华为的ModelArts，亚马逊的SageMaker等等

对于大模型，各种网络魔改价值很有限，因为数据上去后，假设越少越好，偏置归纳越少越好，这就使得模型越朴素越好。

大模型也会成为各大公司的核心资产，所有数据向大模型汇聚，试图记下互联网上的一切数据。然后，一键蒸馏小模型，一键剪枝，一键压缩，一键部署，一键一条龙。

深度学习规则化

越来越觉得，深度学习变成一种数据驱动的规则，一个模型就是一个规则。传统规则引擎里各种if-else，全靠程序员启发式完成。

深度学习规则引擎，每个规则就是个小模型。全靠算法工程师，使用数据驱动的方式训练完成。

之前大家觉得，一个强力模型包打天下。现在看来，更务实的方式的，无数小模型，组合冲击，往往效果更佳。

这就使得，原本深度学习被诟病可解释性问题，其实不再是问题。因为从业务顶层已经被拆分，拆分成一个个可以被人理解的因子，无法被合理解释的因子，项目启动的评审都无法通过。

就我熟悉的视频理解来说吧，原本以为一个强大模型，学习所有数据，出一个强力分数，然后用这个分数搞定一切。但这样的模型背后的黑箱，无法被接受。

现在，视频被从非常多个维度切分，视频清晰度、视频美观度、视频有没有log，视频有没有涉黄，视频有没有涉政，是不是ppt视频，有没有被剪裁过，有没有黑边。所有这些子任务都不需要多强的模型，更重要的是数据。

显著的 > 隐含的

另外一个感悟是，显著的优于隐含的，字幕就是优于打标签，OCR识别优于各种分类、检索、生成。因为字幕就是最显著的，其他信息都是隐含的，通过模型推测出来的。

这就产生了一个固有矛盾。在学术界，隐含的才是有难度的，才是有研究价值的，例如视频动作识别，一定要从连续的动作中理解出到底在干啥。但在工业界，这样的任务就非常难用。工业界喜欢显著的，因为问题最少。

这样的分野，会使得工业界和学术界关心的问题，慢慢发生分歧，不知道是好是坏。

刀耕火种的时代过去了

过去，算法工程师们耕作着一亩三分地，或经营着一个个手工作坊，面向业务营业。但显然刀耕火种和手工作坊时代要过去了。大型收割机已经进入农田，制造业工厂已经拔地而起，里面是一条条模型流水线。这就是生产力的发展，势不可挡。

但就像失去土地的农民，失去作坊的工匠，下步又该何去何从？

技能闭环，还是深耕？

我能想到的大概两个方向。

一个是往大模型深耕，成为大模型专家，在公司内守住一个领域的大模型。或者带着自己大模型的技能，到其他地方去用大模型降维打击。但其实能用起的大模型的地方，可能不会很多，训练的成本就很高。

一个是技能闭环，或者说就是全栈化，补充后台、前端、大数据、产品的知识，争取获得独立打造产品的能力。这样能降低被螺丝钉化的风险。

# 回答二

作者：爱睡觉的KKY

来源链接：https://www.zhihu.com/question/544763123/answer/2620368484

让你失去信心的不是深度学习，是你自己，换个其他领域，你依然会跑来问类似问题。

魔改网络网络不work？ 一个猴子+无限打印机也能写出李白的诗，有价值吗？没有任何思路的乱摸改也没有任何价值，理想时间内你也不会有任何work的结果。
各类文章报告的结果和自己用他们的模型文件跑的完全不一样？你在垃圾堆里面翻垃圾当然找不到好东西，huggineface transformers/ timm / mmdetection 这些库，无论是官方权重还是repo自己训练的权重，都能正常工作并且达到预期性能。

现在随便找一个NLP的基准任务，用2022年模型不是吊打BERT前的模型？深度学习没发展能吊打吗？BERT前也许太古早了，就说BERT类模型，绝大部分任务性能都是 deberta > roberta > bert ，这个性能提升不是只停留在论文表格里面，是大家工作、比赛、科研下游任务广泛实践得到的结论，是真真切切的提升。

实践才是检验真理的唯一标准，Kaggle上每年CV/NLP比赛的Top Model一样吗？你用之前的模型就是打不赢今年的SOTA，你告诉我没提升？那有本事不用BERT类模型拿个NLP比赛winner给我看看，我自费给你双倍奖金。

也有拿数据说事情的，数据当然重要，但是你用一个LR，你告诉我，给你无限的数据你能翻天吗？金子埋在数据里面，挖不到也不是你的，对不对？

每个研究都遵循边际效应，大家发现DL性能和数据size 正相关，用更多的数据不是应有之义吗？有标签数据用完了，最近SimCLR/Moco/BERT等无监督/自监督不也开始发展了吗？尊重下客观事实好不好。

现在的问题不是DL信心的问题，是大量小众领域根本就在乱搞，特别是一些交叉领域。

小的可怜的数据集，甚至不具备online test ，研究者直接本地test 他公平吗？没水分吗？
没有很强的benchmark ，大量低水平重复工作滚来滚去，哪怕是没水分的实验，benchmark就是个水货，比来比去没啥意义。
开源问题，开源了代码& model weight的大部分工作基本还是靠谱的，但是大量的工作没有开源，水分太多，特别是交叉领域（医学、土木、网络等交叉DL去做的）。
领域泡沫，DL火了，涌入了大量人来做，水平不错的自然推进了领域发展，但是信噪比明显低了，平均值下降了。

我的建议是，多找自己的问题，优先选择有大型且广泛认可数据集、benchmark的领域。

# 回答三

作者：信息门上飞二哈

来源链接：https://www.zhihu.com/question/544763123/answer/2614562631

我觉得dl依然还是很有潜力可挖的，只不过很多人眼光太窄了，总是在已经被很多人做过的task上面对已经相对成熟的框架做小修小补。其实dl还有很多潜在的可能，只不过需要针对新的场景去设计全新的方法和框架。

其实我也没觉得DL就是AI的终极答案了，但DL的发展一定是带动我们朝AI在前进的。即便不是artificial intelligence，那也可以是assistive intelligence。反正对我来说，我是认为智能这东西至少是包括了基于经验主义的直觉还有纯粹理性的逻辑推理，DL可能更偏向于前者一些。

不过在心中最重要的是，这十年dl的发展也让我们对过去做AI的思路有一个反思，就是很多时候end2end十分强大，过分追求中间每一步的结果都对应明确的概念反而会导致误差的累积。当然end2end不一定适合所有的场景，这需要我们仔细的去分析需求和客观条件。如果把AI（其实可以推广到各种科学问题上去）看成一个从某种observation中recover诸如semantic/structure information的inverse problem的话，那nn作为提取对应信息的数字化描述的提取器，甚至是nn自身作为descriptor，其本身完全可微且可以拟合复杂函数/关系的特性，十分适合end2end的框架。nn的另一个强大性质就是，在我们根据数目有限的observation去进行推断的时候，nn作为一个过参数的模型能够提供很好的泛化性能，这和以前认知中越复杂的模型越容易过拟合是相反的，所以这也是为什么nn会在很多领域一下让人抛弃了以前的模型。

但nn的问题在于它基本只能做prediction，而且即便是相同分布下的其他采样也不能保证百分百正确。而人类的高级智能其实是能够从大量的天文观测中抽象出万有引力定律的公式化描述，然后这个描述在相同尺度下适用于宇宙中的各个系统。但DL显然没这个能力，DL更像是托勒密那样添了一堆本轮去近似观测的结果，虽然也大差不差，但终究只是直觉的拟合，而不是严密逻辑下产生的放之四海而皆准的客观规律。但其实对于很多问题，我们很难从严密的逻辑出发去得到一种像牛顿力学那样简约的公理化体系，典型的就是cv和nlp，因为在从客观实体/关系投影产生观测的阶段牵扯了太多难以描述的噪声。nn能处理好这些问题其实已经远远超过了人类简单的形式化逻辑的能力了。而且我是认为很多问题能够做到错误率在容忍范围内的prediction其实也够用了。当然自动驾驶不在其中，我一直对完全基于DL的全自动驾驶十分怀疑。

所以与其说我依然看好dl的发展，倒不如说我认为end2end的思路和gradient的威力并没有被各个不同领域完全探索。虽然梯度的求解只涉及看上去挺简单的牛顿法，但我是觉得梯度的威力在很多cv/nlp之外的很多领域里面并没有被完全的利用到，而这并不局限于cs的研究。

好消息！

小白学视觉知识星球

开始面向外开放啦