点击上方“小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

作者丨霍华德、爱睡觉的KKY、信息门上飞二哈(已授权)

来源丨https://www.zhihu.com/question/544763123

编辑丨极市平台

二次转载须经原作者授权

极市导读

“越做越自闭,各种魔改的网络自己用起来根本不work 。各类文章报告的结果和自己用他们的模型文件跑的完全不一样,难道深度学习真的变成一门炼金术了吗?”

# 回答一

作者:霍华德

来源链接:https://www.zhihu.com/question/544763123/answer/2613151319

早就有些碎碎念了,随便写写,不一定有啥逻辑。

对于深度学习的现状,工业界还是很清楚的。如果没有变革性的突破,弱人工智能时代的范式应该基本就要确定了。

大模型 + 拖拖乐

基本范式就是 大模型 + 拖拖乐,下游少量数据微调,在前端表现为拖拖乐形成DAG,自动生产模型。拖拖乐平台,各大云厂商都有提供,如阿里的PAI,腾讯的Ti平台、华为的ModelArts,亚马逊的SageMaker等等

对于大模型,各种网络魔改价值很有限,因为数据上去后,假设越少越好,偏置归纳越少越好,这就使得模型越朴素越好。

大模型也会成为各大公司的核心资产,所有数据向大模型汇聚,试图记下互联网上的一切数据。然后,一键蒸馏小模型,一键剪枝,一键压缩,一键部署,一键一条龙。

深度学习规则化

越来越觉得,深度学习变成一种数据驱动的规则,一个模型就是一个规则。传统规则引擎里各种if-else,全靠程序员启发式完成。

深度学习规则引擎,每个规则就是个小模型。全靠算法工程师,使用数据驱动的方式训练完成。

之前大家觉得,一个强力模型包打天下。现在看来,更务实的方式的,无数小模型,组合冲击,往往效果更佳。

这就使得,原本深度学习被诟病可解释性问题,其实不再是问题。因为从业务顶层已经被拆分,拆分成一个个可以被人理解的因子,无法被合理解释的因子,项目启动的评审都无法通过。

就我熟悉的视频理解来说吧,原本以为一个强大模型,学习所有数据,出一个强力分数,然后用这个分数搞定一切。但这样的模型背后的黑箱,无法被接受。

现在,视频被从非常多个维度切分,视频清晰度、视频美观度、视频有没有log,视频有没有涉黄,视频有没有涉政,是不是ppt视频,有没有被剪裁过,有没有黑边。所有这些子任务都不需要多强的模型,更重要的是数据。

显著的 > 隐含的

另外一个感悟是,显著的优于隐含的,字幕就是优于打标签,OCR识别优于各种分类、检索、生成。因为字幕就是最显著的,其他信息都是隐含的,通过模型推测出来的。

这就产生了一个固有矛盾。在学术界,隐含的才是有难度的,才是有研究价值的,例如视频动作识别,一定要从连续的动作中理解出到底在干啥。但在工业界,这样的任务就非常难用。工业界喜欢显著的,因为问题最少。

这样的分野,会使得工业界和学术界关心的问题,慢慢发生分歧,不知道是好是坏。

刀耕火种的时代过去了

过去,算法工程师们耕作着一亩三分地,或经营着一个个手工作坊,面向业务营业。但显然刀耕火种和手工作坊时代要过去了。大型收割机已经进入农田,制造业工厂已经拔地而起,里面是一条条模型流水线。这就是生产力的发展,势不可挡。

但就像失去土地的农民,失去作坊的工匠,下步又该何去何从?

技能闭环,还是深耕?

我能想到的大概两个方向。

一个是往大模型深耕,成为大模型专家,在公司内守住一个领域的大模型。或者带着自己大模型的技能,到其他地方去用大模型降维打击。但其实能用起的大模型的地方,可能不会很多,训练的成本就很高。

一个是技能闭环,或者说就是全栈化,补充后台、前端、大数据、产品的知识,争取获得独立打造产品的能力。这样能降低被螺丝钉化的风险。

# 回答二

作者:爱睡觉的KKY

来源链接:https://www.zhihu.com/question/544763123/answer/2620368484

让你失去信心的不是深度学习,是你自己,换个其他领域,你依然会跑来问类似问题。

  1. 魔改网络网络不work? 一个猴子+无限打印机也能写出李白的诗,有价值吗?没有任何思路的乱摸改也没有任何价值,理想时间内你也不会有任何work的结果。

  2. 各类文章报告的结果和自己用他们的模型文件跑的完全不一样?你在垃圾堆里面翻垃圾当然找不到好东西,huggineface transformers/ timm / mmdetection 这些库,无论是官方权重还是repo自己训练的权重,都能正常工作并且达到预期性能。

现在随便找一个NLP的基准任务,用2022年模型不是吊打BERT前的模型?深度学习没发展能吊打吗?BERT前也许太古早了,就说BERT类模型,绝大部分任务性能都是 deberta > roberta > bert ,这个性能提升不是只停留在论文表格里面,是大家工作、比赛、科研下游任务广泛实践得到的结论,是真真切切的提升。

实践才是检验真理的唯一标准,Kaggle上每年CV/NLP比赛的Top Model一样吗?你用之前的模型就是打不赢今年的SOTA,你告诉我没提升?那有本事不用BERT类模型拿个NLP比赛winner给我看看,我自费给你双倍奖金。

也有拿数据说事情的,数据当然重要,但是你用一个LR,你告诉我,给你无限的数据你能翻天吗?金子埋在数据里面,挖不到也不是你的,对不对?

每个研究都遵循边际效应,大家发现DL性能和数据size 正相关,用更多的数据不是应有之义吗?有标签数据用完了,最近SimCLR/Moco/BERT等无监督/自监督不也开始发展了吗?尊重下客观事实好不好。

现在的问题不是DL信心的问题,是大量小众领域根本就在乱搞,特别是一些交叉领域。

  1. 小的可怜的数据集,甚至不具备online test ,研究者直接本地test 他公平吗?没水分吗?

  2. 没有很强的benchmark ,大量低水平重复工作滚来滚去,哪怕是没水分的实验,benchmark就是个水货,比来比去没啥意义。

  3. 开源问题,开源了代码& model weight的大部分工作基本还是靠谱的,但是大量的工作没有开源,水分太多,特别是交叉领域(医学、土木、网络等交叉DL去做的)。

  4. 领域泡沫,DL火了,涌入了大量人来做,水平不错的自然推进了领域发展,但是信噪比明显低了,平均值下降了。

我的建议是,多找自己的问题,优先选择有大型且广泛认可数据集、benchmark的领域。

# 回答三

作者:信息门上飞二哈

来源链接:https://www.zhihu.com/question/544763123/answer/2614562631

我觉得dl依然还是很有潜力可挖的,只不过很多人眼光太窄了,总是在已经被很多人做过的task上面对已经相对成熟的框架做小修小补。其实dl还有很多潜在的可能,只不过需要针对新的场景去设计全新的方法和框架。

其实我也没觉得DL就是AI的终极答案了,但DL的发展一定是带动我们朝AI在前进的。即便不是artificial intelligence,那也可以是assistive intelligence。反正对我来说,我是认为智能这东西至少是包括了基于经验主义的直觉还有纯粹理性的逻辑推理,DL可能更偏向于前者一些。

不过在心中最重要的是,这十年dl的发展也让我们对过去做AI的思路有一个反思,就是很多时候end2end十分强大,过分追求中间每一步的结果都对应明确的概念反而会导致误差的累积。当然end2end不一定适合所有的场景,这需要我们仔细的去分析需求和客观条件。如果把AI(其实可以推广到各种科学问题上去)看成一个从某种observation中recover诸如semantic/structure information的inverse problem的话,那nn作为提取对应信息的数字化描述的提取器,甚至是nn自身作为descriptor,其本身完全可微且可以拟合复杂函数/关系的特性,十分适合end2end的框架。nn的另一个强大性质就是,在我们根据数目有限的observation去进行推断的时候,nn作为一个过参数的模型能够提供很好的泛化性能,这和以前认知中越复杂的模型越容易过拟合是相反的,所以这也是为什么nn会在很多领域一下让人抛弃了以前的模型。

但nn的问题在于它基本只能做prediction,而且即便是相同分布下的其他采样也不能保证百分百正确。而人类的高级智能其实是能够从大量的天文观测中抽象出万有引力定律的公式化描述,然后这个描述在相同尺度下适用于宇宙中的各个系统。但DL显然没这个能力,DL更像是托勒密那样添了一堆本轮去近似观测的结果,虽然也大差不差,但终究只是直觉的拟合,而不是严密逻辑下产生的放之四海而皆准的客观规律。但其实对于很多问题,我们很难从严密的逻辑出发去得到一种像牛顿力学那样简约的公理化体系,典型的就是cv和nlp,因为在从客观实体/关系投影产生观测的阶段牵扯了太多难以描述的噪声。nn能处理好这些问题其实已经远远超过了人类简单的形式化逻辑的能力了。而且我是认为很多问题能够做到错误率在容忍范围内的prediction其实也够用了。当然自动驾驶不在其中,我一直对完全基于DL的全自动驾驶十分怀疑。

所以与其说我依然看好dl的发展,倒不如说我认为end2end的思路和gradient的威力并没有被各个不同领域完全探索。虽然梯度的求解只涉及看上去挺简单的牛顿法,但我是觉得梯度的威力在很多cv/nlp之外的很多领域里面并没有被完全的利用到,而这并不局限于cs的研究。

好消息!

小白学视觉知识星球

开始面向外开放啦

你是什么时候对深度学习失去信心的?相关推荐

  1. 零基础入门深度学习(3) - 神经网络和反向传播算法

    无论即将到来的是大数据时代还是人工智能时代,亦或是传统行业使用人工智能在云上处理大数据的时代,作为一个有理想有追求的程序员,不懂深度学习(Deep Learning)这个超热的技术,会不会感觉马上就o ...

  2. 深度学习(4) - 神经网络和反向传播算法

    神经元 神经元和感知器本质上是一样的,只不过我们说感知器的时候,它的激活函数是阶跃函数:而当我们说神经元时,激活函数往往选择为sigmoid函数或tanh函数.如下图所示: 计算一个神经元的输出的方法 ...

  3. 从2012年到现在深度学习领域标志成果

    2006年,Hinton 发表了一篇论文<A Fast Learning Algorithm for Deep Belief Nets>,提出了降维和逐层预训练方法,该方法可成功运用于训练 ...

  4. 各种优化算法公式快速回忆优化器-深度学习

    本文是Deep Learning 之 最优化方法系列文章的RMSProp方法.主要参考Deep Learning 一书. 整个优化系列文章列表: Deep Learning 之 最优化方法 Deep ...

  5. 卷积神经网络之卷积计算、作用与思想 深度学习

    博客:blog.shinelee.me | 博客园 | CSDN 卷积运算与相关运算 在计算机视觉领域,卷积核.滤波器通常为较小尺寸的矩阵,比如3×33×3.从这个角度看,多层卷积是在进行逐层映射,整 ...

  6. 矩阵的卷积核运算(一个简单小例子的讲解)深度学习

    卷积运算:假设有一个卷积核h,就一般为3*3的矩阵: 有一个待处理矩阵A: h*A的计算过程分为三步 第一步,将卷积核翻转180°,也就是成为了 第二步,将卷积核h的中心对准x的第一个元素,然后对应元 ...

  7. 深度学习优化函数详解(5)-- Nesterov accelerated gradient (NAG) 优化算法

    深度学习优化函数详解系列目录 深度学习优化函数详解(0)– 线性回归问题 深度学习优化函数详解(1)– Gradient Descent 梯度下降法 深度学习优化函数详解(2)– SGD 随机梯度下降 ...

  8. transformer bert seq2seq 深度学习 编码和解码的逻辑-重点

    参考文献: 详解从 Seq2Seq模型.RNN结构.Encoder-Decoder模型 到 Attention模型 [NLP]Attention Model(注意力模型)学习总结(https://ww ...

  9. 入门指南目录页 -PaddlePaddle 飞桨 入门指南 FAQ合集-深度学习问题

    入门指南目录页 -PaddlePaddle 飞桨 入门指南 FAQ合集 GT_Zhang关注 0.1012019.08.01 18:43:34字数 1,874阅读 795 Hi,欢迎各位来自Paddl ...

最新文章

  1. BZOJ-1024 生日快乐 DFS+一丝sb的数学思考
  2. Linux下查看系统配置
  3. linq查询不包含某个值的记录_【翻译】C#表达式中的动态查询
  4. Hibernate ehcache配置二级缓存及说明
  5. java搜索引擎: lucene学习笔记 3
  6. 记住密码的实现的2个方案
  7. 浅谈权限设计(从接口权限到数据权限)
  8. idea繁体字-中文输入法变繁体字
  9. html常用代码大全
  10. 《3D Point Cloud Registration for Localization using a Deep Neural Network Auto-Encoder》翻译
  11. 绕过disable_functions,LD_PRELOAD hijack so file
  12. 【web前端】前端性能优化指南,还不来看看?
  13. 丁火生于未月命理分析_日主丁、未月出生五行喜用分析-丁日未月生《晶灵八字算命》...
  14. Jboot v1.4.0 新增分库分表及 websocket 相关 demo
  15. 如何定位web前后台的BUG
  16. PacketTrace基本使用
  17. 对抗机器学习——FGSM经典论文 EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES
  18. python中RBG与BGR有什么不同
  19. 开心网很火了 我给大家一个开心网注册的地址
  20. 极值理论(三):POT模型

热门文章

  1. Bitmap 转 BGR
  2. docker镜像反推dockerfile
  3. linux-pclint代码检测
  4. pyqt 控件焦点_PyQt4控件失去焦点和获得焦点
  5. CentOS 7 部署 YApi 并集成ladp
  6. win10共享计算机win7,win7和win10共享文件怎么设置小方法
  7. 图像处理基本算法 车牌识别与定位
  8. 关于苹果iOS13的所有设计规范
  9. rcs文件分享java_TestRcsTwo RCS通过java编程实现NML消息通讯的功能 Linux Network 网络 240万源代码下载- www.pudn.com...
  10. 膜拜大佬!Android这些高端技术只有你还不知道,架构师必备技能