漫谈机器学习

完成第一幅初稿 完成终稿
1945年12月5日 1946年1月17日

前言


上面的画就是20世纪最著名的抽象派画家毕加索于1946年1月17日完稿的画作——公牛,寥寥几笔,勾勒出公牛的“特征”。很多人可能会觉得也许小学生也会画出上面的画嘛,但大师和小学生的区别就在于,大师得出这个终稿的过程是对一个哲学命题的探究——到底什么是“公牛”?到底缺了什么“特征”就不再是“公牛”?而小学生如果可以画出类似的画作,那是他对世界认识的本能。也许结果是一样的,但他们背后逻辑的深度是不同的。

泛化能力

这幅画留下的公牛最重要的特征有这么几个:

  • 长长的犄角
  • 长长的尾巴
  • 宽大的身躯
  • 粗短有力的后腿
  • 不可或缺的小丁丁

就拿最不起眼的尾巴来说吧,把它剪短,会怎么样?

还是公牛吗?还有当初的霸气吗?我总觉得它像一只体型肥胖的公羊。所以你不得不佩服毕加索这位算法工程师的功力,他不仅用“主成分分析”找到了最关键的维度,还精确计算出了特征的数值。

如果还觉得还不够有说服力的话,我们再做一个试验,把公牛的犄角截断一点点。

截断犄角的“公牛”还是公牛吗?也许它是,但却没有当初那般斩钉截铁了。因为少了几分攻击性,也许还是牛,却多了点鹿和羊的规规矩矩的温顺感。

当然,肯定还有同学对“小丁丁”这个特征感兴趣,我觉得这个试验就不用做了,你说把一个公牛净身之后,它还是不是公牛了…

所以,毕加索做对了两个事情让公牛成为了公牛
一是 找对了特征维度,二是 找对了特征值

过拟合

这是毕加索的于1945年12月5日创作的公牛初稿。它是“公牛”吗它是
它有什么特征使之成为一头公牛?too many。。

毕加索的训练“公牛”这个模型的目的是什么?他要探索的是一个哲学问题,到底什么使公牛成为一头公牛这幅初稿是他的答案吗?也许是,但离真相差的太远。因为它太过具体,具体到我们不知道是不是因为皮肤的纹理造就了一头公牛,还是跟马没什么区别的眼睛造就了一头公牛。

如果训练到这步就贸然上线,会有一个致命的问题:
样本中任何特征的特征值的改变,都可能会导致这个样本不是公牛的结论。

比如你说这幅画是公牛,难道去掉那些身上的纹理就不是公牛了吗?显然不是。而这个复杂模型必然会导致大量样本的误判,准确率高,召回率低,这就是模型“泛化”能力严重不足的问题。

显然,毕加索是深知这一点的,正因为要提升模型的“泛化”能力,才有之后的十几次调参甚至改变模型结构的过程。

欠拟合


最重要的几个特征缺一不可:

  • 长长的犄角
  • 长长的尾巴
  • 宽大的身躯
  • 粗短有力的后腿
  • 不可或缺的小丁丁

意识到“泛化能力”差这个问题之后,毕加索经过十几次的连续创作,才最终得到了我们上面看到的抽象主义作品——公牛。也许这不是全局最优解,但绝对是非常接近真相的局部最优解之一。

模型能力

在构建模型的时候,我们总说线性模型的表达能力是弱的,需要更强大的特征提取能力保留更多信息,为什么?毕加索给了我们答案,在公牛的终稿中,他保留了五个特征:

  • 长长的犄角
  • 长长的尾巴
  • 宽大的身躯
  • 粗短有力的后腿
  • 不可或缺的小丁丁

你能说满足其中四个条件的样本就是“公牛”吗?通过之前对于终稿的修改,我们已经非常明确的知道答案是否定的。只有满足这五个特征组成的“组合特征”,这才能是一头公牛。

因此,我们不能割裂的看这五个特征。

调参技巧

无数人说过机器学习的调参过程是一个炼金的过程,机器学习模型特别是深度学习模型的调参过程真的是碰运气吗?是也不是,我们的确无法预测深度学习的结果,但我们可以通过调参的经验和直觉加快寻找到正确参数的速度。在这一点上,毕加索无疑也是优秀的。他做对了两件事情快速完成了模型训练:

  1. 必要时候改变模型结构
  2. 在一条路上要做到极致

在我看来,毕加索在寻找真相的过程中最重要的一次转变是第三幅到第四幅的转变。


他做了什么?
他加入了线条!

他发现线条相比色块更能抓住问题的核心,拥有更强的表达能力和泛化能力,正是他用“线条”这个“模型”替换了“色块”这个“模型”,让他拥有了进一步接近真相的可能。

加入线条之后,他经历了8次演进,他几乎摒弃了所有细节,做了各种尝试,才最终找到那最后一幅的真相

从1945年12月5日完成第一幅初稿,到1946年1月17日完成终稿,毕加索花了一个半月的时间完成了“模型训练”,从中你学到了什么?

漫谈机器学习的【泛化能力】【模型能力】【调参技巧】_CodingPark编程公园相关推荐

  1. 机器学习 算法总结(二) 调参技巧

    偏差和方差 在统计学习框架下,Error = Bias + Variance.Error指的模型的预测错误率,由两部分组成,一部分是由于模型太简单而带来的估计不准确的部分(Bias),另一部分是由于模 ...

  2. 深度学习网络调参技巧

    深度学习网络调参技巧 本文转载自[炼丹实验室],讲了一些深度学习训练的技巧,其中包含了部分调参心得:深度学习训练心得.不过由于一般深度学习实验,相比普通机器学习任务,时间较长,因此调参技巧就显得尤为重 ...

  3. 手把手系列—风控模型的调参方法和实际应用

    序言: 大数据时代的风控体系必有模型部分的参与,用策略贯穿整个风控体系,以数据为驱动,模型一定是标配内容.于是在模型的建设上,如何精细化地输出一套有效的模型,就是在精细化管理上非常重要的一个差异点.不 ...

  4. sklearn快速入门教程:(四)模型自动调参

    上个教程中我们已经看到在sklearn中调用机器学习模型其实非常简单.但要获得较好的预测效果则需要选取合适的超参数.在实际的项目中其实也有不少参数是由工程师借助其经验手动调整的,但在许多场景下这种方式 ...

  5. ML之RF:基于葡萄牙银行机构营销活动数据集(年龄/职业/婚姻/违约等)利用Pipeline框架(两种类型特征并行处理)+RF模型预测(调参+交叉验证评估+模型推理)客户是否购买该银行的产品二分类案例

    ML之RF:基于葡萄牙银行机构营销活动数据集(年龄/职业/婚姻/违约等)利用Pipeline框架(两种类型特征并行处理)+RF模型预测(调参+交叉验证评估+模型推理)客户是否购买该银行的产品二分类案例 ...

  6. 手把手写深度学习(18):finetune微调CLIP模型的原理、代码、调参技巧

    前言:在前面的博客<手把手写深度学习(16):用CILP预训练模型搭建图文检索系统/以图搜图/关键词检索系统>中介绍了如何在图文检索.以图搜图.关键词检索等任务中使用CLIP.这篇博客重点 ...

  7. 深度学习这么调参训练_聊一聊深度学习中的调参技巧?

    本期问题能否聊一聊深度学习中的调参技巧? 我们主要从以下几个方面来讲.1. 深度学习中有哪些参数需要调? 2. 深度学习在什么时候需要动用调参技巧?又如何调参? 3. 训练网络的一般过程是什么? 1. ...

  8. 深度学习这么调参训练_深度学习调参技巧

    训练技巧对深度学习来说是非常重要的,作为一门实验性质很强的科学,同样的网络结构使用不同的训练方法训练,结果可能会有很大的差异.这里我总结了近一年来的炼丹心得,分享给大家,也欢迎大家补充指正. 参数初始 ...

  9. 天下苦深度强化学习久矣,这有一份训练与调参技巧手册

    ©作者 | 申岳 单位 | 北京邮电大学 研究方向 | 机器人学习 天下苦 RL 久矣,其中最苦的地方莫过于训练和调参了,人人欲"调"之而后快. 在此为 RL 社区贡献一点绵薄之力 ...

最新文章

  1. html设置表格平分,如果未知数量,如何在HTML表格中均匀分配列宽?
  2. Android 系统镜像: boot.img kernel.img ramdisk.img system.img userdata.img cache.img recovery.img
  3. DOM获取元素位置的三大系列offset/scroll/client
  4. linux网络编程之SCTP套接字常用接口
  5. JavaScript(一)---- 概述
  6. Kubernetes的系统架构与设计理念
  7. 软件配置管理(CN) Google讨论组
  8. Codeforces 500D. New Year Santa Network
  9. 统计学基础知识(一)
  10. FPGA实验-VGA显示
  11. OFDM系统中的信号检测算法分类和详解
  12. cadence17.4 - Checking Hostname and HostID in license file Match Failed
  13. 休闲娱乐 - 减肥餐
  14. 慎用鲁大师 360等软件
  15. 公众号回调,突破每月只能修改三次的限制
  16. 【必会系列】Switch详解
  17. 史上最严数据保护条例欧盟GDPR今日生效,你可能需要这版中文全文(下)
  18. Pub failed to delete entry because it was in use by anothe
  19. 使用scp把另外一台服务器上的文件夹/文件拷贝到当前服务器
  20. 14期《时不我待,岁不我与》10月刊

热门文章

  1. 初级会计资料-常用会计分录(四)
  2. C/C++编程笔记:详解三种指针(悬空指针、空指针和野指针)
  3. qduoj 交通规划
  4. 实战视频教程- RK3399 Android10.0 驱动/内核开发
  5. 高手的定胆方法(待验证)
  6. iPad Mini将成为苹果新摇钱树的10大理由
  7. 100个go语言面试问答合集_golangde_SQL
  8. android wifi设置dhcp,如何在Android上配置WIFI共享(热点)的DHCP设置?
  9. 设计师、游戏建模师电脑配置推荐,史上最全的配置单
  10. Verilog实现SPI主机通信