博客 | Machine Learning Yearning 要点笔记

https://mp.weixin.qq.com/s/vsNnuLerxpgFy1NiCA5rsg

Andrew Ng. 的新书终于出完了。薄薄一百多页的小册子，翻下来其实是一堆实操经验集合。感觉还是有一定借鉴意义的，按照我自己的理解简单地整理如下，也不展开说了。有过实际经验的肯定心里有数。

新成果的驱动因素：数据，算力
数据集的划分：val & test
val & test 应当来自相同的分布
how large? 足够区分算法之间的（精度）差异
建立单一的评估指标，并通过不断迭代以优化和满足之
初始化 val & test 数据并建立 metrics，但要逐渐完善它
快速建立系统并迭代而不是一开始精心准备“完美”的东西
错误分析：查看 val 集中的错误样例，评估提升性能的所需，并行地尝试所有 ideas（节省时间，评估改进的作用）
val 集纠错——随系统改善决定是否纠错
val 集较大时，分成两部分：一部分用来查错（较小的）（eyeball），一部分用来调参（blackbox），二者不能重合（防止对后者过拟合。eyeball
集应该大到让你了解主要的错误类别（所以必须随机）
偏差和方差：对训练集的拟合程度和在测试集上的表现
过拟合和欠拟合
对比最优错误率（贝叶斯错误率，如以人为基准的系统）/进行偏差&方差分解，找到当前需要侧重解决的问题
可避免偏差较大，则增加模型的容量；方差大则增加训练数据集规模
偏差-方差权衡通常是困难的
减小偏差的方法：增加模型规模，基于错误分析改进输入（特征），减少正则化，修改模型架构
对训练集的错误分析：如何提升模型的表现/拟合能力（通过改进输入）
减小方差的方法：增加数据，正则化，早停，特征选择，减少模型规模（慎用），基于错误分析改善输入（同上），修改模型架构（同上）
方差&偏差诊断：观察 learning curve（局限：新增数据难以用于评估）
learning curve 使用：对比 dev error，train error 和期望 error
对小样本数据需要极其谨慎
与人类水平的表现比较的意义：人类标签容易获取数据，可以利用人类的直觉/知识，以人类的性能去评估最优错误率和设置期望
计算机超过人类的任务的特点：难以获得标签，人类的直觉/知识不管用，难以获得最佳错误率和合理的期望错误率
如何定义人类的表现：设定专家级别的错误率为期望错误率。理由参考22：获得专家标注的数据；获取专家的直觉和知识；作为最优准确率是合理的。也可根据系统的提升进度逐步设置更高的人类参考基准（使用标注数据的成本不同）
超越人类的表现：算法不如人类时提升较快，超过人类后提升变慢。算法超过人类后仍可继续发展，如从人类处获得比算法转换质量更高的数据、利用人的知识和直觉加强对处理方法的理解、将人的最佳表现作为研发的期望，以及，“智能”系统的开发是没有止境的，输入变化任务随之变化，人能适应这些变化而机器不能。因此仍需将人作为开发中重要的参考基准
何时需在不同分布的数据上进行训练和测试：将额外获得的大量数据加入训练集作为辅助训练样本（但不要期待过高的提升）
是否使用全部数据？根据使用的模型做出决定，以及“外部”数据是否与任务相关、是否与基础训练集“高度”一致
加权数据：为不同数据设置不同的训练权重
训练集到验证集的泛化问题：欠拟合（通常可避免），过拟合，数据不匹配（train vs. val/test）。可设定四个数据集用于评估：训练集，训练子集，开发集，验证集。后两者应来自相同分布，用于评估泛化能力。训练子集用于跟踪训练进度
确定偏差、方差和不匹配错误：根据29中不同子集上的表现做出判断
人工合成数据：叠加（混音），剪接，加噪等
优化验证：判断问题出在优化过程还是目标函数上
强化学习的通常模式（略）
端到端学习的缺点：小数据上表现差，无法应对过于复杂的系统（应分模块）
构建管道：按功能，按特性，按效率。从简单到复杂，从底层到高层
分模块的错误检查
定位错误所在：逐个环节检查输入输出。设定“完美”的输入/输出以检查某环节上的错误
每个环节的表现与人类水平比较，逐步提升
有时每个环节工作良好，但整体表现差：跟管道的设计有关。整合模块/环节的方式也可能有问题。

博客 | Machine Learning Yearning 要点笔记相关推荐

撒花！吴恩达《Machine Learning Yearning》完结！
点击上方"AI有道",选择"设为星标" 关键时刻,第一时间送达! 阅读本文需要 2 分钟前几天,红色石头还在发文给大家整理了吴恩达新书<Machine ...
读书笔记1|深度学习入门：Machine Learning Yearning
Machine Learning Yearning中文版有一段时间有点摸不着头脑,因为是自学python,深度学习,分类太多,人脸识别,对象检测,对象追踪,图像处理,语义分割等.有点眼花缭乱,太多细 ...
python解zuobiaoxi方程_吴恩达《Machine Learning》精炼笔记 2：梯度下降与正规方程
作者:Peter 红色石头的个人网站: 红色石头的个人博客-机器学习.深度学习之路www.redstonewill.com 今天带来第二周课程的笔记:梯度下降与正规方程. 主要内容: 多维特征多变 ...
台大李宏毅Machine Learning 2017Fall学习笔记 (13)Semi-supervised Learning
台大李宏毅Machine Learning 2017Fall学习笔记 (13)Semi-supervised Learning 本博客参考整理自: http://blog.csdn.net/xzy_t ...
台大李宏毅Machine Learning 2017Fall学习笔记 (11)Convolutional Neural Network
台大李宏毅Machine Learning 2017Fall学习笔记 (11)Convolutional Neural Network 本博客主要整理自: http://blog.csdn.net/x ...
林轩田机器学习技法（Machine Learning Techniques）笔记（一）
终于到机器学习技法了,接下来还是尽量保持每章完结就立刻更吧..基石没有保持写完就更,现在回头不知道自己在写啥,看笔记感觉写得一塌糊涂,感觉翻车了.慢慢改进吧. 听说技法挺难的,贴一下大神博客来加持一发 ...
AI实战圣经《Machine Learning Yearning》第1-52章中英文版pdf分享
<Machine Learning Yearning>是机器学习泰斗Andrew NG花了近2年时间,根据自己多年实践经验整理出来的一本机器学习.深度学习实践经验宝典.本书的重点不在于教授 ...
撒花！吴恩达《Machine Learning Yearning》中文版新鲜出炉！
红色石头的个人网站:www.redstonewill.com 我相信红色石头的很多读者朋友都受惠于吴恩达的 deeplearning.ai 专项课程.红色石头也不例外,之前在我的公众号里连载了 dee ...
重磅 | 吴恩达新书《Machine Learning Yearning》1-52 最新章节分享
. 说起吴恩达(Andrew Ng),很多人都并不陌生,红色石头也是吴恩达普及人工智能的受惠者.从 Coursera 的<Machine Learning>,再到 deeplearning ...

博客 | Machine Learning Yearning 要点笔记

博客 | Machine Learning Yearning 要点笔记相关推荐

最新文章

热门文章