吴恩达深度学习 | (15) 结构化机器学习项目专项课程第二周学习笔记
课程视频
第二周PPT汇总
吴恩达深度学习专项课程共分为五个部分,本篇博客将介绍第三部分结构化机器学习项目专项的第二周课程:机器学习(ML)策略(2) 。
目录
1. 进行误差分析
2. 清除标注错误的数据
3. 快速搭建你的第一个系统,并进行迭代
4. 使用来自不同分布的数据进行训练和测试
5. 数据分布不匹配时的偏差与方差的分析
6. 处理数据不匹配问题
7. 迁移学习
8. 多任务学习
9. 什么是端到端的深度学习?
10. 是否要使用端到端的深度学习?
1. 进行误差分析
如果你希望让学习算法能够胜任人类能做的任务,但你的学习算法还没有达到人类的表现,那么人工检查一下你的算法犯的错误也许可以让你了解接下来应该做什么。这个过程称为错误分析,我们从一个例子开始讲吧。
假设你正在调试猫分类器,然后你在开发集上取得了 90%准确率,即 10%错误率,这离你希望的目标还有很远。也许你看了一下算法分类出错的例子, 注意到算法将一些狗分类为猫,你看看这两只狗,它们看起来是有点像猫。 所以也许你的队友给你一个建议,如何针对狗的图片优化算法。试想一下,你可以针对狗, 收集更多的狗图,或者设计一些只处理狗的算法,为了让你的猫分类器在狗图上做的更好,让算法不再将狗分类成猫。所以问题在于,你是不是应该去开始做一个项目专门处理狗?这项目可能需要花费几个月的时间才能让算法在狗图片上犯更少的错误,这样做值得吗?或者与其花几个月做这个项目,有可能最后发现这样一点用都没有。这里有个错误分析流程,可以让你很快知道这个方向是否值得努力。
首先,收集一下,比如100 个错误标记的开发集样本,然后手动检查,一次只看一个,看看你的开发集里有多少错误标记的样本是狗。现在,假设事实上,你的 100 个错误标记样本中只有 5%是狗,就是说在 100 个错误标记的开发集样本中,有 5 个是狗。这意味着在典型的 100 个出错样本中,即使你完全解决了狗的问题, 你也只能修正这 100 个错误中的 5 个。或者换句话说,如果只有 5%的错误是狗图片,那么如果你在狗的问题上花了很多时间,那么你最多只能希望你的错误率从 10%下降到 9.5%。错误率相对下降了 5%(总体下降了 0.5%,100 的错误样本,错误率为 10%,则样本 为 1000),那就是 10%下降到 9.5%。你就可以确定这样花时间不好,或者也许应该花时间, 但至少这个分析给出了一个上限。如果你继续处理狗的问题,能够改善算法性能的上限。在机器学习中,有时我们称之为性能上限,就意味着,最好能到哪里,完全解决狗的问题可以对你有多少帮助。
但现在,假设发生了另一件事,我们观察一下这 100 个错误标记的开发集样本,你发现实际有 50 张图都是狗,所以有 50%都是狗的照片,现在花时间去解决狗的问题可能效果就很好。这种情况下,如果你真的解决了狗的问题,那么你的错误率可能就从 10%下降到 5%了。然后你可能觉得让错误率减半的方向值得一试,可以集中精力减少错误标记的狗图的问题。
在机器学习中,有时候我们很鄙视手工操作,或者使用了太多人为数值。但如果你要搭建应用系统,那这个简单的人工统计步骤,错误分析,可以节省大量时间,可以迅速决定什么是最重要的,或者最有希望的方向。实际上,如果你观察 100 个错误标记的开发集样本,也许只需要 5 到 10 分钟的时间,亲自看看这 100 个样本,并亲自统计一下有多少是狗。根据结果,看看有没有占到 5%、50%或者其他东西。这个在 5 到 10 分钟之内就能给你估计这个方向有多少价值,并且可以帮助你做出更好的决定,是不是把未来几个月的时间投入到解决错误标记的狗图这个问题。
我们描述一下如何使用错误分析来评估某个想法,这个样本里狗的问题是否值得解决。有时你在做错误分析时,也可以同时并行评估几个想法,比如,你有几个改善猫检测器的想法,也许你可以改善针对狗图的性能,或者有时候要注意,那些猫科动物,如狮子,豹,猎豹等等,它们经常被分类成小猫或者家猫,所以你也许可以想办法解决这个错误。或者也许你发现有些图像是模糊的,如果你能设计出一些系统,能够更好地处理模糊图像。也许你有些想法,知道大概怎么处理这些问题,要进行错误分析来评估这三个想法。
我会做的是建立这样一个表格,我通常用电子表格来做,但普通文本文件也可以。在最左边,人工过一遍你想分析的图像集,所以图像可能是从 1 到 100(开发集中的错分样本),如果你观察 100 张图的话。电子表格的一列就对应你要评估的想法,所以狗的问题,猫科动物的问题,模糊图像的问题,我通常也在电子表格中留下空位来写评论。所以记住,在错误分析过程中,你就看看算法识别错误的开发集样本,如果你发现第一张识别错误的图片是狗图,那么我就在相应位置打个勾,为了帮我自己记住这些图片,有时我会在评论里注释,也许这是一张比特犬的图。如果第二张照片很模糊,也记一下。如果第三张是在下雨天动物园里的狮子,被识别成猫了, 这是大型猫科动物,还有图片模糊,在评论部分写动物园下雨天,是雨天让图像模糊的之类 的。最后,这组图像过了一遍之后,我可以统计这些算法(错误)的百分比,或者这里每个错误类型的百分比,有多少是狗,大猫或模糊这些错误类型。所以也许你检查的图像中 8%是狗,可能 43%属于大猫,61%属于模糊。这意味着扫过每一列,并统计那一列有多少百分比图像打了勾。
在这个步骤做到一半时,有时你可能会发现其他错误类型,比如你可能发现有Instagram 滤镜,那些花哨的图像滤镜,干扰了你的分类器。在这种情况下,实际上可以在错误分析途中,增加这样一列,比如多色滤镜 Instagram 滤镜和 Snapchat 滤镜,然后再过一遍,也统计一下那些问题,并确定这个新的错误类型占了多少百分比,这个分析步骤的结果可以给出一个估计,是否值得去处理每个不同的错误类型。
例如,在错分样本中,有很多错误来自模糊图片,也有很多错误类型是大猫图片。所以这个分析的结果不是说你一定要处理模糊图片,这个分析没有给你一个严格的数学公式,告诉你应该做什么,但它能让你对应该选择哪些手段有个概念。它也告诉你,比如说不管你对狗图片或者 Instagram 图片处理得有多好,在这些例子中,你最多只能取得 8%或者 12%的性能提升。而在大猫图片这一类型,你可以做得更好。或者模糊图像,这些类型有改进的潜力。这些类型里,性能提高的上限空间要大得多。所以取决于你有多少改善性能的想法,比如改善大猫图片或者模糊图片的表现。也许你可以选择其中两个,或者你的团队成员足够多, 也许你把团队可以分成两个团队,其中一个想办法改善大猫的识别,另一个团队想办法改善模糊图片的识别。但这个快速统计的步骤,你可以经常做,最多需要几小时,就可以真正帮你选出高优先级任务,并了解每种手段对性能有多大提升空间。
所以总结一下,进行错误分析,你应该找一组错误样本,可能在你的开发集里或者测试集里,观察错误标记的样本,看看假阳性(false positives)和假阴性(false negatives),统计属于不同错误类型的错误数量。在这个过程中,你可能会得到启发,归纳出新的错误类型, 就像我们看到的那样。如果你过了一遍错误样本,发现有很多 Instagram 滤镜或Snapchat 滤镜,这些滤镜干扰了我的分类器,你就可以在途中新建一个错误类型,对其也进行统计。总之,通过统计不同错误标记类型占总数的百分比,可以帮你发现哪些问题需要优先解决,或者给你构思新优化方向的灵感。在做错误分析的时候,有时你会注意到开发集里有些样本被错误标记了,这时应该怎么做呢?我们下一讲来讨论。
2. 清除标注错误的数据
你的监督学习问题的数据由输入
吴恩达深度学习 | (15) 结构化机器学习项目专项课程第二周学习笔记相关推荐
- 【深度学习】吴恩达深度学习-Course3结构化机器学习项目-第一周机器学习(ML)策略(1)作业
题目仅含中文!! 视频链接:[中英字幕]吴恩达深度学习课程第三课 - 结构化机器学习项目 参考链接: [中英][吴恩达课后测验]Course 3 - 结构化机器学习项目 - 第一周测验 吴恩达< ...
- 吴恩达深度学习 | (18) 卷积神经网络专项课程第二周学习笔记
课程视频 第二周PPT汇总 吴恩达深度学习专项课程共分为五个部分,本篇博客将介绍第四部分卷积神经网络专项的第二周课程:深度卷积网络:实例探究. 目录 1. 为什么要进行实例探究 2. 经典网络 3. ...
- 吴恩达深度学习 | (2) 神经网络与深度学习专项课程第二周学习笔记
课程视频 第二周PPT汇总 吴恩达深度学习专项课程共分为五个部分,本篇博客将介绍第一部分神经网络和深度学习专项的第二周课程:神经网络基础.由于逻辑回归算法可以看作是一个单神经元(单层)的网络结构,为了 ...
- gan 总结 数据增强_吴恩达Deeplearning.ai国庆上新:GAN专项课程
Coursera 刚刚上新了 GAN 的专项课程,或许在这个国庆假期,你应该学习一波了. 作者:蛋酱 生成对抗网络(Generative Adversarial Network,GAN)是当前功能最强 ...
- 深度学习-吴恩达(C3)结构化你的机器学习工程
结构化你的机器学习工程改变了深度学习的错误 比如你分割数据的方法,分割成train,development(dev)或叫valid,test,所以最好的实践方法是什么?了解更多端对端的深度学习,进而了 ...
- Coursera 吴恩达DeepLearning.AI 第五课 sequence model 序列模型 第二周 Operations on word vectors - v2
只做了计分部分 Operations on word vectors Welcome to your first assignment of this week! Because word embed ...
- 吴恩达深度学习相关资源下载地址(蓝奏云)
蓝奏云 dropout instr.zip [吴恩达课后编程作业]第二周 - PA1 - 具有神经网络思维的Logistic回归.zip Week 3 - PA 2 - Planar data cla ...
- 花书+吴恩达深度学习(二三)结构化概率模型(贝叶斯网络、马尔可夫随机场)
文章目录 0. 前言 1. 有向模型 2. 无向模型 3. 因子图 4. 分离和d-分离 5. 从图模型中采样 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔,我会非常开心的~ 花书+吴恩达深 ...
- 吴恩达深度学习笔记——结构化机器学习项目(Structuring Machine Learning Projects)
深度学习笔记导航 前言 传送门 结构化机器学习项目(Machine Learning Strategy) 机器学习策略概述 正交化(orthogonalization) 评价指标 数字评估指标的单一性 ...
最新文章
- 从CCF的改革看中国科技社团的改革
- serum血清序列号_图文教程 将serum血清预制导入你的serum
- Mathematica笔记
- Stanford NLP 解读 ACL 2018 论文——用于调试 NLP 模型的语义等价对立规则
- 40. Combination Sum II 组合总和 II
- re.containerbase.startinternal 子容器启动失败_Python项目容器化实践(二) Docker Machine和Docker Swarm...
- 生死狙击服务器名字怎么修改,生死狙击端游怎么改名字,生死狙击端游怎么改名字?...
- WEB小知识学习集锦
- TCP数据报结构以及三次握手(图解)
- php酒店系统论文,PHP酒店网站管理系统毕业论文
- android 找不到 theme,android-找不到与给定名称'@ style / Theme.Holo.Light.DarkActionBar'匹配的资源...
- 领导周末喊程序员修bug,程序员霸气回应:在下卖艺不是卖身!
- iOS动画效果合集、飞吧企鹅游戏、换肤方案、画板、文字效果等源码
- 服务器 异常自动关机,服务器自动关机常见问题
- iVX和其它低代码平台没啥好比的 (一)
- uniapp map画多边形 打点连线
- 王者荣耀主播(孤王)过度劳累猝死 曾被誉为国服第一辅助
- 基于OpenWrt的PPTP插件开启防火墙转发
- 学会这些网站优化技巧,秒变seo专家
- SSL peer shut down incorrectly报错解决
热门文章
- 写一篇父爱为题的作文
- 2012年03月21日
- 4.28 poll API介绍及代码编写
- l2空间的完备性_科学网—话说泛函---Hilbert空间[转] - 陆慧敏的博文
- 机器学习随笔三—再生核Hilbert空间
- python王者归来 pdf下载_OpenStack开源云王者归来
- 服务器系统重装后多出一个盘,服务器系统重装后多出一个盘
- 【数据结构与算法实验】二叉树与哈夫曼图片压缩
- sklearn.LabelEncoder解决未见过值问题(eg.“y contains previously unseen labels: nan“)
- 读取azkaban数据库中的longblob数据类型