2.8 多任务学习-深度学习第三课《结构化机器学习项目》-Stanford吴恩达教授
←上一篇 | ↓↑ | 下一篇→ |
---|---|---|
2.7 迁移学习 | 回到目录 | 2.9 什么是端到端的深度学习 |
多任务学习 (Multi-task Learning)
在迁移学习中,你的步骤是串行的,你从任务 AAA 里学习只是然后迁移到任务 BBB 。在多任务学习中,你是同时开始学习的,试图让单个神经网络同时做几件事情,然后希望这里每个任务都能帮到其他所有任务。
我们来看一个例子,假设你在研发无人驾驶车辆,那么你的无人驾驶车可能需要同时检测不同的物体,比如检测行人、车辆、停车标志,还有交通灯各种其他东西。比如在左边这个例子中,图像里有个停车标志,然后图像中有辆车,但没有行人,也没有交通灯。
如果这是输入图像 x(i)x^{(i)}x(i) ,那么这里不再是一个标签 y(i)y^{(i)}y(i) ,而是有4个标签。在这个例子中,没有行人,有一辆车,有一个停车标志,没有交通灯。然后如果你尝试检测其他物体,也许 y(i)y^{(i)}y(i) 的维数会更高,现在我们就先用4个吧,所以 y(i)y^{(i)}y(i) 是个4×1向量。如果你从整体来看这个训练集标签和以前类似,我们将训练集的标签水平堆叠起来,像这样 y(1)y^{(1)}y(1) 一直到 y(m)y^{(m)}y(m) :
Y=[∣∣∣⋯∣y(1)y(2)y(3)⋯y(m)∣∣∣⋯∣]Y=\left[\begin{matrix} | & | & | & \cdots & | \\ y^{(1)} & y^{(2)} & y^{(3)} & \cdots & y^{(m)} \\ | & | & | & \cdots & | \end{matrix}\right]Y=⎣⎡∣y(1)∣∣y(2)∣∣y(3)∣⋯⋯⋯∣y(m)∣⎦⎤
不过现在 y(i)y^{(i)}y(i) 是4×1向量,所以这些都是竖向的列向量,所以这个矩阵 YYY 现在变成 4 x m 矩阵。而之前,当 yyy 是单实数时,这就是 1 x m 矩阵。
那么你现在可以做的是训练一个神经网络,来预测这些 yyy 值,你就得到这样的神经网络,输入 xxx ,现在输出是一个四维向量 yyy 。请注意,这里输出我画了四个节点,所以第一个节点就是我们想预测图中有没有行人,然后第二个输出节点预测的是有没有车,这里预测有没有停车标志,这里预测有没有交通灯,所以这里 y^\hat{y}y^ 是四维的。
要训练这个神经网络,你现在需要定义神经网络的损失函数,对于一个输出 y^\hat{y}y^ ,是个4维向量,对于整个训练集的平均损失:
1m∑i=1m∑j=14L(y^j(i),yj(i))\frac1m\sum_{i=1}^m\sum_{j=1}^4L(\hat{y}^{(i)}_j,y^{(i)}_j)m1i=1∑mj=1∑4L(y^j(i),yj(i))
∑j=14L(y^j(i),yj(i))\sum_{j=1}^4L(\hat{y}^{(i)}_j,y^{(i)}_j)∑j=14L(y^j(i),yj(i)) 这些单个预测的损失,所以这就是对四个分量的求和,行人、车、停车标志、交通灯,而这个标志 LLL 指的是logistic损失,我们就这么写:
L(y^j(i),yj(i))=−yj(i)logy^j(i)−(1−yj(i))log(1−y^j(i))L(\hat{y}^{(i)}_j,y^{(i)}_j)=-y^{(i)}_j\log\hat{y}^{(i)}_j-(1-y^{(i)}_j)\log(1-\hat{y}^{(i)}_j)L(y^j(i),yj(i))=−yj(i)logy^j(i)−(1−yj(i))log(1−y^j(i))
整个训练集的平均损失和之前分类猫的例子主要区别在于,现在你要对 j=1j=1j=1 到 444 求和,这与softmax回归的主要区别在于,与softmax回归不同,softmax将单个标签分配给单个样本。
而这张图可以有很多不同的标签,所以不是说每张图都只是一张行人图片,汽车图片、停车标志图片或者交通灯图片。你要知道每张照片是否有行人、或汽车、停车标志或交通灯,多个物体可能同时出现在一张图里。实际上,在上一张幻灯片中,那张图同时有车和停车标志,但没有行人和交通灯,所以你不是只给图片一个标签,而是需要遍历不同类型,然后看看每个类型,那类物体有没有出现在图中。所以我就说在这个场合,一张图可以有多个标签。如果你训练了一个神经网络,试图最小化这个成本函数,你做的就是多任务学习。因为你现在做的是建立单个神经网络,观察每张图,然后解决四个问题,系统试图告诉你,每张图里面有没有这四个物体。另外你也可以训练四个不同的神经网络,而不是训练一个网络做四件事情。但神经网络一些早期特征,在识别不同物体时都会用到,然后你发现,训练一个神经网络做四件事情会比训练四个完全独立的神经网络分别做四件事性能要更好,这就是多任务学习的力量。
另一个细节,到目前为止,我是这么描述算法的,好像每张图都有全部标签。事实证明,多任务学习也可以处理图像只有部分物体被标记的情况。所以第一个训练样本,我们说有人,给数据贴标签的人告诉你里面有一个行人,没有车,但他们没有标记是否有停车标志,或者是否有交通灯。也许第二个例子中,有行人,有车。但是,当标记人看着那张图片时,他们没有加标签,没有标记是否有停车标志,是否有交通灯等等。也许有些样本都有标记,但也许有些样本他们只标记了有没有车,然后还有一些是问号。
即使是这样的数据集,你也可以在上面训练算法,同时做四个任务,即使一些图像只有一小部分标签,其他是问号或者不管是什么。然后你训练算法的方式,即使这里有些标签是问号,或者没有标记,这就是对 jjj 从1到4求和,你就只对带0和1标签的 jjj 值求和,所以当有问号的时候,你就在求和时忽略那个项,这样只对有标签的值求和,于是你就能利用这样的数据集。
那么多任务学习什么时候有意义呢?当三件事为真时,它就是有意义的。
第一,如果你训练的一组任务,可以共用低层次特征。对于无人驾驶的例子,同时识别交通灯、汽车和行人是有道理的,这些物体有相似的特征,也许能帮你识别停车标志,因为这些都是道路上的特征。
第二,这个准则没有那么绝对,所以不一定是对的。但我从很多成功的多任务学习案例中看到,如果每个任务的数据量很接近,你还记得迁移学习时,你从 AAA 任务学到知识然后迁移到 BBB 任务,所以如果任务 AAA 有1百万个样本,任务 BBB 只有1000个样本,那么你从这1百万个样本学到的知识,真的可以帮你增强对更小数据集任务 BBB 的训练。那么多任务学习又怎么样呢?在多任务学习中,你通常有更多任务而不仅仅是两个,所以也许你有,以前我们有4个任务,但比如说你要完成100个任务,而你要做多任务学习,尝试同时识别100种不同类型的物体。你可能会发现,每个任务大概有1000个样本。所以如果你专注加强单个任务的性能,比如我们专注加强第100个任务的表现,我们用 A100A100A100 表示,如果你试图单独去做这个最后的任务,你只有1000个样本去训练这个任务,这是100项任务之一,而通过在其他99项任务的训练,这些加起来可以一共有99000个样本,这可能大幅提升算法性能,可以提供很多知识来增强这个任务的性能。不然对于任务 A100A100A100 ,只有1000个样本的训练集,效果可能会很差。如果有对称性,这其他99个任务,也许能提供一些数据或提供一些知识来帮到这100个任务中的每一个任务。所以第二点不是绝对正确的准则,但我通常会看的是如果你专注于单项任务,如果想要从多任务学习得到很大性能提升,那么其他任务加起来必须要有比单个任务大得多的数据量。要满足这个条件,其中一种方法是,比如右边这个例子这样,或者如果每个任务中的数据量很相近,但关键在于,如果对于单个任务你已经有1000个样本了,那么对于所有其他任务,你最好有超过1000个样本,这样其他任务的知识才能帮你改善这个任务的性能。
最后多任务学习往往在以下场合更有意义,当你可以训练一个足够大的神经网络,同时做好所有的工作,所以多任务学习的替代方法是为每个任务训练一个单独的神经网络。所以不是训练单个神经网络同时处理行人、汽车、停车标志和交通灯检测。你可以训练一个用于行人检测的神经网络,一个用于汽车检测的神经网络,一个用于停车标志检测的神经网络和一个用于交通信号灯检测的神经网络。那么研究员Rich Carona几年前发现的是什么呢?多任务学习会降低性能的唯一情况,和训练单个神经网络相比性能更低的情况就是你的神经网络还不够大。但如果你可以训练一个足够大的神经网络,那么多任务学习肯定不会或者很少会降低性能,我们都希望它可以提升性能,比单独训练神经网络来单独完成各个任务性能要更好。
所以这就是多任务学习,在实践中,多任务学习的使用频率要低于迁移学习。我看到很多迁移学习的应用,你需要解决一个问题,但你的训练数据很少,所以你需要找一个数据很多的相关问题来预先学习,并将知识迁移到这个新问题上。但多任务学习比较少见,就是你需要同时处理很多任务,都要做好,你可以同时训练所有这些任务,也许计算机视觉是一个例子。在物体检测中,我们看到更多使用多任务学习的应用,其中一个神经网络尝试检测一大堆物体,比分别训练不同的神经网络检测物体更好。但我说,平均来说,目前迁移学习使用频率更高,比多任务学习频率要高,但两者都可以成为你的强力工具。
所以总结一下,多任务学习能让你训练一个神经网络来执行许多任务,这可以给你更高的性能,比单独完成各个任务更高的性能。但要注意,实际上迁移学习比多任务学习使用频率更高。我看到很多任务都是,如果你想解决一个机器学习问题,但你的数据集相对较小,那么迁移学习真的能帮到你,就是如果你找到一个相关问题,其中数据量要大得多,你就能以它为基础训练你的神经网络,然后迁移到这个数据量很少的任务上来。
今天我们学到了很多和迁移学习有关的问题,还有一些迁移学习和多任务学习的应用。但多任务学习,我觉得使用频率比迁移学习要少得多,也许其中一个例外是计算机视觉,物体检测。在那些任务中,人们经常训练一个神经网络同时检测很多不同物体,这比训练单独的神经网络来检测视觉物体要更好。但平均而言,我认为即使迁移学习和多任务学习工作方式类似。实际上,我看到用迁移学习比多任务学习要更多,我觉得这是因为你很难找到那么多相似且数据量对等的任务可以用单一神经网络训练。再次,在计算机视觉领域,物体检测这个例子是最显著的例外情况。
所以这就是多任务学习,多任务学习和迁移学习都是你的工具包中的重要工具。最后,我想继续讨论端到端深度学习,所以我们来看下一个视频来讨论端到端学习。
课程板书
←上一篇 | ↓↑ | 下一篇→ |
---|---|---|
2.7 迁移学习 | 回到目录 | 2.9 什么是端到端的深度学习 |
2.8 多任务学习-深度学习第三课《结构化机器学习项目》-Stanford吴恩达教授相关推荐
- 0.0 目录-深度学习第五课《序列模型》-Stanford吴恩达教授
文章目录 目录 第五课 第四课 第三课 第二课 第一课 目录 第五课 <序列模型> 笔记列表 Week 1 循环序列模型 Week 1 传送门 -> 1.1 为什么选择序列模型 1. ...
- 0.0 目录-深度学习第四课《卷积神经网络》-Stanford吴恩达教授
文章目录 第五课 第四课 第三课 第二课 第一课 第五课 <序列模型> 笔记列表 Week 1 循环序列模型 Week 1 传送门 -> 1.1 为什么选择序列模型 1.2 数学符号 ...
- 0.0 目录-深度学习第二课《改善神经网络》-Stanford吴恩达教授
文章目录 第五课 第四课 第三课 第二课 第一课 第五课 <序列模型> 笔记列表 Week 1 循环序列模型 Week 1 传送门 -> 1.1 为什么选择序列模型 1.2 数学符号 ...
- 3.11 结论和致谢-深度学习第五课《序列模型》-Stanford吴恩达教授
结论和致谢 (Conclusion and thank you) 恭喜你能走到这一步,在最后这节视频中,只想做个总结,并给你一些最后的想法. 我们一起经历了一段很长的旅程,如果你已经学完了整个专业的课 ...
- 3.8 注意力模型-深度学习第五课《序列模型》-Stanford吴恩达教授
注意力模型 (Attention Model) 在上个视频中你已经见到了,注意力模型如何让一个神经网络只注意到一部分的输入句子.当它在生成句子的时候,更像人类翻译.让我们把这些想法转化成确切的式子,来 ...
- 3.7 注意力模型直观理解-深度学习第五课《序列模型》-Stanford吴恩达教授
注意力模型直观理解 (Attention Model Intuition) 在本周大部分时间中,你都在使用这个编码解码的构架(a Encoder-Decoder architecture)来完成机器翻 ...
- 3.4 改进集束搜索-深度学习第五课《序列模型》-Stanford吴恩达教授
改进集束搜索 (Refinements to Beam Search) 上个视频中, 你已经学到了基本的束搜索算法(the basic beam search algorithm),这个视频里,我们会 ...
- 2.1 词汇表征-深度学习第五课《序列模型》-Stanford吴恩达教授
词汇表征 (Word Representation) 上周我们学习了RNN.GRU单元和LSTM单元.本周你会看到我们如何把这些知识用到NLP上,用于自然语言处理,深度学习已经给这一领域带来了革命性的 ...
- 4.4 Triplet 损失-深度学习第四课《卷积神经网络》-Stanford吴恩达教授
←上一篇 ↓↑ 下一篇→ 4.3 Siamese 网络 回到目录 4.5 面部验证与二分类 Triplet 损失 (Triplet Loss) 要想通过学习神经网络的参数来得到优质的人脸图片编码,方法 ...
- 2.11 计算机视觉现状-深度学习第四课《卷积神经网络》-Stanford吴恩达教授
←上一篇 ↓↑ 下一篇→ 2.10 数据扩充 回到目录 2.12 总结 计算机视觉现状 (The State of Computer Vision) 深度学习已经成功地应用于计算机视觉.自然语言处理. ...
最新文章
- python mysqldb 清除缓存_Python MySqlDB 增删改数据库
- python程序设计狄光智_Python程序设计
- Singleton Pattern (单例模式)
- 音视频封装格式、编码格式知识
- 循环序列模型 —— 1.1 为什么选择序列模型
- kaggle实战—泰坦尼克(五、模型搭建-模型评估)
- c ++异常处理_C ++中的异常处理
- PuTTY/PuttyGen介绍
- 深信服ACssh登录
- motion_primitive_library导航源码阅读笔记
- 福特汉姆大学计算机科学专业,福特汉姆大学优势专业
- B. Assigning to Classes
- C语言 模拟简单的地铁售票系统
- 自定义封包协议c语言,Socket分包,封包,粘包
- 网页计算器 html代码原理,HTML网页之计算器代码
- 《测量助理》最新版本V3.0.221215发布更新
- 对于信息安全与管理的理解
- Tarjan算法详解(AcWing 1174 受欢迎的牛)
- mac 之文件以及文件夹的快速处理与管理
- 科大讯飞两代AI平台演进之路——讯飞云计算研究院副院长龙明康访谈
热门文章
- PCB 内网实现《OCR文字识别》实现逻辑
- linux SMbus错误
- mysql 主从单库单表同步 binlog-do-db replicate-do-db
- struts中select标签的使用
- get请求的乱码解决方式
- 生活随笔:保险公司来的电话
- [html] Google map的地理编码javascript例子 -- Google map geocoder example
- Horseshoe prior的R package介绍:HS.normal.mean函数
- UA MATH575B 数值分析下I 梯度下降
- Bochs调试Linux内核初级入门2、bochs调试断点和单步指令、0x7c00、关中断和开中断指令