【深度学习】深度学习的四大组件

这四大组件就是：

层
输入数据和标签
损失函数
优化器

这四者的关系描述如下：

多层组合在一起形成了网络，网络的目的是将输入数据映射为预测值，通过损失函数将预测值和目标值比较，得出损失值，用来衡量网络的性能，而优化器的职责是迭代优化损失值来更新网络权重（BP算法）。

层：构建网络的乐高积木

深度学习模型的最常见用法是层的线性堆叠，将单一输入映射为单一输出，即数据从一端进，然后从另一端出。

但是这不是唯一，还有其他的网络拓扑类型，比如：

双分支网络
多头网络
Inception模块

在机器学习的定义中我们已经学过，机器学习是在一个预先定义好的假设空间中，利用反馈信号来寻找对输入数据的有用的表征。网络的拓扑结构定义了一个假设空间。

这个假设空间就被限定为一系列特定的张量计算，我们为了做好深度学习模型，就需要为这些张量计算的权重找到一组合适的值。

选择正确的网络架构更像是一门艺术而不是科学。虽然有一些最佳的实践和原则，但只有动手实践才能成为合格的神经网络架构师。

损失函数与优化器

在确定了网络架构以后，还需要选择两个参数：

损失函数：也叫目标函数，训练的目标就是最小化这个函数，同时损失函数也是当前训练任务是否完成的衡量标准
优化器：决定的是如何基于损失函数对网络进行更新，一般用随机梯度下降SGD或者某个变体

有多个输出的神经网络可能具有多个损失函数，即每个输出对应一个损失函数，但是梯度下降必须基于单个标量损失值。所以，针对具有多个损失函数的网络，我们需要将所有损失函数取平均，使其成为单个标量值。

**选择正确的目标函数对解决问题极其重要。**如果目标函数与完成当前任务不是完全相关，则网络得出的结果很可能不符合预期。

那选择损失函数有哪些经验指导呢？

对于分类、回归、序列预测等问题，都有很好的指导原则来帮助我们选择正确的损失函数。比如：

二分类问题：可以用二元交叉熵（binary crossentropy）损失函数
多分类问题：可以用分类交叉熵（categorical crossentropy）损失函数
回归问题：可以用均方误差（mean-squared error）
序列学习问题：可以用联结主义时序分类（CTC, connectionist temporall classification）损失函数

所以对于绝大部分问题，都已经有了损失函数的选择原则，除非是真的全新的问题，才需要自主开发目标函数。

换句话说，如果你开发的目标函数比现有的经验好，绝对是一篇重量级的论文。

END.

参考：

《Deep Learning with Python》