独家 | 数据科学家指南：梯度下降与反向传播算法

作者：Richmond Alake
翻译：陈之炎
校对：zrx本文约3300字，建议阅读5分钟
本文旨在为数据科学家提供一些基础知识，以理解在训练神经网络时所需调用的底层函数和方法。

标签：神经网络，梯度下降，反向传播

人工神经网络[ANN)是人工智能技术的基础，同时也是机器学习模型的基础。它们模拟人类大脑的学习过程，赋予机器完成特定类人任务的能力。

数据科学家的目标是利用公开数据来解决商业问题。通常，利用机器学习算法来识别模式，用算法模型实现预测。如何为特定的用例选择正确的模型，并适当地调整参数？这需要对问题和底层算法有清晰的理解，即充分理解问题和算法，确保使用正确模型，并正确解释结果。

本文介绍并解释了梯度下降算法和反向传播算法。人工神经网络利用这些算法学习数据集，当神经网络中数据发生变化时，应如何去修正网络参数。

建立直觉

在深入探讨技术细节之前，首先来看看人类如何学习。

人类大脑的学习过程是复杂的，当前的研究工作只涉及到人类学习方式的表像。然而，已知的研究结果对构建模型非常有价值，与机器不同，在做逻辑预测时，人类无需借助大量的数据来解决问题，人们直接从经验和错误中吸取教训。

人类通过突触可塑性的过程来学习，突触可塑性是一个术语，用来描述在获得新的信息后，如何形成和加强新的神经连接。当人类经历新事件时，大脑中的连接会加强，通过训练人工神经网络，计算出预测的错误率，在此基础上来决策是加强或削弱神经元之间的内部连接。

梯度下降

梯度下降算法是一种标准的优化算法，通常，它是机器学习优化算法的首选算法。首先，来剖析一下术语“梯度下降”，以更好地理解它与机器学习算法之间的关系。

梯度是直线或曲线陡峭程度的量化度量，在数学上，它表示一条直线的上升或下降的方向。下降是指向下走的行为。因此，从这个术语的定义可以得出：梯度下降算法是对向下运动程度的量化。

为了训练一个机器学习算法，需要识别网络中的权重和偏差，这将有助于问题的解决。例如，在分类问题中，当查看图像时，需要确定图像是否为猫或狗。为此，必须构建模型，将需求建模为函数，更具体地说，是成本函数。成本函数又称为损失函数，利用成本函数衡量模型的出错程度。成本函数的偏导数影响模型的权重和偏差。

梯度下降是一种算法，用于搜索使成本函数最小化或准确度最优的那些参数。

神经网络中的成本函数、梯度下降和反向传播

神经网络令人印象深刻，同样令人印象深刻的是：在尚未明确告知要检测的特征的情况下，计算程序能够区分图像和图像中的对象。

把神经网络看作是一个接收输入（数据）的函数，并生成一种输出预测，该函数的变量便是神经元的参数或权重。

因此，神经网络的关键任务是以一种近似或最佳的方式来调整数据集的权重和偏差值。

下图描述了一个简单的神经网络，它接收输入(X1、X2、X3、Xn)，将这些输入推送给包含权值(W1、W2、W3、Wn)的神经元。输入和权值经过乘法运算，结果由加法器()求和，激活函数调节该层的最终输出。

图1：作者创建的浅层神经网络图

为了评估神经网络的性能，需要一种机制来量化神经网络预测值和实际数据样本值之间的差异，从而计算出影响神经网络内权重和偏差的修正因子。

成本函数填补了神经网络的预测值与数据样本的实际值之间的误差距离。

图2：神经网络内部连接和预测描述

上图描述了一个简单的密集连接神经元的神经网络结构，它对包含数字0-3的图像进行分类。输出层中的每个神经元都对应一个数字，与神经元连接的激活程度越高，神经元输出的概率就越高，该概率为通过前馈网络的数字与被激活的神经元相关联的概率。

当数字 “3”通过网络前馈时，将为 “3”分类的连接（由图中的箭头表示）分配更高的激活，使得输出与数字“3”神经元关联的概率更大。

负责神经元的激活，即偏差、权重和前一层的激活的组件有不少，这些特定的组件经过迭代修正，使得神经网络在特定的数据集上执行最优操作。

利用“均方误差”成本函数，获取神经网络的误差信息，通过网络的权值和偏差，将这些信息后向传播给神经网络进行更新。

神经网络使用的成本函数示例：

• 均方误差

• 分类交叉熵

• 二进制交叉熵

• 对数损失

在讨论完如何通过一种网络预测技术来提高神经网络的性能之后，下文将集中讨论梯度下降、反向传播和成本函数之间的关系。

图3绘制了x和y轴上的成本函数，该成本函数保存函数参数空间内的全部数值。接下来，让我们来看看神经网络是如何通过成本函数可视化来实现学习，曲线为神经网络参数空间内分布不均匀的权重/参数值。

图3：可视化之后的梯度下降

上图中的蓝色点表示搜索局部最小值时进行的一个步骤（成本函数中求参数值）。模型成本函数的最低点对应于使成本函数最小的权重值的位置。成本函数越小，神经网络的性能越好。因此，可以根据上图中获取到的信息来修改网络的权重。

梯度下降是一种引导在每个步长中选取接近最小值的算法。

局部最小值：成本函数在指定范围内的最小参数值。
全局最小值：成本函数全域内的最小参数值。

梯度下降算法通过计算可微函数的梯度并沿梯度的相反方向移动，搜索使得局部/全局函数最小化的那个值。

反向传播是通过对影响神经元输出的组件（偏差、权重、激活）进行迭代调整，从而使得成本函数变小的机制。在神经网络的架构中，神经元的输入，包括与前一层神经元的所有连接，决定了它的输出。

反向传播所涉及的关键数学公式是导数的计算。反向传播算法计算成本函数相对于权重、偏差和前一层激活的偏导数，以确定哪些值影响成本函数的梯度。

图4：误差的向后传播图片来源：《深度学习》，第三章，3蓝1棕

通过计算梯度，最小化成本函数，得到一个局部最小值。在每次迭代或训练步长中，根据计算出的梯度对网络的权值以及学习率进行更新，它控制着权值的修改因子。在神经网络的训练阶段，每个步长都重复这个过程。理想情况下，目标是在经过一个步长之后，会更加接近局部最小值。

“反向传播”这个名称来自于进程的字面意思，即“误差的反向传播”，梯度的偏导数对误差进行量化。通过网络向后传播误差，利用最后一层（最接近输出层的层）梯度的偏导数来计算第二层到最后一层的梯度。

利用当前层中前一层的梯度的偏导数确定误差在各层中的传播，一直传播到网络中的第一层（与输入层最近的层）。

小结

这只是一个关于梯度下降算法的入门介绍，梯度下降算法还涉及到数学和微积分知识。

虽然诸如TensorFlow、SciKit-Learn、PyTorch等软件包已经将复杂的训练和优化算法进行了抽象，然而，这并未降低数据科学家和ML从业者充分理解这些智能“黑盒子”幕后细节的要求。

想要了解更多与反向传播算法相关的数学知识吗？以下资源供参考：

神经网络：通过反向传播进行训练
反向传播
反向传播算法的工作原理

通过学习英伟达深度学习研究所的各种课程，深入了解深度学习的世界。

作者：Richmond Alake

Richmond Alake是一名机器学习和计算机视觉工程师，他与各种初创公司合作，利用深度学习模型来解决商业应用程序中的计算机视觉任务。他在技术领域深耕五年，为大型企业集团构建应用程序，并将人工智能技术集成到移动应用程序中。他写了100多篇关于人工智能和机器学习主题的文章，浏览量超过100万次。Richmond认为：机器学习在日常问题中会有功能强大的应用。目前，他正主持多个项目，利用机器学习算法和深度学习模型来解决与人体工程学和社会网络有关的问题。

原文标题：

A Data Scientist's Guide to Gradient Descent and Backpropagation Algorithms

原文链接：

https://developer.nvidia.com/blog/a-data-scientists-guide-to-gradient-descent-and-backpropagation-algorithms/

编辑：王菁

译者简介

陈之炎，北京交通大学通信与控制工程专业毕业，获得工学硕士学位，历任长城计算机软件与系统公司工程师，大唐微电子公司工程师，现任北京吾译超群科技有限公司技术支持。目前从事智能化翻译教学系统的运营和维护，在人工智能深度学习和自然语言处理（NLP）方面积累有一定的经验。业余时间喜爱翻译创作，翻译作品主要有：IEC-ISO 7816、伊拉克石油工程项目、新财税主义宣言等等，其中中译英作品“新财税主义宣言”在GLOBAL TIMES正式发表。能够利用业余时间加入到THU 数据派平台的翻译志愿者小组，希望能和大家一起交流分享，共同进步

翻译组招募信息

工作内容：需要一颗细致的心，将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生，或在海外从事相关工作，或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到：定期的翻译培训提高志愿者的翻译水平，提高对于数据科学前沿的认知，海外的朋友可以和国内技术应用发展保持联系，THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利：来自于名企的数据科学工作者，北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

转载须知

如需转载，请在开篇显著位置注明作者和出处（转自：数据派ID：DatapiTHU），并在文章结尾放置数据派醒目二维码。有原创标识文章，请发送【文章名称-待授权公众号名称及ID】至联系邮箱，申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱（见下方）。未经许可的转载以及改编者，我们将依法追究其法律责任。

点击“阅读原文”拥抱组织

独家 | 数据科学家指南：梯度下降与反向传播算法相关推荐

梯度下降与反向传播算法的原理与推导
梯度下降算法是机器学习中最常用的优化算法之一,它可以求得目标函数的最小值,即算法的最优解.而对于复杂的多层神经网络来说,运用梯度下降算法十分复杂,因为其包含求导过程,为此学者将多层神经网络的优化问题简 ...
深度学习笔记--pytorch从梯度下降到反向传播BP到线性回归实现，以及API调用和手写数据集的实现
梯度下降和反向传播目标知道什么是梯度下降知道什么是反向传播 1. 梯度是什么? 梯度:是一个向量,导数+变化最快的方向(学习的前进方向) 回顾机器学习收集数据 x x x ,构建机器学习模型 ...
快速计算梯度的魔法--反向传播算法
一.实验介绍 1.1 实验内容第一次实验最后我们说了,我们已经学习了深度学习中的模型model(神经网络).衡量模型性能的损失函数和使损失函数减小的学习算法learn(梯度下降算法),还了解了训练数 ...
php梯度区间计算,快速计算梯度的魔法--反向传播算法
2.1 计算梯度的数值方法第一次实验我留的一个课后作业里问你是否能够想出一个求解梯度的办法,其实不难想到一种简单的办法就是使用"数值法"计算梯度. 办法很简单,就是对于损失函数中 ...
深度学习的基础知识（机器学习、损失函数、梯度下降、反向传播、基础模型一网打尽）
1.预备信息 1.1了解技术的发展阶段技术一般存在几个阶段:1.发展期.2.高峰期.3.冰河期.4.应用期就是先达到一个高峰,但是在达到高峰之后就会被发现很多问题,然后热度就会不断地下降,到达一个 ...
【深度学习入门到精通系列】关于梯度下降和反向传播的探索
文章目录 1 简单理解梯度下降 2 梯度下降作用 3 反向传播 4 图示 1 简单理解梯度下降梯度下降它是一个函数f(x)找它的最小值x0所在的那个点. 2 梯度下降作用总之一句话概括就是,梯度下 ...
十八、梯度下降与反向传播
1. 损失函数和梯度 1.1 损失函数的概念对于给定的输入xxx,由f(x)f(x)f(x)给出相应的输出,这个实际输出值和原先预期值Y可能不一致,所以需要定义一个损失函数(LossFunction ...
深度学习第三次课-梯度下降与反向传播
梯度下降损失函数可视化得分函数 f=W*X 损失函数 c=W*X-y 目标损失函数最小最优化过程可视化一维二维热力图如果损失函数是一个凸函数,例如SVM. 凸 ...
【深度学习】梯度下降和反向传播
声明:本博客只是小白博主自己的记录博客,仅供参考. 导数到底是什么? 引用知乎上的一个回答那么导数的本质是什么?就是变化率呗,例如小王今年卖了100头猪,去年90头,前年80头,,,也就是说每年增加 ...

独家 | 数据科学家指南：梯度下降与反向传播算法

独家 | 数据科学家指南：梯度下降与反向传播算法相关推荐

最新文章

热门文章