大白话5分钟带你走进人工智能-第十二节梯度下降之背后的原理之泰勒公式(7)

大白话5分钟带你走进人工智能-第十二节梯度下降之背后的原理之泰勒公式(7)

我们接下来给大家深化一下，梯度下降背后到底是什么原理？谈到这个，我们要谈到一个叫泰勒展开的这么一个数学定理，泰勒发现任何一个函数不用管它有多复杂，不管它什么样，千奇百怪的任何一个函数，都可以写成关于N阶导数的一个多项式。即

$f(x)=\sum_{n=0}^{N} \frac{f^{(n)}(a)}{n !}(x-a)^{n}+R_{n}(x)$

解释下，在A点附近，比如说A为1，那么在1附近，那么f(x)=f(1),你有个解析式，f(1)总能算出来，把1丢进去算出来，那么泰勒展开即：

$f(x)=\frac{f(1) (x-1)^{0}}{1}+\frac{f{}'(1) (x-1)^{1} }{1} +\frac{f{}''(x-1)^{2} }{2}+\frac{f^{\prime \prime\prime}(x-1)^{3} }{6}+...$

$f^{\prime \prime}$ 是二阶导数，什么叫二阶导数？导函数再求一下导。这么一直这么往下加，加到余项为零的时候就加完了。假如余项始终不为零，它就一直无限这么加下去，加的项越多，这个函数越像原始的函数。

泰勒公式实际上用多项式函数去逼近一个光滑函数，什么叫逼近？因为它是把一个原始的函数拆成好多项了，那么拆项越多，这个加出来的结果就越像原函数。那好好的一个普通的函数，你为什么非得要给它拆成好多项呢？一个X2+1，就两项很简单的，你为什么要给它变成N项？实际上不是所有的函数都是能这么写，比如sin X，在计算机里，实际上计算sin X背后的本质是它他先进行完了泰勒展开，展开成200 多项，然后把这200多项算出来，得到sin X到底是多少。这个是交给计算机计算的这么一种方式。再比如 $f(x)=e^{x}$ ，此时我令a=0，就相当于在零点附近给它展开。如果按照刚才展开式来讲的话，零阶展开就是n等于0， $F(x)=e^{0} * 1=1$ ，X轴是x=1,你发现0阶展开，如果把余项抛弃了的话，就是一条直线，这条直线像原函数吗？看起来不像。但在x=0这一点上的这条直线跟这个原函数很像。假如阶数增高的话，如图：

可以看到，随着阶数的升高，甚至仅仅到达十阶展开的时候，在我们肉眼可及的地方，它跟原函数已经非常接近了。零阶展开，如果就光说零附近的话，即使是零阶展开，在极小的区域里它也是比较像的，对吧？随着阶数越来越多，是不是离零越远的地方也越跟原函数很像了？这就是泰勒展开的本质。它实际上就是通过在某一点附近用一个多项式去逼近原来的原函数，你可以理解为它是一个原函数的近似取值。

回到我们梯度下降来说，我们梯度下降其实就是对原函数展开一个一阶泰勒近似。假如对泰勒展开式在x0进行一阶泰勒展开，只得到两项。第一项就是f(x0),第二项就是（x-x0）f`(x0)。这个式子里谁是未知数？谁是已知数？可以发现只有x是未知数，剩下这些数虽然写的是字母，但实际上你带到真实的场景里，就能算出来是具体的数。假如此时的f是损失函数的话，在x0的值是可求的，x0点的导数也可求。这x0自然也是知道的，所以它的一阶泰勒的近似公式就是已经知道的了。

我们看梯度下降是怎么来的？回到函数最优化问题上，如果我初始出来一组W0了，你想让W0加上λd这个东西之后带回到损失函数里，希望损失函数越小越好。也就是我们想要找到一个 λd 使上一代的 w+λd后损失函数下降得最多，即 min

大白话5分钟带你走进人工智能-第十二节梯度下降之背后的原理之泰勒公式(7)相关推荐

大白话5分钟带你走进人工智能-第九节梯度下降之函数最优化算法和梯度下降代码过程解析(4)
    第九节梯度下降之函数最优化算法(4) 上一节中我们介绍了梯度下降的两种方式,批量梯度下降和随机梯度下降的两种方式,介绍了其具体的梯度下降的方式.本节的话,我们介绍一种函数最优化的算法.以后一听 ...

大白话5分钟带你走进人工智能-神经网络之tensorflow的前世今生和DAG原理图解
神经网络是一门重要的机器学习技术.它是目前最为火热的研究方向--深度学习的基础.学习神经网络不仅可以让你掌握一门强大的机器学习方法,同时也可以更好地帮助你理解深度学习技术.而 Tensorflow 是 ...

大白话5分钟带你走进人工智能-第二十二节决策树系列之概念介绍(1)
                                      第二十二节决策树系列之概念介绍(1) 本系列我们讲一个新算法及其衍生出来的系列算 ...

大白话5分钟带你走进人工智能-第二十节逻辑回归和Softmax多分类问题(5)
                        大白话5分钟带你走进人工智能-第二十节逻辑回归和Softmax多分类问题(5) 上一节中,我们讲 ...

大白话5分钟带你走进人工智能-第二十九节集成学习之随机森林随机方式，out of bag data及代码(2)
          大白话5分钟带你走进人工智能-第二十九节集成学习之随机森林随机方式 ,out of bag data及代码(2) 上一节中我们讲解了随机森林的基本概念,本节的话我们讲解随机森 ...

大白话 5 分钟带你走进人工智能：神经网络之反向传播详细案例及解释
神经网络是一门重要的机器学习技术.它是目前最为火热的研究方向--深度学习的基础.学习神经网络不仅可以让你掌握一门强大的机器学习方法,同时也可以更好地帮助你理解深度学习技术.而反向传播是神经网络的核心 ...

大白话5分钟带你走进人工智能-第34节神经网络之多神经网络概念(2)
目录 1.回顾: 2.常见的激活函数都有哪些? 3.多层神经网络里面故事: 4.如何训练神经网络? 1.回顾: 回顾下之前学习的内容.人工神经网络里面有重要的三条内容,一个是加和,加function, ...

大白话5分钟带你走进人工智能-第十一节梯度下降之手动实现梯度下降和随机梯度下降的代码（6）...
                            第十一节梯度下降之手动实现梯度下降和随机梯度下降的代码(6) 我们回忆一下,之前咱们讲什么了?梯度下降,那么梯度下降是一种什么算法呢?函数最优化 ...

大白话5分钟带你走进人工智能-第十节梯度下降之归一化的各种方式和必要性(5)...
                    第十节梯度下降之归一化的各种方式和必要性(5) 上一节中我们讲解了梯度下降的函数最优化算法和梯度下降代码过程,了解了梯度下降的代码实现过程,本节的话我们讲解一个 ...

最新文章

ADPLUS使用配置文件设置断点时无法创建DUMP文件原因分析

Toolbar+DrawerLayout

WPF绑定资源文件错误（error in binding resource string with a view in wpf）

kube-proxy修改成ipvs模式

LabView学习笔记（六）：while循环与for循环

利用MTviz绘制线粒体基因组结构图

java bss_数据段、代码段、堆栈段、BSS段的区别

联想z5可以刷鸿蒙系统吗,联想z5引用adb刷Project Treble通刷第三方rom教程（亲测成功）...

LiDAR 4 固态激光雷达 (Flash LiDAR)

第三方代付入帐是什么意思

打开excel 自动启动宏_Excel启动时自动打开不需要的文件

Docker 启动镜像

2020中级计算机工程师,2020年上半年中级网络工程师报考详解

寫一個智能聊天機器人

uniapp H5端使用百度地图API

ifconfig eth0 up/down与ifup/ifdown eth0的区别

整理了几个物联网应用就业前景（附整理的岗位发展和挑战）

记一次拯救者15isk拆机故障排查

python中plot是什么意思_在matplotlib的plot函数中'o'是什么意思？

用ps把图片变成素描画

热门文章

美容仪上日本亚马逊需要PSE认证METI备案

rtthread工业使用_rtthread使用总结

暑假软件工程实践学习实习小结（1）

[思维][暴力] Jzoj P5912 VanUSee

rf 遍历列表_RF断言总结

NotePad++ 查看安卓日志

使用IDM从网站下载图片——从翻页网站下载图片

KISS原则(keep it simple and stupid)

电子科技大学计算机保研经历,电子科技大学计算机科学与工程学院(专业学位)计算机技术保研...

js控制flash及其相关