[CLPR] 用于加速训练神经网络的二阶方法

本文翻译自: http://www.codeproject.com/Articles/16650/Neural-Network-for-Recognition-of-Handwritten-Digi

所有二阶技术都有同一个目标: 提高BP收敛的速度. 它们都使用同一种基本的方法 - 分别调整每个权值. 比如, 对于每个权值设置不同的学习速率.

在文章 Efficient BackProp, 中, LeCun博士提出了一种被称为"随机对角Levenberg-Marquardt方法"的二阶技术. 他把这种技术和一种"精确优化的随机梯度算法"进行了对比, 后者是一种不依赖于二阶技术的算法, 但对于每个权值都使用了不同的学习速率eta. 根据他的比较, "(随机对角LM)额外引入的误差是可以忽略的, 但训练速度上 - 凭感觉 - 却比随机梯度算法快了3倍." (文章的35页).

我们需要一种二阶方法来加速训练. 不使用这些方法的结果是我们的收敛会非常缓慢.

Simard博士, 在他的文章"Best Practices for Convolutional Neural Networks Applied to Visual Document Analysis,"中提到, 由于想让算法尽量简洁, 所以没有使用二阶技术. 他同样承认他需要上百次循环才能收敛.(我个人认为接近1000)

我们再来看看MNIST数据库, 每一个循环需要60,000次BP过程, 在我的电脑上每个循环需要大概40分钟. 我没有耐心(也没有自信我的代码毫无错误)来等待上千次循环. 同样地, 不像LeCun博士, 我也没有能力去设计一个"精确优化的随机梯度算法". 所以, 由于随机对角LM方法会快3倍, 我的NN实现了这一方法.

我不会详细分析数学或这个算法的代码. 它本质上已经和标准的BP不太一样了. 使用这个技术, 我可以在20~25次循环内收敛到一个满意的结果. 这样有两个好处: 第一, 它证明了我的代码是正确的, 因为LeCun博士的收敛次数也是20左右; 第二, 40分钟一次循环的情况下, 我只需要14~16个小时即可, 这可以接受.

如果你想要仔细分析这一段的代码, 你可以查看CMNistDoc::CalculateHessian()和NeuralNetwork::BackpropagateSecondDervatives(). 另外, 应当注意NNWeight包含一个double成员, 这在前述的代码中没有显式注明. 这个成员名为diagHessian, 它存储的是根据LeCun博士的算法计算出的曲率. 基本上, 当调用CMNistDoc::CalculateHessian()时, 500个MNIST的模式就会被随机挑选出来. 对于每个模式, NeuralNetwork::BackpropagateSecondDervatives()会计算出每个权值的Hessian, 这个数字会被收集到diagHessian中. 在500个模式都运行结束后, diagHessian中的值都被除以500, 从而为每个权值赋予一个独特的diagHessian值. 在实际的BP过程中, diagHessian值被用来缩放当前的学习速率, 从而在曲率较高的区域, 学习速率降低, 反之升高.

转载于:https://www.cnblogs.com/lancelod/p/4062352.html

[CLPR] 用于加速训练神经网络的二阶方法相关推荐

DL之BP：FFNN(前馈神经网络)结构与BP(一种训练神经网络的方法)算法的简介、训练神经网络的五大方法(RLS/GA/SA/PSO/BP)、FFNNLM对比BP之详细攻略
DL之BP:FFNN(前馈神经网络)结构与BP(一种训练神经网络的方法)算法的简介.训练神经网络的五大方法(RLS/GA/SA/PSO/BP).FFNNLM对比BP之详细攻略目录 FFNN(前馈神经 ...
利用gpu加速神经网络算法,外接gpu 训练神经网络
神经网络做图像分类一定要用到gpu吗? GPU最大的价值一直是"accelerating"(加速),GPU不是取代CPU,而是利用GPU的并行计算架构,来将并行计算的负载放到GPU ...
PyTorch：优化神经网络训练的17种方法
点击上方"机器学习与生成对抗网络",关注星标获取有趣.好玩的前沿干货! 选自efficientdl.com,作者:LORENZ KUHN 机器之心编译本文介绍在使用 PyTor ...
PyTorch | 优化神经网络训练的17种方法
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达作者 | LORENZ KUHN 来源 | 人工智能前沿讲习编辑 ...
优化神经网络训练的17种方法
作者 | LORENZ KUHN 来源 | 人工智能前沿讲习导读本文介绍在使用 PyTorch 训练深度模型时最省力.最有效的 17 种方法.该文所提方法,都是假设你在 GPU 环境下训练模型. ...
AI学习笔记（九）从零开始训练神经网络、深度学习开源框架
AI学习笔记之从零开始训练神经网络.深度学习开源框架从零开始训练神经网络构建网络的基本框架启动训练网络并测试数据深度学习开源框架深度学习框架组件--张量组件--基于张量的各种操作组件- ...
《预训练周刊》第16期：中科院推出全球首个图文音三模态预训练模型、顶会论文探索100层序列推荐模型的加速训练...
No.16 智源社区预训练组预训练研究观点资源活动关于周刊超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第16期&l ...
从零开始教你训练神经网络（附公式学习资源）
来源:机器之心作者:Vitaly Bushaev 本文长度为8900字,建议阅读15分钟本文从神经网络简单的数学定义开始,沿着损失函数.激活函数和反向传播等方法进一步描述基本的优化算法. 作者从神 ...
使用TensorFlow训练神经网络进行价格预测
Using Deep Neural Networks for regression problems might seem like overkill (and quite often is), bu ...

[CLPR] 用于加速训练神经网络的二阶方法

[CLPR] 用于加速训练神经网络的二阶方法相关推荐

最新文章

热门文章