深度学习训练中如何处理NaNs

NaNs问题（Dealing with NaNs）

相信很多自己实现过深度学习模型或者训练过深度学习模型的人都会知道，产生NaNs或者Infs是一件特别常见的事情。但是NaNs的问题又往往很棘手，因为出现NaN的原因可能有很多，诊断起来并不容易。

这可能是因为模型中某个地方设置的不是特别合理，或者代码中出现了Bug。也有可能是出现了数值不稳定，数值不稳定问题会进行单独说明。甚至也可能是你的算法出了问题，下面将介绍几种出现NaNs的场景以及如何进行诊断并处理模型训练过程中出现的NaNs。

超参数的设置以及权重初始化（Check Superparameters and Weight Initialization）

通常情况下，尤其是你使用深度学习库训练时，原因大多是超参数设置问题。

最可能是就你的学习率设置过大。一个过大的学习率可能在一个epoch里就让你整个模型产生NaN的输出，所以首先检查学习率，最简单的办法就是设置一个小的学习率。

其次，你的模型里有正则化项吗？看正则项是否设置合理，选择一个大的正则项系数来训练几个epoch看下NaNs有没有消失。

还有一些模型可能对权重的初始化十分敏感，如果权重没有采用合理的初始化方法，或者合适的初始化范围，模型可能会产生NaNs。

关于数值稳定（Numerical Stability）

如果你最终诊断发现是在某个公式计算时产生的NaNs，可能的原因就是这个公式存在数值稳定问题，通常发生在你自己实现的某个公式，例如Softmax，因为深度学习库通常会帮助解决公式中的数值稳定问题。

举个列子：一些nodes在某些输入下产生一个很小的p(x)。

在反向传播时，正确的类别所得到的概率非常小（接近零）的话，这里会有 overflow 的危险。

更加详细的数值稳定讲解参照这篇Blog： Softmax vs. Softmax-Loss: Numerical Stability

算法相关（Algorithm Related）

如果上述方法都不适用，那可能是你的算法出了问题，回头去检查数学公式的实现来确保所有的计算和推导是正确的。

Using Theano

Run in NanGuardMode, DebugMode, or MonitorMode

如果你使用Theano，你可以通过Theano的NanGuardMode来寻求帮助。NanGuardMode会监控每个结点所有的输入和输出，如果发现了NaNs就会报错。

具体用法参照： nanguardmode

使用 optimizer_including=alloc_empty_to_zeros 结合NanGuardMode对于检测NaN很有帮助，具体看下面 NaN Introduced by AllocEmpty的介绍。

DebugMode 也很有帮助。通过flag mode=DebugMode,DebugMode.check_py=False来运行debugmode。这样可以看出那个运算造成了这个问题，进而深入地查看这个运算。

具体用法参照：debugmode

Theano 的 MonitorMode 可以用来单步调试function的执行，可以通过它来查看执行function时每个node的输入和输出。

详细用法参照：How do I Step through a Compiled Function?

NaN Introduced by AllocEmpty

很多运算用到AllocEmpty，例如没有适当地清理前分配内存，分配的内存随后会被重写。之前这块内存里的数据和运算有时会导致产生NaN。例如，在运算前使用乘法来使内存清零，当之前内存中是Nan时， 0 * NaN => NaN。

使用optimizer_including=alloc_empty_to_zeros 来代替AllocEmpty的Alloc{0}，对诊断NaNs的出处很有帮助。需要注意的是NanGuardMode中，这个flag默认是不开启的，所以同时用NanGuardMode和optimizer_including=alloc_empty_to_zeros会比较好。

CUDA Specific Option

Theano的这个设置 nvcc.fastmath=True可能产生NaN，所以在debugging NaN时不要设置这个参数。

http://deeplearning.net/software/theano/tutorial/nan_tutorial.html

http://zh.gluon.ai/chapter_supervised-learning/softmax-regression-scratch.html