Tensorflow - 训练中出现 Nan 值

一.引言

使用 mean-std 归一化数值型 Tensor 时，出现 Nan 值，导致训练时出现 Nan Loss:

通过下面几种方法简单处理下 Nan 值。

二.情景再现

出现 Nan 值是因为归一化时原始 Tensor 为全0导致 variance 为 0，从而 x - mean / std 得到 Nan

    # 初始化全0 Tensortensor = tf.constant(np.zeros(shape=(5, 3)), dtype='float32')# 获取方差均值mean, variance = tf.nn.moments(x=a, axes=[1])# -Meantensor -= tf.expand_dims(mean, axis=1)# /Stdtensor /= tf.expand_dims(variance, axis=1)print(tensor)

tf.Tensor(
[[nan nan nan][nan nan nan][nan nan nan][nan nan nan][nan nan nan]], shape=(5, 3), dtype=float32)

三.解决方案

通过情景再现我们定位了问题所在，方差为0导致除法得到 Nan，所以解决全 0 方差即可解决问题

1.tf.clip_by_value

def clip_by_value(t, clip_value_min, clip_value_max,name=None):

tf.clip_by_value 函数中有两个参数 clip_value_min，clip_value_max，这两个值对 tensor t 中的值进行了限制，如果值小于等于 clip_value_min，则数值转换为 clip_value_min 对应的最小值，同样如果超过了 clip_value_max 的值，则会被替换为 clip_value_max。本例中最小值为0导致除法得到 Nan，所以可以限制最小值区间，例如 demo 中给到的 1e-8，这样全0的值都会转换为 1e-8，被除数不为0，归一化时就不会出现 Nan 了。

clip = tf.clip_by_value(variance, 1e-8, 1.0)
# clip 后的 variance
tf.Tensor([1.e-08 1.e-08 1.e-08 1.e-08 1.e-08], shape=(5,), dtype=float32)

2.tf.where

通过掩码 + where 的模式处理原始输入数据在数据预处理时经常用到，主要分两步:

A.计算mask

通过 tf.not_equal 判断 variance 中是否包含异常值 0

    mask_value = 0mask = tf.not_equal(variance, tf.constant(mask_value, dtype=variance.dtype))# Masktf.Tensor([False False False False False], shape=(5,), dtype=bool)

B.填充掩码

def where_v2(condition, x=None, y=None, name=None):

通过 tf.where 函数进行条件判断，condition 为 True 时选择 x 的值，为 False 时选择为 y 的值，默认值为 None，填充值 Padding 的选择一般有两个选择，填充后的 tensor 如果用于 softmax 函数，可以选择 -IntMax + 1，这样 exp 后会得到一个趋于0但不为0的值，如果使用 log 函数，可以使用一个极小值比如 1e-8 作为填充。

    # softmax paddings = tf.ones_like(variance) * (-2 ** 32 + 1)# logpaddings = tf.ones_like(variance) * 1e-8out = tf.where(mask, variance, paddings)# 掩码填充后的 variance tf.Tensor([1.e-08 1.e-08 1.e-08 1.e-08 1.e-08], shape=(5,), dtype=float32)

3.BatchNormalization

第三种方案参考了 BN 层的实现，BN 层通过滑动均值与滑动方差归一化时，在分母处添加了一个极小值 epsilon，这里也可以取 1e-8，在极小值的加持下保证了分母不为0从而避免了零除得到 Nan 的情况，简单实现的话也可以采用该方法。

# `(batch - self.moving_mean) / (self.moving_var + epsilon) * gamma + beta`.

    variance += 1e-8# ＋ epsilon 后的 variancetf.Tensor([1.e-08 1.e-08 1.e-08 1.e-08 1.e-08], shape=(5,), dtype=float32)

四.总结

通过三种方案，tensor 归一化时 Nan 都会调整为 0，从而避免了报错。除了归一化可能遇到 Nan 值时，反向传播过程中也可能出现零除和 Nan 的情况，上述几种方法同样适用于其他步骤的数据处理。

tf.Tensor(
[[nan nan nan][nan nan nan][nan nan nan][nan nan nan][nan nan nan]], shape=(5, 3), dtype=float32)↓↓↓↓↓↓↓↓↓↓tf.Tensor(
[[0. 0. 0.][0. 0. 0.][0. 0. 0.][0. 0. 0.][0. 0. 0.]], shape=(5, 3), dtype=float32)