tensorflow中的正则化

先看代码然后解释为什么需要正则化

import tensorflow as tf
import tensorflow.contrib as contribweight=tf.constant([[1,-2],[-3,4]],dtype=tf.float32)
with tf.Session() as sess:init=tf.global_variables_initializer()sess.run(init)# L1正则化输出为(|1|+|-2|+|-3|+|4|)*0.5=5print(sess.run(contrib.layers.l1_regularizer(0.5)(weight)))# L2正则化输出为(1²+(-2)²+(-3)²+4²)/2*0.5=7.5print(sess.run(contrib.layers.l2_regularizer(0.5)(weight)))# L1和L2正则化print(sess.run(contrib.layers.l1_l2_regularizer(0.5,0.5)(weight)))

1.深度学习中的正则化作用

　提高泛化能力，防止过拟合，大多数正则化策略都会对估计进行正则化,估计的正则化以偏差的增加换取方差的减少

　正则化方法是在训练数据不够多时，或者over training时，常常会导致过拟合（overfitting）。这时向原始模型引入额外信息，以便防止过拟合和提高模型泛化性能的一类方法的统称。

正则化可以帮助防止过度配合，提高模型的适用性。（让模型无法完美匹配所有的训练项。）（使用规则来使用尽量少的变量去拟合数据）

通俗来说正则化就是说给需要训练的目标函数加上一些规则（限制），让他们不要自我膨胀。

2两种正则化

L1 正则化在原始的代价函数后面加上一个 L1 正则化项，即所有权值 W 的绝对值的和，乘以 λ/n。L1 正则化项的效果是让权值 W 往 0 靠，使网络中的权值尽可能为 0，也就相当于减小了网络复杂度，防止过拟合。事实上，L1 正则化能产生稀疏性，导致 W 中许多项变成零。

L2 正则化，会在代价函数后面再加上一个正则化项

其中，C0代表原始的代价函数，后面加上 L2 正则化项。事实上，L2 正则化将所有参数 W 的平方的和，乘以 λ/2n。。λ 就是正则项系数，而系数 1/2，主要是为了求导的结果方便，后面那一项求导会产生一个 2，与 1/2 相乘刚好凑整。

L2 正则化项的效果是减小权值 W。事实上，更小的权值 W，从某种意义上说，表示网络的复杂度更低，对数据的拟合刚刚好。

tensorflow中提供的正则化支持

tf.contrib.layers.l1_regularizer(scale, scope=None)
tf.contrib.layers.l2_regularizer(scale, scope=None)

其中，有两个重要的参数。

scale: 正则项的系数。（必选）
scope: 可选的scope name。（可选）

现在，来看一个案例。这个案例中，我们使用了tf.contrib.layers.l2_regularizer(scale, scope=None)函数。其中， lambd 参数表示来正则化项的权重，W 为需要计算正则化损失的参数。

loss = tf.reduce_mean(tf.square(y-y_) + tf.contrib.layers.l2_regularizer(lambd)(W))

这两个参数是用两个括号括起来的，与我们平时写在一个括号，用逗号分隔开不一样。

3.Dropout（在全连接层使用也是防止过拟合）

　　tf.nn.dropout是TensorFlow里面为了防止或减轻过拟合而使用的函数，它一般用在全连接层

　　tf.nn.dropout(x, keep_prob, noise_shape=None, seed=None,name=None)

　　改变神经网络本身的结构，对于同一组训练数据，利用不同的神经网络训练之后，求其输出的平均值可以减少overfitting

参考博客

https://www.cnblogs.com/bigcome/p/10058662.html

https://blog.csdn.net/Akino_Rito/article/details/79812948

http://blog.720ui.com/2018/tensorflow_03_dl_regular/#L2-%E6%AD%A3%E5%88%99%E5%8C%96

机器学习的L1和L2规范 https://msdn.microsoft.com/zh-cn/magazine/dn904675.aspx