在数学，统计学和计算机科学中，特别是机器学习和反问题，正则化是为了解决不适定问题或防止过拟合而引入额外信息的过程。

1.不适定问题

图像处理中，不适定问题也称为反问题。上世纪90年代法国数学家阿达玛提出了不适定问题的概念：
一个数学物理定解问题的解存在、唯一并且稳定，则称该问题是适定的（WellPosed）.如果不满足适定性概念中的上述判据中的一条或几条，称该问题是不适定的。
典型的图像处理不适定问题包括：图像去噪（ImageDe-nosing），图像恢复（Image Restorsion），图像放大（Image Zooming），图像修补（ImageInpainting），图像去马赛克（image Demosaicing），图像超分辨(Image super-resolution)等。
解决不适定性的有效途径是在图像处理中引入关于图像的先验信息。因此图像的先验模型对于图像反问题和其它计算机视觉还是图像处理问题至关重要。对于图像的先验模型的研究，研究者们从多个角度进行研究，其代表主要有“统计方法”和“正则化几何建模方法”，“稀疏表示方法”三种主流方法。

1.1 正则化几何模型

关于自然图像建模的“正则化几何方法”是最近几年热点讨论的主题。其中一类方法是利用偏微分方程理论建立图像处理模型；另一类方法是基于能量泛函最优的变分方法。

1.2 稀疏表示

主要思路分为两大类。直接方法是机理测试方法，即从生物机理上，在自然图像刺激条件下检测神经细胞的响应特性；另外一个替代的方法是模型仿真方法，即利用自然图像的统计特性，建立模型模拟早期视觉处理系统的处理机制。

1.3 形态分量分析

MCA方法是国际著名学者J.-L. Starck, M. Elad, D.L. Donoho在2004年提出的一种将图像分解为“几何结构”、“纹理”、“噪声”的形态分量分解方法。

1.3.1 基于形态分量分析的图像超分辨重建理论与算法

超分辨率重建(super-resolution reconstruction)是一种由一序列低分辨率退化图像重建一幅(或序列)高分辨率清晰图像的第二代复原技术[1]。超分辨率重建技术综合考虑成像过程中诸如运动变形、光学模糊、低采样率、随机噪声等等各种退化因素，在航空成像、遥感成像、医学成像、层析成像等众多领域具有广泛应用前景。从数学的角度看，图像超分辨率重建是Hardmard意义下的非适定数学反问题，因此成为图像处理、计算机视觉和计算调和分析等多学科领域国际上众多研究者关注的热点问题。迄今为止，人们已经提出图像超分辨率重建的许多算法。但是如何进一步刻画图像的边缘结构、纹理等图像中重要视觉特征，提高图像超分辨算法对图像不同视觉特征的保持能力，解决超分辨问题的不适定性有待深入研究。图像超分辨是包含图像去噪、去模糊、去马赛克、图像放大等的组合问题，图像形态分量分析（MCA-Morphological Component Analysis）通过结合图像的稀疏表示（Sparcerepresentation）理论和变分方法进行图像分解，在图像超分辨应用中具有潜在优势：1）MCA通过分类稀疏表示字典将图像分解为“几何结构分量”、“振荡或纹理分量”、“噪声分量”，提供了良好的图像结构、纹理自适应处理和噪声分离机制；2）MCA继承了过完备稀疏表示与信号重建的优异性能，能够以最少的原子捕获图像中的高维奇异性特征。而这种捕获和跟踪机制是旋转、平移和伸缩不变的，因此对于超分辨重建的运动变形、光学模糊，低采样率的处理非常方便；3）MCA在稀疏表示的基础上，继承了图像几何正则化变分方法的优点，理论上为图像超分辨提供统一的变分框架。因此MCA理论为图像超分辨率复原提供了新的契机和研究思路。

1.4 统计模型

多尺度变换域包括隐马尔科夫树（HMT）、背景隐马尔科夫模型（CHMM）等.

2.过拟合问题

在统计学中，过度拟合是“分析结果与一组特定的数据过于接近或准确，因此可能无法拟合其他数据或可靠地预测未来的观测结果”，如下图所示：

绿色的线代表过拟合模型，黑色的线代表正则化线虽然绿色的线最符合训练数据，但它太依赖于这些数据，而且与黑色的线相比，它可能对新的未知数据有更高的错误率。

3.正则化技术

正则化技术是保证算法泛化能力的有效工具，因此算法正则化的研究成为机器学习中主要的研究主题 [9] [10]。此外，正则化还是训练参数数量大于训练数据集的深度学习模型的关键步骤。正则化可以避免算法过拟合，过拟合通常发生在算法学习的输入数据无法反应真实的分布且存在一些噪声的情况。过去数年，研究者提出和开发了多种适合机器学习算法的正则化方法，如数据增强、L2 正则化（权重衰减）、L1 正则化、Dropout、Drop Connect、随机池化和早停等。
除了泛化原因，奥卡姆剃刀原理和贝叶斯估计也都支持着正则化。根据奥卡姆剃刀原理，在所有可能选择的模型中，能很好解释已知数据，并且十分简单的模型才是最好的模型。而从贝叶斯估计的角度来看，正则化项对应于模型的先验概率。

3.1 数据增强

数据增强是提升算法性能、满足深度学习模型对大量数据的需求的重要工具。数据增强通过向训练数据添加转换或扰动来人工增加训练数据集。数据增强技术如水平或垂直翻转图像、裁剪、色彩变换、扩展和旋转通常应用在视觉表象和图像分类中。

3.2 L1 和 L2 正则化

L1 和 L2 正则化是最常用的正则化方法。L1 正则化向目标函数添加正则化项，以减少参数的绝对值总和；而 L2 正则化中，添加正则化项的目的在于减少参数平方的总和。根据之前的研究，L1 正则化中的很多参数向量是稀疏向量，因为很多模型导致参数趋近于 0，因此它常用于特征选择设置中。机器学习中最常用的正则化方法是对权重施加 L2 范数约束。

3.2.1 L2 regularization（权重衰减）

L2 regularization（权重衰减）L2正则化就是在代价函数后面再加上一个正则化项λ ，使得权重在更新的时候，乘以一个小于1的因子（1-a(λ/m))，这个可以防止W过大。正则化项里面有一个系数1/2，1/2经常会看到，主要是为了后面求导的结果方便，后面那一项求导会产生一个2，与1/2相乘刚好凑整。过拟合的时候，拟合函数的系数往往非常大。
过拟合，就是拟合函数需要顾忌每一个点，最终形成的拟合函数波动很大。在某些很小的区间里，函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值（绝对值）非常大，由于自变量值可大可小，所以只有系数足够大，才能保证导数值很大.
L2 Regularization 防止了系数W过大，也就防止了拟合函数导数值过大，也就防止了函数导数值波动过大，也就解决了过拟合问题。L2正则化是训练深度学习模型中最常用的一种解决过拟合问题的方法。

3.2.2 L1 regularization

L1正则化的正则项是所有权重w的绝对值的和，乘以λ/n（这里不像L2正则化项那样，需要再乘以1/2）；消除过拟合的原因与L2类似。使用频率没有L2正则化高。

3.3 Dropout正则化

L1、L2正则化是通过修改代价函数来实现的，而Dropout则是通过修改神经网络本身来实现的。Dropout是指在深度学习网络的训练过程中，对于神经网络单元，按照一定的概率将其暂时从网络中丢弃。注意是暂时，对于随机梯度下降来说，由于是随机丢弃，故而每一个mini-batch都在训练不同的网络。运用了dropout的训练过程，相当于训练了很多个只有半数隐层单元的神经网络（后面简称为“半数网络”），每一个这样的半数网络，都可以给出一个分类结果，这些结果有的是正确的，有的是错误的。随着训练的进行，大部分半数网络都可以给出正确的分类结果，那么少数的错误分类结果就不会对最终结果造成大的影响。dropout率的选择：经过交叉验证，隐含节点dropout率等于0.5的时候效果最好，原因是0.5的时候dropout随机生成的网络结构最多。

3.4 Drop Connect

Drop Connect 是另一种减少算法过拟合的正则化策略，是 Dropout 的一般化。在 Drop Connect 的过程中需要将网络架构权重的一个随机选择子集设置为零，取代了在 Dropout 中对每个层随机选择激活函数的子集设置为零的做法。由于每个单元接收来自过去层单元的随机子集的输入，Drop Connect 和 Dropout 都可以获得有限的泛化性能 [22]。Drop Connect 和 Dropout 相似的地方在于它涉及在模型中引入稀疏性，不同之处在于它引入的是权重的稀疏性而不是层的输出向量的稀疏性。

3.5 早停法

早停法可以限制模型最小化代价函数所需的训练迭代次数。早停法通常用于防止训练中过度表达的模型泛化性能差。如果迭代次数太少，算法容易欠拟合（方差较小，偏差较大），而迭代次数太多，算法容易过拟合（方差较大，偏差较小）。早停法通过确定迭代次数解决这个问题，不需要对特定值进行手动设置。

4.吉洪诺夫正则化

Tikhonov正则化是以Andrey Tikhonov的名字命名的，是不适定问题正则化最常用的方法。在统计学上，这种方法被称为岭回归，在机器学习中，它被称为权值衰减，随着多个独立的发现，它也被称为Tikhonov Miller方法，Phillips Twomey方法，约束线性反演方法，和线性正则化方法。它与非线性最小二乘问题的Levenberg Marquardt算法有关。
假设一个已知的矩阵A和一个向量b，我们希望找到一个向量x满足：

标准方法是普通最小二乘线性回归。然而，如果没有x满足这个方程，或者不止一个x满足这个方程，那么这个解就不是唯一的，这个问题就是病态的。在这种情况下，普通最小二乘估计会导致超定(过拟合)，或者更常见的是欠定(欠拟合)方程组。在A将x映射到b的正向上，大多数实际现象都有低通滤波器的影响。因此，在求解逆问题时，逆映射作为一个高通滤波器，具有放大噪声的不良倾向(特征值/奇异值在逆映射中最大，在正向映射中最小)。此外，普通最小二乘隐式地使A的空白空间中的重构版本x的每个元素无效，而不允许将模型用作x的先验。普通最小二乘试图最小化残差的平方和，它可以被简洁地写成：

为了优先考虑具有理想性质的特解，可以在这个极小化过程中加入正则化项:

在许多情况下，这个矩阵被选择为单位矩阵的倍数，优先考虑具有较小范数的解;这就是L2正则化。在其他情况下，如果基本向量被认为是连续的，则可以使用高通算子(例如差分算子或加权傅里叶算子)来增强平滑性。这种正则化改进了问题的条件，从而实现了直接的数值求解。一个显式解，用{\hat {x}}表示，由:

求解过程可以参考矩阵求导
正则化的效果可以通过矩阵的尺度来改变。对于\Gamma =0，如果(ATA) - 1存在，这就可以归结为非正则化最小二乘解。
L2正则化除了用于线性回归外，还可用于许多场合，如使用逻辑回归或支持向量机进行分类和矩阵分解。

对于y=Xw，若w无解或有多个解，称这个问题是病态的。病态问题下，用最小二乘法求解会导致过拟合或欠拟合，用正则化来解决。
设X为m乘n矩阵：
过拟合模型：m<<nm<<n，欠定方程，存在多解的可能性大；
欠拟合模型：m>>nm>>n，超定方程，可能无解，或者有解但准确率很低

参考

AI数学基础

深度学习的五种正则化方法和其中优化方法

吉洪诺夫正则化

图像处理中不适定问题

Tikhonov regularization 吉洪诺夫正则化（L2正则化）相关推荐

吉洪诺夫 matlab,使用三种方法求解吉洪诺夫正则化参数，为什么结果相同
问题主要是使用了三种不同的方法去求解吉洪诺夫正则化的参数,具体过程在附件,但是求解的结果不怎么对劲 %以下为L曲线验证 [L,W]=get_l(76,2); [UU,sm,XX] = cgsvd (A ...
L1正则化 L2正则化的Python 实现
上一篇文档 https://blog.csdn.net/xingzhe2001/article/details/86316712 介绍了L1 L2正则化本文介绍L1, L2 正则化的实现 L1正则化 ...
欧氏距离,l2范数,l2-loss,l2正则化
欧式距离,l2范数,l2-loss,l2正则化 1.欧氏距离 2.L2范数范数计算公式 L1范数L2范数在机器学习方面的区别为什么L2范数可以防止过拟合? 3.L2-Loss 4.L2正则化正则 ...
l1正则化和l2正则化_l1 vs l2正则化以及何时使用
l1正则化和l2正则化 I have read many articles on the topic to find out which is better out of two and what s ...
比较全面的L1和L2正则化的解释
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达本文转自|机器学习算法那些事前言前段时间写了一篇文章<深入 ...
L1,L2正则化分析
1. 优化角度分析 1).L2正则化的优化角度分析在限定的区域,找到使最小的值. 图形表示为: 上图所示,红色实线是正则项区域的边界,蓝色实线是的等高线,越靠里的等高圆, 越小,梯度的反方向是 ...
权值衰减和L2正则化傻傻分不清楚？
点击上方"AI公园",关注公众号,选择加"星标"或"置顶" 作者:Divyanshu Mishra 编译:ronghuaiyang 导读权 ...
L0,L1,L2正则化浅析
在机器学习的概念中,我们经常听到L0,L1,L2正则化,本文对这几种正则化做简单总结. 1.概念 L0正则化的值是模型参数中非零参数的个数. L1正则化表示各个参数绝对值之和. L2正则化标识各个参数 ...
权值衰减和 L2 正则化傻傻分不清楚？
作者 | Divyanshu Mishra 编译 | ronghuaiyang 转自 | AI公园导读权值衰减和L2正则化,到底是不是同一个东西,这篇文章给你答案. 神经网络是伟大的函数逼近器和特 ...
l2正则化java代码_L1与L2正则化
过拟合机器学习中,如果参数过多.模型过于复杂,容易造成过拟合. 结构风险最小化原理在经验风险最小化(训练误差最小化)的基础上,尽可能采用简单的模型,以提高模型泛化预测精度. 正则化为了避免过拟合 ...

Tikhonov regularization 吉洪诺夫正则化（L2正则化）