最小二乘法的本质是什么？

点击上方“小白学视觉”，选择加"星标"或“置顶”

重磅干货，第一时间送达

本文转自：深度学习与计算机视觉

作者：梨梨喵
https://www.zhihu.com/question/37031188/answer/70840126

最小二乘法的本质是最小化系数矩阵所张成的向量空间到观测向量的欧式误差距离.

最小二乘法的一种常见的描述是残差满足正态分布的最大似然估计
模型具有如下形式:

是基函数
残差满足正态分布
于是有:
对于N个独立的样本

与独立
, 得到最大似然估:

得到最小欧式距离, 即是最小二乘法

作者：Elliot Huang
https://www.zhihu.com/question/37031188/answer/888897619

很好的回答了什么是最小二乘和为什么用最小二乘，但本质这个东西实在太玄妙了，我尝试从“法”的角度谈谈自己对最小二乘‘法’的认识。

假设我们需要预测每个省的在淘宝买东西花的钱 t 和该省平均房价 y 的关系，我们用数学符号表达下： y = N(t) + e

这里的 N(t) 就是我们要找的数学模型，但是实际上我们永远也没有办法找的真的 N，所以那就次点，找个近似的模型 M(t) 吧。为了判断这个 M 找的准不准，我们用实际的数据考察一下，也就是实际的房价和预测的房价的差，或者叫残差。如果残差的平方和很小，那么我们可以认为这个模型和之前的数据拟合的很好，这个就是我们要找的的模型啦。

回头看下，这个找模型的过程实际上是在找理想和预测差值的最小平方和。假设我们的模型很简单：.

我们用表示第 i 个数据的残差，。注意这里的描述的是模型内部的系数，即

假设我们现在有个数据，这个残差的平方和用来表示:

(忽略这里的1/2，为了后面微分的方便)。

以上就是最小2乘问题的介绍和定义。解决最小二乘问题实际上是求解方程 .

实际上像梯度法、高斯法、牛顿法、L-M法、狗腿法(Powell)、都是在解决非线性的最小二乘问题。

作者：UFO
https://www.zhihu.com/question/37031188/answer/700993426

这个问题既然问的是本质，那么我就不罗列性质了，性质成千上万，高票答案基本都是这类型的。

回想一下，大家第一次见到平方和是在哪里？肯定不是统计吧，那是高中/大学课程。

正确答案：初中课程中的勾股定理。

所以本质就是：

勾股定理和欧氏几何的平行公理等价。
平行公理定义欧氏空间。
欧氏空间是平坦的、线性的、各向同性的。（用爱因斯坦的话来说就是空间曲率为0）

为什么最小二乘法好使？因为我们处于空间曲率近似为0的空间，多数的物理量和物理定理都满足欧氏空间的特性。

实际上，高斯对于最小二乘法的认识，很有钦定的意味：假定最小二乘法最优，那么如何如何。至于为什么它最优，抱歉，高斯本人也不知道。

第一个真正证明最小二乘法最优的是Maxwell。他的证明主要基于空间对称性，而这正是欧氏空间的特点。

问题：什么时候最小二乘不好使？