回归（Regression ）

模型定义

Regression 就是找到一个函数 functionfunction ，通过输入特征 x，输出一个数值 Scalar。

模型应用

股市预测（Stock market forecast）
- 输入：过去10年股票的变动、新闻咨询、公司并购咨询等
- 输出：预测股市明天的平均值
自动驾驶（Self-driving Car）
- 输入：无人车上的各个sensor的数据，例如路况、测出的车距等
- 输出：方向盘的角度
商品推荐（Recommendation）
- 输入：商品A的特性，商品B的特性
- 输出：购买商品B的可能性
Pokemon精灵攻击力预测（Combat Power of a pokemon）：
- 输入：进化前的CP值、物种（Bulbasaur）、血量（HP）、重量（Weight）、高度（Height）
- 输出：进化后的CP值

模型实现

后面的例子以视频流量预测来探讨，即知道过去几个月的视频观看流量数据，来预测今天的流量数据的准确度。

第一步：Function with Unknown Parameters（构造初始模型）

先做一个最初步的线性模型猜测,假设我们写成这个样子：

y是我们準备要预测的东西,即预测今天的流量人数
x是这个频道,前一天总共观看的人数,
b跟w是未知的参数,它是準备要透过资料去找出来的,我们还不知道w跟b应该是多少,我们只是隐约的猜测

那现在总之,我们就随便猜说， y=b+w*x ，而b跟w是未知的,这个带有未知的参数,这个Parameter中文通常翻译成参数,这个带有Unknown的Parameter的Function 我们就叫做Model,所以我们常常听到有人说,模型 Model,Model这个东西在机器学习裡面,就是一个带有,未知的Parameter的Function,

第二部：Define Loss from Training Data（定义损失函数）

第二个步骤,我们要定义一个东西叫做Loss,Loss它也是一个Function,那这个Function它的输入,是我们Model里面的参数,我们的Model叫做, y=b+w*x,而b跟w是未知的,是我们准备要找出来的,所谓的这个Loss,它是一个Function,这个Function的输入,就是b跟w,所以L它是一个Function,它的输入是Parameter,是model里面的Parameter,那这个Loss 这个Function,这个Function输出的值代表说,现在如果我们把这一组未知的参数,设定某一个数值的时候,这笔数值好还是不好。

这里我们把通过模型预测出来的结果叫y1，而实际的结果为y2,那么其中的误差就是e = |y1-y2|:

我们就把每一天的误差,通通加起来,加起来然后取得平均,这个大N代表我们的训验资料的个数,就是所有训练资料的个数,我们算出一个L,L是每一笔训练资料的误差,这个大L就是我们的Loss.

测的值跟实际的值之间的差距,其实有不同的计算方法,在我们刚才的例子裡面,我们是算y1跟y2之间绝对值的差距,这一种计算差距的方法,得到的这个大L,得到的Loss叫 mean absolute error,缩写是MAE,如果你今天的e是用相减y平方算出来的,这个叫mean square error,又叫MSE,那MSE跟MAE,他们其实有非常微妙的差别.我们就是选择MAE,作为我们计算这个误差的方式,把所有的误差加起来,就得到Loss,如果y1和y2它都是机率,都是机率分佈的话,在这个时候,你可能会选择Cross-entropy,我们这边就是选择了MAE,那这个是机器学习的第二步.

Error Surface（损失值可视化）

在这个等高线图上面,越偏红色系,代表计算出来的Loss越大,就代表这一组w跟b越差,如果越偏蓝色系,就代表Loss越小,就代表这一组w跟b越好

第三步：Optimization

要做的事情就是,找一个w跟b,把未知的参数,找一个数值出来,看代那一个数值进去,可以让我们的大L,让我们的Loss的值最小,那个就是我们要找的w跟b,那这个可以让loss最小的w跟b,我们就叫做 w* 跟 b* 代表说他们是最好的一组w跟b,可以让loss的值最小.

首先在这里引入一个概念学习率：移动的步长，如图中η

步骤1：随机选取一个 w0
步骤2：计算微分，也就是当前的斜率，根据斜率来判定移动的方向
- 大于0向右移动（增加w）
- 小于0向左移动（减少w）
步骤3：根据学习率移动
重复步骤2和步骤3，直到找到最低点

整理以后：

梯度下降推演最优模型的过程：

每一条线围成的圈就是等高线，代表损失函数的值，颜色约深的区域代表的损失函数越小
红色的箭头代表等高线的法线方向

过拟合

定义

我们的数据在训练集上可能很好的表现，但是在遇到新的数据后，表现就没有那么出色了，这种现象叫过拟合。

过拟合与欠拟合对比

原因

1.训练集的数据太少

2.训练集和新数据的特征分布不一致

3.训练集中存在噪音。噪音大到模型过分记住了噪音的特征，反而忽略了真实的输入输出间的关系。

4.权值学习迭代次数足够多，拟合了训练数据中的噪音和训练样例中没有代表性的特征。

解决方案

1.丢弃一些不能帮助我们正确预测的特征。

可以是手工选择保留哪些特征，或者使用一些模型选择的算法来帮忙，比如PCA

2.正则化。

保留所有特征，但是减少参数的大小。

带正则化的损失函数:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

步骤优化

2个input的四个线性模型是合并到一个线性模型中

如果希望模型更强大表现更好（更多参数，更多input）

加入正则化
学习参考：https://datawhalechina.github.io/leeml-notes/#/chapter3/chapter3