李弘毅机器学习课程笔记（一）：机器/深度学习入门

文章目录

什么是ML
ML分类
一个例子
- Model(function)
- Loss function
- - Error surface
- Optimization
- Conclusion

最近在Youtube上（当然万能的B站上也有）看了台大李弘毅老师的机器学习课程，感觉非常不错，介绍概念清晰明了，但是看时一时爽，看到后面就会发现前面的一些似乎清晰的概念开始模糊了，再往后看可能会越来越模糊，因此决定在这个讲自己学习过程中的一些问题Mark下来，为后面的学习打牢基础。

下面截图均来自来自台大2021春机器学习课程，这里也有课程详细介绍。

什么是ML

ML就是寻找某个特定领域的一个函数f，使得我们能够在给定一个输入时，根据函数能够有靠谱的输出（预测）

ML分类

ML一般分为两类：

Regression: 回归，函数根据输入输出一个值（标量），比如根据历史天气预测明天温度。
Classification: 分类，函数根据给定的选项，判断一个输入是其中的哪一种

也有一类小众的叫做Structured Learning, 比如通过ML自动生成新闻，生成图片等。

一个例子

根据已有历史的观看次数数据，训练一个Model，根据第t天的观看次数，预测第t+1天的观看次数

Model(function)

最初的Model一般是基于domain knowledge猜测给出的，Model中的变量一般叫做feature, 变量的权重叫weight, Model的修正量叫bias; Weight和Bias是未知值（unknown parameters)，ML就是通过已有的数据找到最好的unknown parameters。

Loss function

怎么定量的说明什么是“最好的unknown parameters”，那么我们就要找到一个度量的方法，这个方法就是Loss function.
如何度量，就是拿Model预测值和真实值，也叫Label, 也有人叫ground truth进行比较，比较的方法有下面的MAE或者MSE，得到的值叫误差（error)

把所有的误差加起来就是Loss function了。

Error surface

对于下面的Model, 如果我们把所有的b和w进行穷举（这个地方当然是选定了一个大概的范围再进行穷举），那么代入模型，依据training data, 根据上面的Loss function, 我们就可以得到一个Loss值。把所有Loss值相同的（w, b)点用直线连接起来，那么就会得到一条曲线，多条曲线就构成了一个Error Surface.
对于下面的图，我们发现右上角Loss值较小，左下角Loss值较大。

Optimization

根据上面的分析，我们现在的问题就是在测试集合上，找到一个参数对（w,b),使得Loss最小：

如果我们固定一个变量b, 让w变化，那么问题就变为如何取得合适的w，使得L最小：

首先我们对w取初值w0, 计算L相对于w的导数，代入w0值，得到一个值（曲线在w0处切线的斜率）：

斜率为正，说明曲线左低右高，说明最小值在w0值左侧
斜率为负，说明曲线左高右低，说明最小值在w0值右侧

那么我们通过下面的公式来更新w的值，那么新的w值总是倾向于得到更小的Loss值

其中 η\etaη是learning rate值，是一个正值，也是一个可调的值，不在Model中的参数叫做超参数（hyperparameters）， η\etaη就是一个hyperparameter，不难发现：

斜率为正，更新后的值在w0左侧
斜率为负，更新后的值在w0右侧

这样，总可以找到最小的值（例外的情况是斜率为0时）。
将上面的原理同时运用到(w, b)两个变量上，那么，我们就得到了问题的解。

Conclusion

通过建模（Model)–>定义Loss function–>Optimization三步，我们就得到了我们的模型：

看上去很简单，是不是呢？是的，明白了原理后，事情就很简单了。
ML是不是就像上面这样容易呢？当然不是，让我们接下来继续跟随李弘毅老师来挖掘ML中的奇（坑）珍（坑）异（洼）宝（洼）吧。