《机器学习基石》课程笔记（1）

什么是机器学习

什么是学习？学习是人类通过观察世界积累经验进而获得相应技能的过程。而机器学习则是机器（计算机）通过计算数据，像人类一样积累经验并获得技能的过程。

机器学习更一般化的定义是Improving some performance measuer with experience computed from data.也就是机器通过计算的手段，利用积累的经验改善系统的性能。比如，让机器去学习股票数据以获得更多的投资收益。

机器学习的本质

并不是每个问题都需要机器学习来解决。事实上，有些问题在不使用机器学习的时候会取得更好的效果。那么，我们如何判断是否需要使用机器学习解决问题呢？首先，要存在一些可以被学习的潜在模式（underlying pattern）或规则，也就是说可以提升系统性能；其次，那些潜在模式或规则不能通过编程实现；最后，要有与模式或规则相关的数据，用来作为机器学习算法的输入。

基础符号定义

- 输入x∈Xx\in X：机器学习的输入
- 输出y∈Yy\in Y：我们想要机器学习告诉我们的答案，也就是机器学习的输出
- 目标函数f:X→Yf:X \rightarrow Y：我们想要学但是又不知道的模式或规律
- 数据⇔\Leftrightarrow训练样本：D={(x1,y1),(x2,y2),...,(xn,yn)}D=\{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\}
- 假说⇔\Leftrightarrow显著的性能提升：g:X→Yg:X\rightarrow Y,函数gg就是机器学到的东西，是ff的近似

机器学习的流程

从数据（与目标函数f:X→Yf:X\rightarrow Y有关）和假设集合HH出发，机器学习算法AA要算出一个函数gg，这个函数gg要接近于目标函数ff。其中假设集合HH和学习算法AA被称为机器学习模型。根据机器学习的流程，可以得到机器学习更具体的定义：use data to compute hypothesis g that approximates target f.即通过数据计算出一个近似于目标函数ff的假设gg。

机器学习和相关领域的关系

机器学习与数据挖掘

机器学习：通过数据计算出一个接近近似于目标函数ff的假设gg
数据挖掘：通过（大量的）数据找到一些有趣或有用的性质
如果“有趣的性质”就是直接找出一个假设gg，那么机器学习=数据挖掘
- 如果“有趣的性质”和假设gg相关，那么机器学习和数据挖掘相辅相成
- 传统上的数据挖掘常常关注于在大规模数据上的运算效率
机器学习与人工智能
- 机器学习：通过数据计算出一个接近近似于目标函数ff的假设gg
- 人工智能：计算某些东西，有一些聪明的表现
- 机器学习是实现人工智能的一种方法
- 比如下棋，传统人工智能使用一种叫博弈树（game tree）的方法，而使用机器学习的人工智能则“从棋盘数据中学习”。
机器学习与统计学
- 机器学习：通过数据计算出一个接近近似于目标函数ff的假设gg
- 统计学：使用数据做一些我们之前不知道的推论
- 假设gg是一个推论的结果，而目标函数f<script type="math/tex" id="MathJax-Element-29">f</script>则是我们不知道的东西，从这个角度来说，统计是实现机器学习的方法
- 传统的统计学常常关注于由数学推导得出的结果，而机器学习更关注于计算
- 统计学为机器学习提供很多游泳的方法和工具