花书 —— 机器学习基础
1.机器学习算法
- 什么是学习?
Mitcgell(1997)提供了一个简洁的定义:“对于某类任务T和性能度量P,一个计算机程序被认为可以从经验E中学习是指,通过经验E改进后,它在任务T上由性能度量P衡量的性能有所提升。” - 什么是机器学习算法?
机器学习算法是一种能够从数据中学习的算法。
1.1 任务T
- 机器学习的任务是什么?
通常机器学习任务定义为机器学习系统应该如何处理样本(example),即对样本进行一个复杂的非线性变换从而能得到正确的结果。 - 样本是什么?
样本是指我们从某些希望机器学习系统处理的对象或者事件中收集到的已经量化的特征的集合。 - 常见的任务有哪些?
分类、输入缺失分类;
回归;
转录:OCR(光学字符识别),ASR(语音识别);
机器翻译:seq2seq;
结构化输出:输出值之间内部紧密相关,如语法树;
异常检测:筛选不正确或非典型的个体;
合成与采用:VAE,GAN;
缺失值填充;
去噪;
密度估计;
1.2 回归问题与分类问题
- 回归问题输出是连续的实数;
- 分类问题的输出是一个类别,是一个0或者1的序列,与回归问题不同,其输出是一个概率分布,概率总和为1。然后概率最大的一维输出为1,其余为0;
1.3 性能度量P
性能度量P用于评估机器学习算法的能力;
- 回归任务:MSE(均方误差),J=12∑i=1N(yi−yi^)2J=\frac{1}{2}\sum_{i=1}^N(y_i-\hat{y_i})^2J=21∑i=1N(yi−yi^)2;
- 分类任务:错误率,精度,精确率与召回率、F1等;
准确率:准确率是指该模型输出正确结果的样本比率;
在测试集上评估模型的性能;
1.4 经验E
- 无监督学习
无监督学习算法训练含有很多特征的数据集,然后学习出这个数据就上有用的结构性质;在深度学习中,通常要学习生成数据集的整个概率分布,显式地,比如密度估计,或者隐式地,比如合成或者去噪; - 监督学习
监督学习算法训练含有很多特征的数据集,但是数据集中的样本都有一个标签或者目标;
2.容量、过拟合和欠拟合
- 奥卡姆剃刀:若有多个假设与观察一致,则选择最简单的;
- 没有免费的午餐:不存在能够在所有可能的分类问题中性能均为最优的算法;
- 解决方法:尽可能的深入了解所面对的分布,找到先验知识;
- 正则化:修改学习算法,使其降低泛化误差而非训练误差L1正则化,L2正则化;J(w)=MSEtrain+λwTwJ(w)=MSE_{train} + \lambda w^TwJ(w)=MSEtrain+λwTw;
3.超参数和验证集
- 超参数
用于挑选超参数的数据子集被称为验证集; - 验证集
交叉验证法(主要方法),留出法,k-折交叉验证; - 测试集
判断模型的性能好坏;
4.估计、偏差和方差
4.1 估计
- 点估计:比如估计高斯分布的均值U为0.1;
- 区间估计:比如估计高斯分布的均值u落在[0,0.2]之间的可能性(置信度);
- 函数估计(函数近似):可以用少量的参数w来拟合实际的各种价值函数,例如线性回归;
一般我们谈的是点估计;
4.2 偏差
- 偏差:描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据;
- 方差:描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散。
5.最大似然估计
- 最小二乘的核心是权衡,因为你要在很多条线中间选择,选择出距离所有点之和最短的;
- 极大似然估计,通俗来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即“模型已定,参数未知”。
6.贝叶斯估计
贝叶斯估计是最大后验估计的进一步扩展,最大后验估计是估计出θ\thetaθ的具体值,贝叶斯估计是估计出θ\thetaθ的分布,唯一的区别是贝叶斯多除于一个全概率P(X)P(X)P(X),把得到的θ\thetaθ这个概率归一化。
贝叶斯的数学表达式:P(θ∣x)=P(X∣θ)P(θ)P(X)P(\theta|x)=\frac{P(X|\theta)P(\theta)}{P(X)}P(θ∣x)=P(X)P(X∣θ)P(θ)
频率派认为参数是一个固定值,只是暂时是未知的;贝叶斯学派认为参数是一个随机变量。频率派通过极大似然估计找到对应的参数值,贝叶斯派通过最大后验估计计算得到参数值。
在经典抛硬币的问题中,最大似然估计认为使似然函数最大的参数θ\thetaθ即为最好的θ\thetaθ,此时最大似然估计是将θ\thetaθ看做固定的值,只是其值未知;
最大后验概率分布认为θ\thetaθ是一个随机变量,即θ\thetaθ具有某种概率分布,称为先验分布,求解时除了要考虑似然函数P(X∣θ)P(X|\theta)P(X∣θ)之外,还要考虑θ\thetaθ的先验分布P(θ)P(\theta)P(θ),因此其认为使P(X∣θ)P(θ)P(X|\theta)P(\theta)P(X∣θ)P(θ)取最大值的θ\thetaθ就是最好的θ\thetaθ。
用数学公式表达:argmaxθP(θ∣X)=argmaxθP(X∣θ)P(θ)argmax_{\theta}P(\theta|X)=argmax_{\theta}P(X|\theta)P(\theta)argmaxθP(θ∣X)=argmaxθP(X∣θ)P(θ)
频率派为极大似然估计:argmaxθP(X∣θ)argmax_{\theta}P(X|\theta)argmaxθP(X∣θ)
7.监督学习算法
监督学习算法是给定一组输入x和输出y的训练集,学习如何关联输入和输出。
逻辑回归模型学习时,对于给定的训练数据集T={(x1,y1),(x2.y2),...,(xn,yn)}T=\left \{ (x_1,y_1),(x_2.y_2),...,(x_n,y_n)\right \}T={(x1,y1),(x2.y2),...,(xn,yn)},其中,xi∈Rnx_i\in \mathbb{R}^nxi∈Rn,yi∈{0,1}y_i\in \left \{0,1 \right \}yi∈{0,1},可以应用极大似然估计法估计模型参数,从而得到逻辑回归模型。
设P(Y=1∣x)=π(x)P(Y=1|x)=\pi(x)P(Y=1∣x)=π(x),P(Y=0∣x)=1−π(x)P(Y=0|x)=1-\pi(x)P(Y=0∣x)=1−π(x)
似然函数为∏i=1N[π(xi)yi][1−π(xi)]1−yi\prod_{i=1}^N[\pi(x_i)^{y_i}][1-\pi(x_i)]^{1-y_i}i=1∏N[π(xi)yi][1−π(xi)]1−yi
对数似然函数为L(w)=∑i=1N[yilogπ(xi)+(1−yi)log(1−π(xi))]L(w)=\sum_{i=1}^N[y_ilog\pi(x_i)+(1-y_i)log(1-\pi(x_i))]L(w)=i=1∑N[yilogπ(xi)+(1−yi)log(1−π(xi))]=∑i=1N[yilogπ(xi)1−π(xi)+log(1−π(xi))]=\sum_{i=1}^N[y_ilog\frac{\pi(x_i)}{1-\pi(x_i)}+log(1-\pi(x_i))]=i=1∑N[yilog1−π(xi)π(xi)+log(1−π(xi))]=∑i=1N[yi(w⋅xi)−log(1+exp(w⋅xi))]=\sum_{i=1}^N[y_i(w\cdot x_i)-log(1+exp(w\cdot x_i))]=i=1∑N[yi(w⋅xi)−log(1+exp(w⋅xi))]对L(w)L(w)L(w)求极大值,得到w的估计值:
∂L(w)∂w=∑i=1N[yixi−exp(wxi)1+exp(wxi)xi]=0\frac{\partial L(w)}{\partial w}=\sum_{i=1}^N[y_ix_i-\frac{exp(wx_i)}{1+exp(wx_i)}x_i]=0∂w∂L(w)=i=1∑N[yixi−1+exp(wxi)exp(wxi)xi]=0但是这种求极值一般很难得到结果,所以一般使用梯度下降方法求极值。
8. 无监督学习算法
9.随机梯度下降
10.构建机器学习算法
11.深度学习挑战
花书 —— 机器学习基础相关推荐
- 《深度学习》(美)Ian Goodfellow 花书简要笔记(第一部分:应用数学与机器学习基础)
说明:本篇Blog为自己刷<深度学习>时的简要笔记,仅记录对自己有启发或不熟悉的知识点,并非全面笔记.不过,对于任何一个学深度学习的人来说,这本书真的算是很好的一本入门书籍,公式推导都特别 ...
- 花书笔记:第05章 机器学习基础
花书笔记:第 05 章 机器学习基础 5.1 机器学习算法 机器学习算法定义: 对于某类任务 TTT ,和性能度量 PPP ,一个计算机程序被认为可以从经验 EEE 中学习是指,通过经验 EEE 改进 ...
- 【机器学习百科全书目录】PRML ESL MLAPP 西瓜书 花书 RLAI 统计学习方法 蒲公英书
文章目录 机器学习百科全书目录 Pattern Recognition and Machine Learning The Elements of Statistical Learning (Secon ...
- 【机器学习百科全书思维导图】PRML ESL MLAPP 西瓜书 花书 RLAI 统计学习方法 蒲公英书
文章目录 机器学习百科全书目录 Pattern Recognition and Machine Learning The Elements of Statistical Learning (Secon ...
- 送书|“零基础学机器学习”作者创作手记
1. 走下神坛的机器学习 我们马上就要进入20世纪的第3个十年啦,而人工智能和机器学习,也已经火了差不多有六七年的时间了. 从Hinton团队在2012年的ImageNet大赛中用神经网络模型一举夺魁 ...
- 重磅!花书《深度学习》,这份精炼笔记可能是最全面的
点击上方"AI有道",选择"星标"公众号 重磅干货,第一时间送达 <深度学习>,又名"花书".该书由三位大佬 Ian Goodf ...
- 重磅 | 19 页花书精髓笔记!你可能正需要这份知识清单
点击上方"AI有道",选择"星标"公众号 重磅干货,第一时间送达 <深度学习>,又名"花书".该书由三位大佬 Ian Goodf ...
- 【机器学习基础】机器学习训练中常见的问题和挑战!
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:奥雷利安·杰龙 由于我们的主要任务是选择一种学习算法,并对某些数据 ...
- 理论+技术+代码已经准备完毕!2021年啃透花书!
2021年的学习Flag已经立好了么? 这个时代正在以我们跟不上的步伐迅猛地发展,使我们陷入莫名的烦躁! 但归根结底不是你在懒惰别人在勤奋,而是都在勤奋,别人的效率却是你的10倍! 存着2058G的网 ...
最新文章
- Android中文API (109) —— SimpleCursorTreeAdapter
- LINQ的基本语法中八个关键字用法说明
- 引用和指针的区别?传引用比传指针安全,为什么?如果我使用常量指针难道不行吗?
- 产品设计丨价格理论与用户体验
- oracle创建函数语句,Oracle 创建函数与存储过程语句积累
- BZOJ[1009] [HNOI2008]GT考试
- hibernate理解
- 分组数据筛选(group by后取出每组的第n条数据)
- 计算机 继续教育培训心得体会,继续教育培训总结.doc
- Quartus仿真步骤
- 前端零基础入门: 用css设置文字样式
- 新闻发布系统——网站发布
- 阻抗匹配四参数:反射系数、行波系数、驻波比、回波损耗
- Security注解:@PreAuthorize,@PostAuthorize, @Secured
- Python无框架分布式爬虫,爬取范例:拼多多商品详情数据,拼多多商品列表数据
- uniapp app内使用微信H5支付
- Ubuntu 18.04使用百度网盘笔记
- 线性最小二乘法拟合 matlab程序,曲线拟合的线性最小二乘法及其MATLAB程序
- 【论文阅读32】《Texture Defragmentation for Photo-Reconstructed 3D Models》
- Visual Studio Code设置代码自动换行