统计学习方法的三要素
统计学习方法的三要素
方法=模型+策略+算法
模型
- 定义1:决策函数的集合
- 决策函数的集合:F={f∣Y=f(X)}\mathcal{F}=\{f \mid Y=f(X)\}F={f∣Y=f(X)}
- XXX和YYY是定义在输入空间和输出空间上的变量,F\mathcal{F}F通常是由一个参数向量决定的函数族
- 参数空间:F={f∣Y=fθ(X),θ∈Rn}\mathcal{F}=\left\{f \mid Y=f_{\theta}(X), \theta \in \mathbf{R}^{n}\right\}F={f∣Y=fθ(X),θ∈Rn}
- 参数向量θθθ取决于n维欧式空间Rn\mathbf{R}^{n}Rn,称为参数空间
- 决策函数的集合:F={f∣Y=f(X)}\mathcal{F}=\{f \mid Y=f(X)\}F={f∣Y=f(X)}
- 定义2:条件概率的集合
- 条件概率的集合:F={P∣P(Y∣X)}\mathcal{F}=\{P \mid P(Y \mid X)\}F={P∣P(Y∣X)}
- XXX和YYY是定义在输入空间和输出空间上的变量,F\mathcal{F}F通常是由一个参数向量决定的条件概率分布族
- 参数空间:F={P∣Pθ(Y∣X),θ∈Rn}\mathcal{F}=\left\{P \mid P_{\theta}(Y \mid X), \theta \in \mathbf{R}^{n}\right\}F={P∣Pθ(Y∣X),θ∈Rn}
- 参数向量θθθ取决于n维欧式空间Rn\mathbf{R}^{n}Rn,称为参数空间
- 条件概率的集合:F={P∣P(Y∣X)}\mathcal{F}=\{P \mid P(Y \mid X)\}F={P∣P(Y∣X)}
策略
相关概念
- 损失函数:一次预测的好坏
- 风险函数:平均意义下模型预测的好坏
损失函数分类
- 0-1损失函数 0-1 loss function: L(Y,f(X))={1,Y≠f(X)0,Y=f(X)L(Y, f(X))= \begin{cases}1, & Y \neq f(X) \\ 0, & Y=f(X)\end{cases}L(Y,f(X))={1,0,Y=f(X)Y=f(X)
- 平方损失函数 quadratic loss function L(Y,f(X))=(Y−f(X))2L(Y, f(X))=(Y-f(X))^{2}L(Y,f(X))=(Y−f(X))2
- 绝对损失函数 absolute loss function L(Y,f(X))=∣Y−f(X)∣L(Y, f(X))=|Y-f(X)|L(Y,f(X))=∣Y−f(X)∣
- 对数损失函数 logarithmic loss function 或对数似然损失函数 loglikelihood loss function L(Y,P(Y∣X))=−logP(Y∣X)L(Y, P(Y \mid X))=-\log P(Y \mid X)L(Y,P(Y∣X))=−logP(Y∣X)
风险函数
损失函数的期望 Rexp(f)=EP[L(Y,f(X))]=∫X×YL(y,f(x))P(x,y)dxdyR_{\exp }(f)=E_{P}[L(Y, f(X))]=\int_{\mathcal{X} \times \mathcal{Y}} L(y, f(x)) P(x, y) \mathrm{d} x \mathrm{~d} yRexp(f)=EP[L(Y,f(X))]=∫X×YL(y,f(x))P(x,y)dx dy,这是理论上模型f(x)f(x)f(x)关于联合分布P(X,Y)P(X,Y)P(X,Y)的平均意义下的损失,称为风险函数(risk function )或期望损失(expected loss)。由P(x,y)可以直接求出P(x|y),但不知道。
学习目标就是选择期望风险最小的模型。
经验风险:假设训练数据集为T={(x1,y1),(x2,y2),⋯,(xN,yN)}T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}T={(x1,y1),(x2,y2),⋯,(xN,yN)},则模型f(x)f(x)f(x)关于训练数据集的平均损失称为经验风险或经验损失,记作Remp (f)=1N∑i=1NL(yi,f(xi))R_{\text {emp }}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)Remp (f)=N1∑i=1NL(yi,f(xi))。
经验风险最小化和结构风险最小化
经验风险最小化最优模型
minf∈F1N∑i=1NL(yi,f(xi))\min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right) f∈FminN1i=1∑NL(yi,f(xi))当样本容量很小时,经验风险最小化学习的效果未必很好,会产生“过拟合over-fitting”
结构风险最小化 (structure risk minimization),为防止过拟合提出的策略,等价于正则化(regularization),加入正则化项(regularizer),或罚项(penalty term):
Rsrm(f)=1N∑i=1NL(yi,f(xi))+λJ(f)R_{\mathrm{srm}}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f) Rsrm(f)=N1i=1∑NL(yi,f(xi))+λJ(f)
J(f)J(f)J(f)为模型复杂度,是定义在假设空间F\mathcal{F}F上的泛函,复杂度表示了对复杂模型的惩罚。λ≥0\lambda≥0λ≥0是系数,用以权衡经验风险和模型复杂度。则相应的结构风险最小化最优模型
minf∈F1N∑i=1NL(yi,f(xi))+λJ(f)\min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f) f∈FminN1i=1∑NL(yi,f(xi))+λJ(f)
算法
- 算法是指学习模型的具体计算方法。
- 如果最优化问题有显式的解析式,算法比较简单,但通常解析式不存在,就需要数值计算的方法
统计学习方法的三要素相关推荐
- 统计学习方法笔记(三)-朴素贝叶斯原理及python实现
朴素贝叶斯 条件概率 特征条件独立假设 朴素贝叶分类器 朴素贝叶斯分类算法原理 学习与分类算法 朴素贝叶斯算法原理 模型 多项式模型 高斯模型 伯努利模型 多项式模型的朴素贝叶斯分类器实现代码 高斯模 ...
- 统计学习方法第三章 k近邻法
文章目录 第三章 k近邻法 k近邻算法 k近邻模型的距离划分 k值的选择 k近邻分类决策规则 第三章 k近邻法 只讨论分类问题的k近邻法 k近邻三个基本要素: k值选择 距离度量 分类决策规则 k近邻 ...
- 统计学习方法第三章作业:一般k邻近、平衡kd树构造、kd树邻近搜索算法代码实现
一般k邻近 import numpy as np import matplotlib.pyplot as pltclass K_near:def __init__(self,X,Y,K=5,p=2): ...
- 统计学习三要素 模型+策略+算法
统计学习方法都是由模型. 策略和算法构成的. 即统计学习方法由三要素构成, 可以简单地表示为:方法=模型+策略+算法 模型 统计学习首要考虑的问题是学习什么样的模型. 在监督学习过程中, 模型就是所要 ...
- 第1章统计学习方法概论之1.1统计学习
1统计学习(也称统计机器学习) 1.1统计学习定义: 统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科. 统计学习就是计 ...
- 数据分析、机器学习必读书,李航《统计学习方法》发布算法推导视频啦!(附作业讲解)...
(文末可在线听人美声甜的数学系博士小姐姐带你读李航<统计学习方法>) 在信息过载的时代,不懂数据分析,你就会成为新时代的"文盲" 许多年前人们惊呼信息时代来了,其实体会 ...
- 统计学习方法 第一章 学习心得
统计学习方法 第一章 学习心得 以下可能有不当之处,请各位朋友停步指正,先谢过各位. 上一帖子说道,统计学习方法的三要素: 模型.策略.算法. 模型:模型的假设空间 策略:模型的选择准则,即:定义最优 ...
- 李航《统计学习方法》笔记
虽然书名是统计学习,但是却是机器学习领域中和重要的一本参考书.当前的机器学习中机器指计算机,但是所运用的方法和知识是基于数据(对象)的统计和概率知识,建立一个模型,从而对未来的数据进行预测和分析(目的 ...
- 统计学习方法-李航(1)
统计学习方法-李航(第一章1) 第一章 统计学习概论 1.1 统计学习 1.2 监督学习 1.3 统计学习的三要素 第一章 统计学习概论 1.1 统计学习 1.统计学习是关于计算机基于数据构建概论统计 ...
最新文章
- wordpress网站后台打开速度很卡很慢解决方法?
- js函数声明和函数表达式的区别
- LeetCode Maximal Rectangle(dp)
- lucene源码分析(7)Analyzer分析
- JS 与 JAVA 跨语言实现 RSA 和 AES加密算法
- 哈佛大学 CS50,全美最受欢迎的计算机课程!
- sql 解锁被锁定的账号
- [转]关于管理的经典故事(员工激励)
- 浅谈 fluentd 使用
- JAVASCRIPT加密解密终级指南
- iOS UITextView字数限制 拼音
- 油猴【QQ空间自动点赞-模拟点击】
- Error: DPI-1047: Cannot locate a 64-bit Oracle Client library: “问题
- 等比求和模版,下标从1开始
- flutter小说阅读页之爬坑记录-半角转全角字符
- Kubernetes权限管理与控制-RBAC
- Win32病毒入门 -- ring3篇
- 少儿编程之Scratch入门
- VSCode配置格式化工具(Prettier/Vetur/ESLint)和jsconfig.json
- 104 货仓选址(绝对值不等式)
热门文章
- cdecl、stdcall、fastcall函数调用约定区别
- HP服务器350g5怎么安装系统,HP ML350 G5服务器安装SCO 5.0.7流程
- 大油井隐藏的箱子_魔兽世界:历经版本变迁的5大隐藏boss!全部都经历过的才是大神...
- mysql避免回环复制_【20181204】 MySQL 双主复制是如何避免回环复制的
- python2和pytho3切换_python2和pytho3切换_Python2和Python3共存安装
- 【NLP】一行Python代码中自动化文本处理
- ACM金牌导师1个月带你一起魔鬼刷爆算法题!
- 【机器学习基础】9 大主题!机器学习算法理论面试题大汇总
- 【算法知识】详解选择排序算法
- 一文看懂Transformer到BERT模型