第一节 导论

一、监督学习

实现步骤

(1)有限的训练数据集合(数据有label/有标注的数据)

(2)确定模型的假设空间(所有的备选模型)

(3)确定模型选择的准则(学习策略)

(4)实现求解最优模型的算法

(5)通过学习方法选择最优模型

(6)利用最优模型对新数据进行预测或分析

二、统计学习的三要素

1、模型(假设空间)

  1. 决策函数

F={f|Y=fθx,θ∈Rn}

  1. 条件概率分布

P={P|PθY|X,θ∈Rn}

(Θ表示的某一个模型)

2、策略

损失函数——计算模型预测结果和实际结果的差距。几种损失函数:

  1. 0-1损失函数

L(Y,f(X))=1,Y≠f(X)0,Y=f(X)

  1. 平方损失函数

LY,fX=(Y-f(X))2

  1. 绝对损失函数

LY,fX=|Y-f(X)|

  1. 对数损失函数

LY,P(Y|X)=-log⁡P(Y|X)

  1. 经验风险最小化

minf∈F1Ni=1NL(yi,f(xi))

  1. 结构风险最小化

minf∈F1Ni=1NLyi,fxi+λJ(f)

J(f),正则化,防止过拟合

3、算法

三、模型的评估与选择

训练误差(针对训练数据集)

1Ni=1NL(yi,f(xi))

测试误差(针对测试数据集)

1N'i=1N'L(yi,f(xi))

验证集

四、正则化与交叉验证

  1. 结构风险最小化 正则化

minf∈F1Ni=1NLyi,fxi+λJ(f)

J(f),正则化,防止过拟合

  1. 交叉验证

数据集随机划分为3个部分:

训练集

测试集

验证集

五、泛化能力

泛化误差上界

(1)介绍

泛化误差:

一个机器学习模型的泛化误差(Generalization error),是一个描述学生机器在从样品数据中学习之后,离教师机器之间的差距的函数。使用这个名字是因为这个函数表明一个机器的推理能力,即从样品数据中推导出的规则能够适用于新的数据的能力。

泛化误差上界:

泛化误差上界可理解为模型学习能力的“出错上限”,显然,当样本容量趋于无穷大时,泛化误差上界趋于0

(2)定理

在二分类问题中,若假设空间为有限个函数的集合F=f1,f2,…,fd, 对于任意的f∈F,至少以概率1-δ,以下不等式成立:

Rf≤Rf+ϵ(d,N,δ)

其中,

Rf=ELY,fX:泛化误差(测试集上的期望风险)

Rf=1Ni=1NL(yi,f(xi)):训练集上的经验风险

ϵd,N,δ=12N(logd+log1δ):泛化误差与样本数量N成正比,与假设空间包含的函数数量d成反比。当样本数量越大时,泛化误差上界越小;当假设空间F包含的函数越多,泛化误差上界越大。

(3)证明

证明利用了Hoeffding不等式:

Sn=i=1NXi,是独立随机变量X1,X2,…,Xn之和,Xi∈[ai,bi],则对任意t>0,以下不等式成立:

P(E(Sn)-Sn≥t)≤exp⁡(-2t2i=1n(bi-ai)2)

X=Snn  N=n

P(ESnn-Snntn)≤exp⁡(-2(nt)2i=1n(bi-ai)2)

(不等式右边采用变量替换 t0=tn t=nt0)

化简得:

P(E(Xn)-X≥t)≤exp⁡(-2n2t2i=1n(bi-ai)2)

在二分类问题中,显然ai=0bi=1,上式可写为:

P(Rf-Rf≥ε)≤exp⁡(-22)

从假设空间的全部函数上看,上式可写为:

P∃f∈F:Rf-Rf≥ε=P∪f∈F{Rf-Rf}≥ε≤dexp⁡(-22)

考虑对立事件。对任意f∈F, 有:

PRf-Rf<ε≥1-dexp⁡(-22)

令:

δ= dexp⁡(-22)

综上,至少以概率1-δ有Rf≤Rf+ϵ(d,N,δ)成立。

六、生成模型和判别模型

生成方法:PYX=P(X,Y)P(X)

判别方法:f(X)或者P(Y|X)

七、分类问题

评价指标

TP:将正类别预测为正类别

FN:将正类别预测为负类别

FP: 将负类别预测为正类别

TN: 将负类别预测为夫类别

精确率:预测为正类的样本中有多少是被分对的。

P=TPTP+FP

召回率:正类的样本中有多少是被预测为正类的。

R=TPTP+FN

F1值:

2F1=1P+1R

第二节 极大似然估计

极大似然估计:利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值。——“模型已定,参数未知”。(已知某个随机样本符合某种概率分布,但是其中某个具体参数θ不清楚,通过极大似然估计得到θ,该θ使这个随机样本出现的概率最大。

1、举例说明:

在0-1问题中,为1的概率是θ

(1)概率函数

PX=x=θx(1-θ)1-x

(2)似然函数

Lθ=PX1=x1θ…PXn=xnθ=i=1nθxi(1-θ)1-xi

为了防止下溢问题,改为求解对数函数:

maxlnLθ=i=1nx1lnθ+(1-x1)ln(1-θ)

求导数:

lnLθ∂θ=i=1nx1θ-n-i=1nx11-θ=0

估计值:

θ=i=1nx1n

当估计值(参数)是上述所求值时,出现已知现象的概率最大。

2、推广

(1)概率密度函数f(x)

(2)目标函数maxLθ=i=1nf(xi)

(3)对似然函数取对数 maxlnLθ

(4)对θ求偏导数  lnLθ∂θ

(5)解似然方程(组)  lnLθ∂θ=0

第三节 梯度下降法

1、算法思路

输入:目标函数f(x),梯度函数gx=∆fx,计算精度ε,步长η。

输出:f(x)的极小值点x*

(1)取初始值x0Rn,置k=0

(2)计算f(xk)

(3)计算梯度gk=g(x(k)),当gk时,停止迭代,否则,xk+1=xk-η*gk,重新转至步骤(2)

2、总结

(1)梯度下降法在每一步时计算当前位置的梯度由此明白该往什么方向走能够使函数值下降。

(2)参数步长(0~1)决定了每步走的幅度。

第一章 统计学习方法概论相关推荐

  1. 复现经典:《统计学习方法》第1章 统计学习方法概论

    本文是李航老师的<统计学习方法>[1]一书的代码复现. 作者:黄海广[2] 备注:代码都可以在github[3]中下载. 我将陆续将代码发布在公众号"机器学习初学者", ...

  2. 第1章统计学习方法概论之1.1统计学习

    1统计学习(也称统计机器学习) 1.1统计学习定义: 统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科. 统计学习就是计 ...

  3. 《统计学习方法》代码全解析——第一部分统计学习方法概论

    1.统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行分析与预测的一门学科.统计学习包括监督学习.非监督学习.半监督学习和强化学习. 2.统计学习方法三要素--模型.策略.算法,对理解统 ...

  4. 第1章 统计学习方法概论

    学习 定义:如果一个系统能够通过执行某个过程改进他的性能,这就是学习. 统计学习的对象:数据 目的:对数据进行预测和分析 方法:监督学习.非监督学习.半监督学习.强化学习 统计学习的三要素:方法 = ...

  5. 统计学习方法(一)统计学习方法概论

    文章目录 第一章 统计学习方法概论 1.1 统计学习 1.2 监督学习 1.2.1 基本概念 1.3 统计学习三要素 1.3.1 模型 1.3.2 策略 1.4 模型评估与模型选择 1.4.1 训练误 ...

  6. 第一章、统计学习方法概论

    第一章.统计学习方法概论 文章目录 第一章.统计学习方法概论 1.统计学习的特点 2.统计学习的研究 3.统计学习方法的基本步骤 3.监督学习 3.1 基本概念 1)输入变量 & 输入空间 & ...

  7. 统计学习方法-李航-第一章:统计学习方法概论-笔记1

    文章目录 0 机器学习分类 0.1 监督学习 0.2 无监督学习 0.3 半监督学习 0.4 强化学习 1 统计学习方法概论 1.1 监督学习的步骤 1.2 统计学习三要素 1.3 模型评估 1.4 ...

  8. 统计学习方法(一)——统计学习方法概论

    文章作者:Tyan 博客:noahsnail.com  |  CSDN  |  简书 1. 统计学习方法概论 本文是统计学习方法(李航)第一章的学习总结. 1.1 统计学习 1.统计学习的特点 统计学 ...

  9. 大数据 第一章 大数据概论

    第一章 大数据概论 1.1.大数据概念 ​ 按顺序给出数据存储单位:bit.Byte.KB.MB.GB.TB.PB.EB.ZB.YB.BB.NB.DB ​ 1Byte=8bit 1K=1024Byte ...

最新文章

  1. idea androidx控件不显示预览_如何解决SOLIDWORKS不显示缩略图预览的方法?
  2. 如何避免表单重复提交
  3. Socket编程小结(续)
  4. java $1参数_jmap命令详解----查看JVM内存使用详情
  5. Orace用户创建及权限分配
  6. MPLS/×××江湖恩仇录笔记
  7. 数据库笔记12:创建与管理触发器
  8. 如何在IIS添加MIME扩展类型
  9. 按下回车键自动切换焦点到下个控件
  10. java开源博客系统solo_15日开源软件更新,推荐JAVA博客系统 Solo
  11. MetalSeed 's 网站收藏夹
  12. 谭浩强《c语言程序设计》第五章第十六题 输出图案:空格和*搭配的循环
  13. 计算机毕业设计Android的手机点名签到学生请假考勤系统(源码+系统+mysql数据库+Lw文档)
  14. 团队的英文翻译缩写_有感情的一起游戏的团队英文缩写
  15. python如何设置矩阵_Python Numpy如何操作数组和矩阵
  16. 图片显示的优化以及blit
  17. 参考文献中期刊/会议如何缩写
  18. pandas模块的统计指标--实现众数和众数的频数
  19. 云顶之弈机器人怎么拉人_云顶之弈机器人阵容怎么玩_云顶之弈机器人阵容玩法攻略_玩游戏网...
  20. zynq petalinux编译系统启动文件实战应用

热门文章

  1. 半自动:图床解决方案,使用115当图床使用 获取图片直链
  2. 如何面对「加班文化」?
  3. 深度剖析行业现状,盘活企业私域流量 | 微媒云播的超级观点
  4. 深度学习读书笔记之AE(自动编码)
  5. 王齐老师 浅谈cache memory
  6. 华为宣讲会记录,各个部门的人工智能的分工
  7. 一汽丰田交响音乐会北京收官 亚洲龙和卡罗拉双擎E+亮相
  8. 关于eslint遇到的报错信息以及解决方法
  9. vue.js 依赖收集
  10. 我爱赚钱吧:你成为有钱人的6个方法