1、统计学习方法概念

统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法,称统计学习方法的三要素,简称为模型、策略和算法。
    模型的假设空间:包含所有可能的条件概率分布或决策函数。例如,决策函数是输入变量的线性函数,那么模型的假设空间就是所有这些线性函数构成的函数集合,假设空间的模型一般有无穷多个。
    模型选择的准则:一个评估方法从模型的假设空间中选择最优模型。引入损失函数来度量模型一次预测错误的程度,损失函数是f(X)和Y的非负实值函数,记作L(Y,f(X))。常见的损失函数有:
    (1)0-1损失函数:
                              

(2)平方损失函数:

(3)绝对损失函数:

(4)对数损失函数或对数似然损失函数

对于整体训练样本的损失计算,有两个基本策略:经验风险最小化与结构风险最小化。

经验风险最小化:

当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计。

当样本数量足够大时,经验风险最小化能保证有很好的效果。当样本数量小时,经验风险最小化学习的效果未必很好,就产生过拟合现象。

结构风险最小化是为防止过拟合,在经验风险最小化的基础上,添加模型复杂度的正则化或罚项,公式为:

其中J(f)表示模型的复杂度,模型f越复杂,复杂度J(f)越大,反之J(f)越小。是系数,权衡经验风险和模型复杂度。

结构风险小需要经验风险与模型复杂度同时小,结构风险小的模型往往对训练数据以及未知的测试数据都有较好的预测。

当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率估计。

算法:用什么样的计算方法求解最优模型,比如:BGD,SGD,adam等

2.训练误差和测试误差

      训练误差的大小,衡量模型对训练样本的学习能力。

测试误差的大小,反映模型对未知数据的预测能力,也称泛化能力。

3.准确率、精确率和召回率

准确率:模型预测正确的样本数与总样本之比。

根据模型预测的数据,计算出混淆矩阵

TP:将正类预测为正类数

FN:将正类预测为负类数

FP:将负类预测为正类数

TN:将负类预测为负类数

精确率:是针对我们预测结果而言,表示预测为正的样本中有多少是真正的正样本。那么预测为正就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP),即:

召回率:是针对我们原来的样本而言,表示的是样本中的正例有多少被预测正确。那么也有两种可能,一种是把原来的正类预测为正类(TP),另一种就是把原来的正类预测为负类(FN),即:

F1值是精确率和召回率的调和均值,即:

统计学习方法(—)——统计学习方法概念相关推荐

  1. 统计学习-机器学习方法概论

    统计学习-机器学习方法概论 机器学习的对象是:具有一定的统计规律的数据. 机器学习根据任务类型,可以划分为: 监督学习任务:从已标记的训练数据来训练模型. 主要分为:分类任务.回归任务.序列标注任务. ...

  2. 统计学习方法- 统计学习方法概论

    1.统计学习 统计学习是关于计算机数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,统计学习又称为统计机器学习. 它的主要特点包括: 统计学习是以计算机和网络为平台,是建立在计算机和网络之 ...

  3. 贝叶斯统计 传统统计_统计贝叶斯如何补充常客

    贝叶斯统计 传统统计 For many years, academics have been using so-called frequentist statistics to evaluate wh ...

  4. 数字统计之统计页码数字出现的次数

    给定一个十进制整数N,求出从1到N的所有整数中出现"1"的个数. 例如:N=2,1,2出现了1个"1". N=12,1,2,3,4,5,6,7,8,9,10,1 ...

  5. 1093. 大样本统计-正常统计

    1093. 大样本统计-正常统计 我们对 0 到 255 之间的整数进行采样,并将结果存储在数组 count 中:count[k] 就是整数 k 在样本中出现的次数. 计算以下统计数据: minimu ...

  6. WordPress正确使用51la统计来统计网站访问数据[WP教程]

    文章前言/文章引入 今天给大家分享一个很简单使用的统计网站数据的网站,不需要添加任何代码只需要我们下载[51la统计插件]就可以实现实时统计网站访问数据蜘蛛数据等等,废话也是不多说了直接写教程吧,希望 ...

  7. mysql四表统计数量:统计中国各个省份安装企业站点数量

    [求助]四表统计数量:统计中国各个省份安装企业站点数量 需要实现的效果 表结构 怎么才能得到????如下 正解 需要实现的效果 表结构 # 地区表 CREATE TABLE `sys_region` ...

  8. 软件项目管理系统-项目管理-模块统计-工作量统计

    软件项目管理系统-项目管理-模块统计-工作量统计

  9. 软件项目管理系统-项目管理-模块统计-进度统计

    软件项目管理系统-项目管理-模块统计-进度统计

  10. 【电脑运用及修理】浏览器统计操作系统统计屏幕分辨率统计移动设备统计

    目录 浏览器统计 操作系统(OS)平台 统计 屏幕分辨率 统计 移动设备 统计 浏览器统计 浏览器的使用情况如何? 浏览器统计及发展趋势 统计数据是非常重要的信息. 从下面的统计(根据菜鸟教程 CNZ ...

最新文章

  1. 035-pgrep命令
  2. 打开一个解决方案时弹出“项目所需的应用程序未安装,确保已安装项目类型(.csproj)的应用程序”问题的解决方案
  3. 若依前后端分离版手把手教你本地搭建环境并运行项目
  4. AspNetCore微服务下的网关-Kong(一)
  5. 【Hitachi2020C】ThREE【构造】【二分图染色】
  6. 软考下午题具体解释---数据流图设计
  7. 基于QEMU的ARM Cortex-A9开发板Vexpress-ca9的Linux内核的编译和运行
  8. 公网连接阿里云Redis
  9. 基于javaweb的物资配送管理系统_基于JAVA的物流配送管理系统毕业设计书
  10. 用户故事Invest原则、敏捷与完整的需求
  11. 联想MIIX520安装黑苹果参考教程
  12. 修改Postman安装路径
  13. 神器 mimikatz - 直接抓取 Windows 明文密码
  14. 柴静:我只是讨厌屈服
  15. Linux——RAID磁盘阵列及配置
  16. 计算机usb显示不出来怎么办,U盘在电脑上显示不出来怎么办
  17. 车辆调度管理系统-设计分享
  18. 比较全的Struts介绍04
  19. 【DC系列】DC-4靶机渗透练习
  20. 分享6款好用并免费的远程管理工具

热门文章

  1. Oracle表空间基础(4)
  2. hdu1161 欧拉路
  3. 根据屏幕大小制定显示页面
  4. Maigo的KM算法讲解
  5. 研磨设计模式之 工厂方法模式-3
  6. 浅谈接口对前后端测试的意义
  7. 软件测试用例设计方法-判定表法
  8. Code Review
  9. 暗棋单机版_中国暗棋游戏下载-中国暗棋下载v1.0.0 安卓版-单机手游网
  10. markdown 目录缩进_页面排版很难吗?一起来学Markdown吧!01基础语法