1.1 统计学习

概念

统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测和分析的一门学科,统计学习也成为统计机器学习(statistical machine learning).

特点

  1. 统计学习将数据作为研究对象,是数据驱动的学科
  2. 统计学习的目的是对数据进行预测和分析
  3. 统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析.包括监督学习,非监督学习,半监督学习,强化学习等.

1.2 监督学习

概念

从给定的, 有限的, 用于学习的训练数据集合出发, 假设数据是独立同分布产生的; 并且假设要学习的模型属于某个函数的集合, 称为假设空间; 应用某个评价准则, 从假设空间中选取一个最优的模型, 使它对已知训练数据及未知测试数据在给定的评价准则下有最优的预测;最优模型的选取由算法实现.

形式化图形

1.3 统计学习三要素

方法 = 模型 + 策略 + 算法

1.4 模型评估与模型选择

训练误差

训练误差是模型关于训练数据集的平均损失

测试误差

测试误差是测试数据集的平均损失

泛化能力

通常将学习方法对未知数据的预测能力成为泛化能力

过拟合

如果一味追求提高训练数据的预测能力,所选的模型复杂度往往会比真模型更高

训练误差和测试误差与模型复杂度的关系

1.5 正则化与交叉验证

正则化

正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或罚项.

交叉验证

将给定的数据进行切分, 将切分的数据集组合为训练集和测试集, 在此基础上反复地进行训练, 测试以及模型选择.

1.6 泛化能力

概念

学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力

1.7 生成模型与判别模型

监督学习方法可以分为

  1. 生成方法 generative approach.学习联合概率分布, 求出条件概率分布, 作为预测的模型. 包括朴素贝叶斯法和隐马尔科夫模型
  2. 判别方法 discriminative approach.直接学习条件概率分布. 包括k近邻法, 感知机, 决策树, 逻辑斯蒂回归模型, 最大熵模型, 支持向量机, 提升方法和条件随机场等

比较

1 生成方法可以还原出联合概率分布, 判别方法则不能; 生成方法的学习收敛速度更快; 当存在隐变量时, 仍可以使用生成方法, 判别方法不能继续使用.
2 判别方法直接学习条件概率分布, 学习的准确率更高; 可以对数据进行各种程度上的抽象, 定义特征并使用特征, 可以简化学习问题

1.8 分类问题

概念

监督学习从数据中学习一个分类模型或分类决策函数, 称为分类(classifier), 分类器对新的输入进行输出的预测(prediction), 称为分类(classification).

分类评测指标

混淆矩阵(confusion matrix)

TP 将正类预测为正类数目
FN 将正类预测为负类数目
FP 将负类预测为正类数目
TN 将负类预测为负类数目

不同的度量值

Precision = TP /(TP + FP) 准确率
正样本预测结果数 / 被预测为正的总数

Recall = TP /(TP + FN) 召回率
正样本预测结果数 / 正样本实际数

FPR = FP /(FP + TN)
被预测为正的负样本结果数 /负样本实际数

FNR = FN /(TP + FN)
被预测为负的正样本结果数 / 正样本实际数

1.9 标注问题

标注问题的输入是一个观察序列, 输出是一个标记序列或状态序列.

1.10 回归问题

回归用于预测输入变量和输出变量之间的关系, 特别是当输入变量的值发生变化时, 输出变量随之发生的变化.

1 统计学习方法基础相关推荐

  1. 统计学习方法基础总结

    统计学习 统计学习:也称统计机器学习,是计算机基于数据构建概率统计模型,并用模型进行预测与分析的一门学科. 数据是统计学习的对象.统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习 ...

  2. 《机器学习与数据科学(基于R的统计学习方法)》——2.11 R中的SQL等价表述...

    本节书摘来异步社区<机器学习与数据科学(基于R的统计学习方法)>一书中的第2章,第2.11节,作者:[美]Daniel D. Gutierrez(古铁雷斯),更多章节内容可以访问云栖社区& ...

  3. 4000字超干货!《统计学习方法》啃书指南(1)

    事半功倍的啃书姿势内容分以下六个部分: 一.我的学习历程(不喜欢听啰嗦的可以从第二部分开始) 二.学习<统计学习方法>遇到的困难 三. 在学习过程中碰过的壁 四.最后解决问题的方法 五.学 ...

  4. 重磅开源!所有的李航老师《统计学习方法》算法代码实现!!!

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 超有料的仓库项目资源---<统计学习方法>代码 李航老师的<统计 ...

  5. 李航-统计学习方法-笔记-1:概论

    写在前面 本系列笔记主要记录<统计学习方法>中7种常用的机器学习分类算法,包括感知机,KNN,朴素贝叶斯,决策树,逻辑斯谛回归与最大熵模型,SVM,boosting. 课本还涉及到3种算法 ...

  6. 文本分类入门(三)统计学习方法

    文本分类入门(三)统计学习方法 前文说到使用统计学习方法进行文本分类就是让计算机自己来观察由人提供的训练文档集,自己总结出用于判别文档类别的规则和依据.理想的结果当然是让计算机在理解文章内容的基础上进 ...

  7. 手机上的机器学习资源!Github标星过万的吴恩达机器学习、深度学习课程笔记,《统计学习方法》代码实现!...

    吴恩达机器学习.深度学习,李航老师<统计学习方法>.CS229数学基础等,可以说是机器学习入门的宝典.本文推荐一个网站"机器学习初学者",把以上资源的笔记.代码实现做成 ...

  8. 机器学习初学者手抄本:数学基础、机器学习经典算法、统计学习方法等

    机器学习怎么学?当然是系统地学习了.没有时间这么办呢?利用碎片时间学习!很多人一天要花 2 个小时通勤,通勤路上有很多时间看手机.于是我把一些机器学习的基础知识做成了在线的机器学习手册,只需打开微信收 ...

  9. 复现经典:《统计学习方法》第21章 PageRank算法

    第21章 PageRank算法 本文是李航老师的<统计学习方法>一书的代码复现.作者:黄海广 备注:代码都可以在github中下载.我将陆续将代码发布在公众号"机器学习初学者&q ...

  10. 数学基础、机器学习经典算法、统计学习方法,这份机器学习在线手册来帮你...

    机器学习怎么学?当然是系统地学习了.没有时间这么办呢?利用碎片时间学习!很多人一天要花 2 个小时通勤,通勤路上有很多时间看手机.于是我把一些机器学习的基础知识做成了在线的机器学习手册,只需打开微信收 ...

最新文章

  1. typedef interrupt void (*PINT)(void)的分析
  2. 阿里云LinkIOTEdge物理边缘计算流程
  3. Spring 的优秀工具类盘点
  4. [视频教程]ASP.net入门课程
  5. Vue 打包静态文件路径设置
  6. 网络热门知识点,Linux内核——网络协议栈基本知识
  7. 关于区块链的一些特有技术
  8. 读研规划,准研究生们看看哦!!!!!!!!!!!!!
  9. excel制作折线图
  10. 光学基本知识--概念辨析
  11. 王慧文清华产品课(六)
  12. 计算机技术和教育,计算机技术和现代数学教育
  13. 理解softmax函数
  14. LTP(Linux Test Project)学习(二)——LTP下载编译执行
  15. java类名不能以数字开头_java变量为什么不能以数字开头
  16. ps-黑白老照片快速上色
  17. AUTOCAD——命令重复、撤销与重做
  18. ORACLE drop user时遇到的ORA-00604和ORA-00942错误排查
  19. 影视后期制作画面、声音、效果如何平衡?
  20. bottom sheets_使用Sheetson建立由Google Sheets支持的免费电子邮件列表

热门文章

  1. DevExpress中使用ChartControl绘制折线图和导出图表为Excel文件
  2. python模板匹配_python实现模板匹配
  3. php函数find的用法,fleaphp fleaphp crud操作之find函数的使用方法
  4. Delphi7调用百度API
  5. 下载各种百度文库以及豆丁网文章的简便方法
  6. 【读书笔记-数据挖掘概念与技术】数据预处理
  7. QQ安装目录下各文件用途不完全揭密(转)
  8. CSND默认markdown样式
  9. window sserver 2008 r2安装教程
  10. N8变砖后的强刷方法