欢迎访问个人主页,目前访问量太低,百度搜不到的说。。。谢谢鼓励

读书笔记,并不打算翻译全文,打算将书中重要的知识点结合自己的理解将其分享,并在最后附上R语言相关函数应用,作为自己最近一段时间在机器学习方面学习总结。如果理解不正确,望指正。

前言

ISLR,全称为An Introduction to Statistical Learning with Applications in R,算是the Elements of Statistical Learning的基础版,里面公式推导并不多,主要是讲解统计学习中的一些常用方法,以及相关方法在R语言上的应用。ISLR官方并没用出习题的答案,不过已经有人做了一份,可以学习参考ISLR答案

第二章理解

第二章主要是简单的介绍了书的背景,主要强调在统计学习中并没有免费的午餐,没有一种方法适用于所有的问题,所以才要学习各种统计学习方法,目的针对实际问题找到适合的统计学习方法。

准确性与解释性

在统计学习中,我们的目的有的时候是为了观察某一变量的影响,这时候我们更需要方法的解释性,例如:利用线性模型,虽然一般不能准确目标数值,但很容易得知是正相关还是负相关。而预测股票变化趋势等问题,我们并不想知道市场各种因素对于股市是如何影响的,我们就像知道是涨还是跌,这时候更需要方法的准确性。

这是书中的一张图,通常来讲,随着方法自由度的增加,可解释性逐渐降低。

方差与偏差

E(y0−f̂ (x0))2=Var(f̂ (x0))+[Bias(f̂ (x0))]2+Var(ϵ)

E(y_0 - \hat{f}(x_0))^2 = Var(\hat{f}(x_0))+[Bias(\hat{f}(x_0))]^2+Var(\epsilon)

这个公式是这一章节最重要的公式了。公式求出了测试集的均方误差(MSE),MSE也是评判方法好坏的标准之一,MSE越小,方法越准确。
公式中第一项是预测的方差,表示了如果我们更换一个训练集,预测函数f(x)的变化程度,一般来说,自由度越高的方法具有越大的方差;第二项是预测的偏差,一般来讲,自由度越高的方法具有越小的偏差;最后一项是不可消除偏差。

红色的曲线代表了MSE,橘黄色曲线代表方差,蓝色的曲线代表偏差,水平虚线代表了不可消除偏差,竖直虚线代表了模型实际的自由度。
上面是回归问题的总结,分类问题与他相似,就不重复整理了。

R语言应用

我的版本为ubuntu15.10+ R version 3.3.0 + RStudio
首先设置工作路径

> getwd()  #查询工作路径
[1] "/home/bit_hammer"
> setwd("/home/bit_hammer/Desktop/ISLR") #设置工作路径

读取数据,这个数据在网站上可以下载

> Auto = read.table("Auto.data", header=T, na.string="?")

header = T 表示读入表头
na.string="?" 表示空数据用?表示

> fix(Auto) #显示Auto
> dim(Auto) #Auto维度
[1] 397   9
> Auto[1:4,] #显示Auto前四行,注意R语言遍历从1开始mpg cylinders displacement horsepower weight acceleration year origin                      name
1  18         8          307        130   3504         12.0   70      1 chevrolet chevelle malibu
2  15         8          350        165   3693         11.5   70      1         buick skylark 320
3  18         8          318        150   3436         11.0   70      1        plymouth satellite
4  16         8          304        150   3433         12.0   70      1             amc rebel sst
> Auto = na.omit(Auto) # 忽略空数据所在行
> dim(Auto)
[1] 392   9

plot()函数可以绘制散点图和箱线图
identify()函数可以标记散点图中的点信息
plot(displacement, mpg, col = "green", xlab = "displacement", ylab = "mpg")

hist()函数可以绘制直方图
hist(mpg, col =2, breaks = 15)

pairs()函数可以绘制散点图矩阵
pairs(~ mpg + displacement + horsepower + weight + acceleration)

ISLR读书笔记(1)统计学习简介相关推荐

  1. 【读书笔记】——【学习之道】《如何学习:用更短的时间达到更加效果和更好成绩》

    本文是整理自美国教育家亚当·罗宾逊所写的<如何学习:用更短的时间达到更加效果和更好成绩>一书所做的读书笔记.文中提到的赛博学习法受益匪浅,在此分享给大家,希望大家学有所得,学有所乐,学有所 ...

  2. 读书笔记:深度学习中的正则化

    声明:读书笔记,未完成梳理,不值得参考. 阅读书籍:<深度学习>花书,第7章 正则化:对学习算法的修改--旨在减小泛化误差而不是训练误差. 个人描述:正则化项的目的是为了提升模型的泛化能力 ...

  3. 《联邦学习实战》杨强 读书笔记十七——联邦学习加速方法

    目录 同步参数更新的加速方法 增加通信间隔 减少传输内容 非对称的推送和获取 计算和传输重叠 异步参数更新的加速方法 基于模型集成的加速方法 One-Shot联邦学习 基于有监督的集成学习方法 基于半 ...

  4. 《联邦学习实战》杨强 读书笔记十一——联邦学习在智能物联网中的应用案例

    目录 案例的背景与动机 历史数据分析 出行时间预测模型 问题定义 构造训练数据集 模型结构 联邦学习在智慧城市建设中的一个应用,即用户的出行预测,帮助用户更好地规划出行安排. 人工智能物联网(以下简称 ...

  5. ISLR 读书笔记二:评估模型的准确性

    评估模型的准确性 MSE 偏差 VS 方差 分类问题 贝叶斯分类器 KNN 统计学习中,有一条天下没有免费的午餐定理:没有哪一个方法可以对任何数据集,都胜过其他任何方法.所以,在具体实践中,选择最好的 ...

  6. 读书笔记:深度学习进阶-自然语言处理(俗称鱼书二)

    文章目录 前言 一.神经网络的复习 二.自然语言和单词的分布式表示 2.1什么是自然语言处理 2.2同义词词典 2.3基于计数的方法 2.3.1基于python的语料库的预处理 2.3.2单词的分布式 ...

  7. [机器学习笔记] Note1--机器学习简介

    阅读本文大约需要 2 分钟 本文结构: 什么是机器学习 监督学习(Supervised Learning) 非监督学习(Unsupervised Learning) 课程小结 这是学习 Andrew ...

  8. 读书笔记 如何高效学习

    分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow 也欢迎大家转载本篇文章.分享知识,造福人民,实现我们中华民族伟大复兴! 学习是需 ...

  9. 【读书笔记】好好学习-个人知识管理精进指南

    文章目录 引言 什么是知识 第一章 知识管理与认知优势 在海量信息即时获取时代,我们拼什么? 如何提升认知深度? 为什么大多数人的学习层次上不去? 到底哪些知识值得学? 第二章 掌握临界知识的底层思维 ...

最新文章

  1. flash特效原理:螺旋效果 (3)
  2. 一次 Druid 连接池泄露引发的血案!
  3. CentOS下Hive2.0.0集群模式安装详解
  4. 【P1835】小红花
  5. UI控件Telerik UI for WinForms发布R1 2019|附下载
  6. 大数据集群被窃取数据怎么办?透明加密可以一试
  7. less中mixins与extend的区别
  8. 层次聚类 簇数_聚类(一):K-means、层次、DBSCAN、均值漂移、K-Means 与 KNN
  9. 1. 走进Java语言 —— Java SE
  10. 超微主板升级bios_超微主板bios升级大盘点
  11. 交换机和路由器技术-24-OSPF单区域配置
  12. 宝峰uv5r怎么设置信道_宝峰5R说明书 及设置方法
  13. ssis sql oracle,[SQL][SSIS]透過 SSIS 連接 Oracle 的資料庫
  14. My Forty-eighth Page - 组合 - By Nicolas
  15. Windows Live Writer插件开发
  16. o.redisson.client.handler.CommandsQueue : Exception occured.
  17. 连个字体反爬都搞不定?你还说你会爬虫?看完这篇就会了。
  18. Outlook打不开附件
  19. mybatis一个怪异的问题: Invalid bound statement not found 作者及来源: babyblue - 博客园 收藏到→_→: 摘要: mybatis一个怪异
  20. 邻接表生成模型头文件C语言

热门文章

  1. PHP:【商城后台管理系统】admin超级管理员后台操作界面部署{无限级菜单}
  2. Avalonia学习实践(二)--跨平台支持及发布
  3. jQuery 参考手册 - 核心
  4. javascript百炼成仙 第一章 掌握JavaScript基础1.3变量的声明
  5. 大数据早报:百度开源移动端深度学习框架 中国联通成立大数据公司(9.26)
  6. php 获取到当前ip,获取当前IP地址,跳转到对应城市网站。
  7. 台式计算机c盘怎么清理空间,电脑C盘空间空间清理方法
  8. 学生学号判断专业班级
  9. 12864多级菜单实现方法
  10. 新能源汽车Tesla的命名