目前在看统计学习导论:基于R应用,觉得这本书非常适合入门,打算把课后习题全部做一遍,记录在此博客中。

第二章习题

1.

(a) 当样本量n非常大,预测变量数p很小时,这样容易欠拟合,所以一个光滑度更高的学习模型更好。

(b) 当样本量n非常小,预测变量数p很大时,这样容易过拟合,所以一个光滑度更小的学习模型更好。

(c) 当预测变量与响应变量之间的关系是非线性时,说明光滑度小的模型会容易欠拟合,所以光滑度高的模型更适合。

(d) 在这里,方差是指用一个不同的训练数据集估计f时,估计函数的改变量。一般来说,光滑度越高的统计模型有更高的方差,所以这里选择一个光滑度小的模型。

2.

这个题目首先给人的感觉是开放性的,看你通过下面信息能够推断或者预测什么结果。

在这里,预测是指输入X得到Y,而推断是指理解Y作为X1,X2...Xp的函数是怎么变化。回归和分类的定义就不多说了。

(a)给人的直观感觉是回归问题。预测问题在这里似乎没有什么意义,反而是可以考虑推断。比如,可以推断员工人数,产业类型以及CEO工资来和利润的关系。

(b)这里明显是有成功和失败两种状态,所以是分类问题,而且是预测新产品。

(c)这里也是回归和预测问题。比较直白。

3.

(a) 图书里有,关键是理解偏差和方差的区别吧。

(b) 把图画出来了就差不多理解啦。

4.

又是找例子题,醉了~

5.

这个题的知识点和第一题类似。

(a)一个光滑度高的回归模型或者分类模型,能够更好的拟合非线性模型,偏差更小。但是模型越光滑,所需要计算的参数就越多,而且容易过拟合,方差更大。当我们更想预测,而不是推断的时候,我们优先考虑光滑度高的模型。

(b)一个光滑度低的回归模型或者分类模型,上述相反~

6.

中文版15,16也原话。

(a)参数方法是一种基于模型估计的两阶段方法。优点是,它把估计f的问题简化到估计一组参数,对f假设一个具体的参数形式将简化对f的估计,因为估计参数是更为容易的,不需要拟合任意一个函数f。缺点是,选定的模型并非与实际的f形式上一致,而且还有过拟合的可能情况。

(b)非参数方法不需要对函数f的形式实现做明确说明的假设。相反,这类方法追求的接近数据点的估计,估计函数在去粗和光滑处理后尽量可能与更多的数据点接近。优点是,不限定函数f的具体形式,可以更大的范围选择更适宜的f形状的估计。缺点是,无法将估计f的问题简单到对少数参数进行估计的问题,所以往往需要大量的观察点。

7.
(a)欧几里德距离:|x| = sqrt( x[1]^2 + x[2]^2 + … + x[n]^2 )

所以计算结果是:1.3、2.2、3.sqrt(10)、4.sqrt(5)、5.sqrt(2)、6.sqrt(3)

(b) Green。最近的点obs.5是绿色。

(c) Red.

(d) 小。书29页的图可以知道,1/K越大,光滑度越高,也就越非线性。所以K应该小。

8.

题目略简单。提示很多。

(a)
college = read.csv("College.csv")
(b)
fix(college)
rownames(college) = college[,1]
college = college[,-1]
fix(college)
(c)
i.summary(college)
ii.pairs(college[,1:10])
iii.plot(college$Private, college$Outstate)
iv.
Elite = rep("No", nrow(college))
Elite[college$Top10perc>50] = "Yes"
Elite = as.factor(Elite)
college = data.frame(college, Elite)
summary(college$Elite)
plot(college$Elite, college$Outstate)
v.
par(mfrow=c(2,2))
hist(college$Apps)
hist(college$perc.alumni, col=2)
hist(college$S.F.Ratio, col=3, breaks=10)
hist(college$Expend, breaks=100)
vi.自由发挥

9.

这个题中文版的(d)翻译错了,我们按照原书来

Auto = read.table("Auto.data.txt", header = T ,na.strings="?")
Auto = na.omit(Auto)
dim(Auto)
summary(Auto)
(a)
quantitative: mpg, cylinders, displacement, horsepower, weight, acceleration, year
qualitative: name, origin
(b)
sapply(Auto[, 1:7], range)
(c)
sapply(Auto[, 1:7], mean)
sapply(Auto[, 1:7], sd)
(d)
newAuto = Auto[-(10:85),]
sapply(newAuto[, 1:7], range)
sapply(newAuto[, 1:7], mean)
sapply(newAuto[, 1:7], sd)
(e)
自己感兴趣哪个就plot哪个吧
(f)
pairs(Auto)
看结果感觉horsepower和weight可以作为变量来做预测

10.

(a)
library(MASS)
?Boston
dim(Boston)
(b)
pairs(Boston)
(c)
从pairs(Boston)的结果来看,感觉crim和age, dis, rad, tax, ptratio有较大的相关性
plot(Boston$age, Boston$crim)
plot(Boston$dis, Boston$crim)
plot(Boston$rad, Boston$crim)
plot(Boston$tax, Boston$crim)
plot(Boston$ptratio, Boston$crim)
(d)
par(mfrow=c(1,3))
hist(Boston$crim[Boston$crim>1], breaks=25)
hist(Boston$tax, breaks=25)
hist(Boston$ptratio, breaks=25)
(e)
dim(subset(Boston, chas == 1))
(f)
median(Boston$ptratio)
(g)
t(subset(Boston, medv == min(Boston$medv)))
summary(Boston)
(h)
dim(subset(Boston, rm > 7))
dim(subset(Boston, rm > 8))
summary(subset(Boston, rm > 8))
summary(Boston)

转载于:https://www.cnblogs.com/-Sai-/p/5202236.html

统计学习导论:基于R应用——第二章习题相关推荐

  1. 《统计学习导论-基于R应用》第二章:统计学习(代码)

    A = matrix(seq(1,16),4,4) A 1 5 9 13 2 6 10 14 3 7 11 15 4 8 12 16 A[1,] 1 5 9 13 A[-c(1,3),] 2 6 10 ...

  2. 最优化理论c语言代码,《统计学习导论基于R应用》PDF代码导图+《最优化理论与算法第2版》PDF习题指导...

    要想深入理解机器学习,或者对人工智能的某个领域有所研究,都必须掌握统计学.最优化.矩阵及其应用等知识. 推荐<统计学习导论:基于R应用>,适合运用统计学习前沿技术分析数据的人士.读起来不费 ...

  3. 统计学习导论 - 基于R的应用 学习笔记1

    统计学习导论 - 基于R的应用 学习笔记 Chapter 1 导论 统计学习是什么: 关于估计ƒ的一系列方法 Y=f(x)+ξ f:X 提供给 Y 的系统信息,是 x 的函数 ξ:随机误差项:均值为0 ...

  4. 【医学信息学】《统计学习导论-基于r应用》的学习总结

    以下仅为笔者在学习<统计学习导论-基于r应用>过程中的理解总结,如有错误,敬请指正 统计学习导论概述 什么是统计学习? 对一系列观测值(自变量/预测变量/X,因变量/响应变量/Y)之间的关 ...

  5. 《统计学习导论-基于R应用》

    机器学习更底层的东西在<统计学习理论的本质>里, <统计学习理论的本质>更现代化.更通俗的理解在这里 <统计学习导论-基于R应用> Gareth James Dan ...

  6. mysql 三阶多项式拟合,《统计学习导论-基于R应用》第三章:线性回归(代码)...

    库library 库:一组不含在基础R配置内的函数和数据集 library(MASS) # 加载库 library(ISLR)# 安装库 install.packages("ISLR&quo ...

  7. 金融数据分析导论基于R语言 第二章 金融时间序列的线性模型课后习题答案

    1.考虑从1948年1月到2011年11月美国失业率的月数据(见文件m-unrate-4811.txt),数据来目美国圣路易斯的联邦储备银行. (a)该除非特别声明,在以下习题中都用5%的显著性水平来 ...

  8. 统计学习导论-基于R应用学习笔记

    目录 误差 假设检验 F-检验 分类classification 线性判别分析(LDA) Threshold 分类阀值 resampling 重采样 留一法交叉验证(LOOCV) The Bootst ...

  9. 统计学习导论 基于R应用——作业 3

    7. 解: (a)欧几里德距离: |x| = sqrt( x[1]^2 + x[2]^2 + - + x[n]^2 ) 所以计算结果是: 1.3. 2.2. 3.sqrt(10). 4.sqrt(5) ...

最新文章

  1. redistemplate.opsforhash设置过期时间_Redis详解(十一)------ 过期删除策略和内存淘汰策略...
  2. ThinkPHP框架学习之使用数组进行查询
  3. 为什么css一开始需要设定margin和padding为 0px?
  4. python爬虫实例-python爬虫实例大全
  5. boot.img详解
  6. 简单实用的PS亮度蒙版工具:Lumenzia Mac版
  7. oracle中的fetchsize,oracle setFetchsize() 优化查询速度
  8. python自动华 (十二)
  9. **关于小程序测试版本自己的头像与数据不显示问题**
  10. java调用webservice接口 几种方法
  11. php mp4 ckplayer,织梦dedecms整合添加ckplayer播放器支持flv,mp4等播放功能
  12. mac 微信不能设置代理服务器,mac微信能用但是浏览器上不了网
  13. 关于手机上的卫星定位
  14. flutter 带未读消息的底部导航
  15. 【毕设记录】第一篇:开题,整体App计划
  16. 服务器系统的功能,操作系统服务器主要功能
  17. 商用车SCR系统行业调研报告 - 市场现状分析与发展前景预测
  18. Open Images Dataset V5 - Data Formats - Class Names
  19. 新能源汽车行业资讯-2022-9-11
  20. (数据结构)图——图、顶点、无向边、无向图、有向边、有向图、简单图、无向完全图、有向完全图、稀疏图、稠密图、权、网、子图的相关概念

热门文章

  1. C++语言程序设计视频教程_清华大学_郑莉(基础篇+进阶篇)
  2. 深度学习系列之CNN核心内容
  3. 为什么 Python被Google选为TensorFlow的开发语言呢?使用 Python比C++语言进行机器学习有什么优势?
  4. mysql php commit_php mysqli_autocommit()使用实例
  5. 008_表内容的插入删除修改
  6. 016_泛型常见通配符
  7. 008_logback配置语法
  8. openstack管理员手册下载_城市绿心森林公园app下载-城市绿心森林公园客户端下载v1.1 安卓版...
  9. java的23设计模式
  10. Android序列化与反序列化