统计学习导论：基于R应用—

目前在看统计学习导论：基于R应用，觉得这本书非常适合入门，打算把课后习题全部做一遍，记录在此博客中。

第二章习题

(a) 当样本量n非常大，预测变量数p很小时，这样容易欠拟合，所以一个光滑度更高的学习模型更好。

(b) 当样本量n非常小，预测变量数p很大时，这样容易过拟合，所以一个光滑度更小的学习模型更好。

(d) 在这里，方差是指用一个不同的训练数据集估计f时，估计函数的改变量。一般来说，光滑度越高的统计模型有更高的方差，所以这里选择一个光滑度小的模型。

这个题目首先给人的感觉是开放性的，看你通过下面信息能够推断或者预测什么结果。

在这里，预测是指输入X得到Y，而推断是指理解Y作为X1,X2...Xp的函数是怎么变化。回归和分类的定义就不多说了。

(a)给人的直观感觉是回归问题。预测问题在这里似乎没有什么意义，反而是可以考虑推断。比如，可以推断员工人数，产业类型以及CEO工资来和利润的关系。

(b)这里明显是有成功和失败两种状态，所以是分类问题，而且是预测新产品。

(c)这里也是回归和预测问题。比较直白。

(a) 图书里有，关键是理解偏差和方差的区别吧。

(b) 把图画出来了就差不多理解啦。

又是找例子题，醉了~

这个题的知识点和第一题类似。

(a)一个光滑度高的回归模型或者分类模型，能够更好的拟合非线性模型，偏差更小。但是模型越光滑，所需要计算的参数就越多，而且容易过拟合，方差更大。当我们更想预测，而不是推断的时候，我们优先考虑光滑度高的模型。

(b)一个光滑度低的回归模型或者分类模型，上述相反~

中文版15，16也原话。

(a)参数方法是一种基于模型估计的两阶段方法。优点是，它把估计f的问题简化到估计一组参数，对f假设一个具体的参数形式将简化对f的估计，因为估计参数是更为容易的，不需要拟合任意一个函数f。缺点是，选定的模型并非与实际的f形式上一致，而且还有过拟合的可能情况。

(b)非参数方法不需要对函数f的形式实现做明确说明的假设。相反，这类方法追求的接近数据点的估计，估计函数在去粗和光滑处理后尽量可能与更多的数据点接近。优点是，不限定函数f的具体形式，可以更大的范围选择更适宜的f形状的估计。缺点是，无法将估计f的问题简单到对少数参数进行估计的问题，所以往往需要大量的观察点。

7.
(a)欧几里德距离：|x| = sqrt( x[1]^2 + x[2]^2 + … + x[n]^2 )

所以计算结果是：1.3、2.2、3.sqrt(10)、4.sqrt(5)、5.sqrt(2)、6.sqrt(3)

(b) Green。最近的点obs.5是绿色。

(d) 小。书29页的图可以知道，1/K越大，光滑度越高，也就越非线性。所以K应该小。

题目略简单。提示很多。

(a)
college = read.csv("College.csv")
(b)
fix(college)
rownames(college) = college[,1]
college = college[,-1]
fix(college)
(c)
i.summary(college)
ii.pairs(college[,1:10])
iii.plot(college$Private, college$Outstate)
iv.
Elite = rep("No", nrow(college))
Elite[college$Top10perc>50] = "Yes"
Elite = as.factor(Elite)
college = data.frame(college, Elite)
summary(college$Elite)
plot(college$Elite, college$Outstate)
v.
par(mfrow=c(2,2))
hist(college$Apps)
hist(college$perc.alumni, col=2)
hist(college$S.F.Ratio, col=3, breaks=10)
hist(college$Expend, breaks=100)
vi.自由发挥

这个题中文版的(d)翻译错了，我们按照原书来

Auto = read.table("Auto.data.txt", header = T ,na.strings="?")
Auto = na.omit(Auto)
dim(Auto)
summary(Auto)
(a)
quantitative: mpg, cylinders, displacement, horsepower, weight, acceleration, year
qualitative: name, origin
(b)
sapply(Auto[, 1:7], range)
(c)
sapply(Auto[, 1:7], mean)
sapply(Auto[, 1:7], sd)
(d)
newAuto = Auto[-(10:85),]
sapply(newAuto[, 1:7], range)
sapply(newAuto[, 1:7], mean)
sapply(newAuto[, 1:7], sd)
(e)
自己感兴趣哪个就plot哪个吧
(f)
pairs(Auto)
看结果感觉horsepower和weight可以作为变量来做预测

10.

(a)
library(MASS)
?Boston
dim(Boston)
(b)
pairs(Boston)
(c)
从pairs(Boston)的结果来看，感觉crim和age, dis, rad, tax, ptratio有较大的相关性
plot(Boston$age, Boston$crim)
plot(Boston$dis, Boston$crim)
plot(Boston$rad, Boston$crim)
plot(Boston$tax, Boston$crim)
plot(Boston$ptratio, Boston$crim)
(d)
par(mfrow=c(1,3))
hist(Boston$crim[Boston$crim>1], breaks=25)
hist(Boston$tax, breaks=25)
hist(Boston$ptratio, breaks=25)
(e)
dim(subset(Boston, chas == 1))
(f)
median(Boston$ptratio)
(g)
t(subset(Boston, medv == min(Boston$medv)))
summary(Boston)
(h)
dim(subset(Boston, rm > 7))
dim(subset(Boston, rm > 8))
summary(subset(Boston, rm > 8))
summary(Boston)

转载于:https://www.cnblogs.com/-Sai-/p/5202236.html

统计学习导论：基于R应用——第二章习题相关推荐

《统计学习导论-基于R应用》第二章：统计学习（代码）
A = matrix(seq(1,16),4,4) A 1 5 9 13 2 6 10 14 3 7 11 15 4 8 12 16 A[1,] 1 5 9 13 A[-c(1,3),] 2 6 10 ...
最优化理论c语言代码,《统计学习导论基于R应用》PDF代码导图+《最优化理论与算法第2版》PDF习题指导...
要想深入理解机器学习,或者对人工智能的某个领域有所研究,都必须掌握统计学.最优化.矩阵及其应用等知识. 推荐<统计学习导论:基于R应用>,适合运用统计学习前沿技术分析数据的人士.读起来不费 ...
统计学习导论 - 基于R的应用学习笔记1
统计学习导论 - 基于R的应用学习笔记 Chapter 1 导论统计学习是什么: 关于估计ƒ的一系列方法 Y=f(x)+ξ f:X 提供给 Y 的系统信息,是 x 的函数 ξ:随机误差项:均值为0 ...
【医学信息学】《统计学习导论-基于r应用》的学习总结
以下仅为笔者在学习<统计学习导论-基于r应用>过程中的理解总结,如有错误,敬请指正统计学习导论概述什么是统计学习? 对一系列观测值(自变量/预测变量/X,因变量/响应变量/Y)之间的关 ...
《统计学习导论-基于R应用》
机器学习更底层的东西在<统计学习理论的本质>里, <统计学习理论的本质>更现代化.更通俗的理解在这里 <统计学习导论-基于R应用> Gareth James Dan ...
mysql 三阶多项式拟合,《统计学习导论-基于R应用》第三章：线性回归（代码）...
库library 库:一组不含在基础R配置内的函数和数据集 library(MASS) # 加载库 library(ISLR)# 安装库 install.packages("ISLR&quo ...
金融数据分析导论基于R语言第二章金融时间序列的线性模型课后习题答案
1.考虑从1948年1月到2011年11月美国失业率的月数据(见文件m-unrate-4811.txt),数据来目美国圣路易斯的联邦储备银行. (a)该除非特别声明,在以下习题中都用5%的显著性水平来 ...
统计学习导论-基于R应用学习笔记
目录误差假设检验 F-检验分类classification 线性判别分析(LDA) Threshold 分类阀值 resampling 重采样留一法交叉验证(LOOCV) The Bootst ...
统计学习导论基于R应用——作业 3
7. 解: (a)欧几里德距离: |x| = sqrt( x[1]^2 + x[2]^2 + - + x[n]^2 ) 所以计算结果是: 1.3. 2.2. 3.sqrt(10). 4.sqrt(5) ...

统计学习导论：基于R应用——第二章习题

统计学习导论：基于R应用——第二章习题相关推荐

最新文章

热门文章