7. 解:
(a)欧几里德距离: |x| = sqrt( x[1]^2 + x[2]^2 + … + x[n]^2 )
所以计算结果是: 1.3、 2.2、 3.sqrt(10)、 4.sqrt(5)、 5.sqrt(2)、 6.sqrt(3)
(b) Green。最近的点 obs.5 的 Y 值作为预测结果。
(c) Red. 最近的点有 Y[2]=Red,Y[5]=Green,Y[6]=Red,计算出
Pr(Y=Red|X1=X2=X3=0)=2/3
(d) 小。 K 越小,光滑度越高,也就越非线性。所以 K 应该小。
9.解:
(a) 代码:
> auto=read.csv("Auto.csv",header=T,na.strings="?")
> auto = na.omit(auto)
> fix(auto)
定量变量有: mpg, cylinders, displacement, horsepower, weight, acceleration, year。
定性变量: origin, name。
(b) 代码:
> sapply(auto[, 1:7], range)
mpg cylinders displacement horsepower weight acceleration year
[1,] 9.0 3 68 46 1613 8.0 70
[2,] 46.6 8 455 230 5140 24.8 82
(c) 代码:
> sapply(auto[, 1:7], mean)
> sapply(auto[, 1:7], sd)
(d) 代码:
> newauto = auto[-(10:85),]
> sapply(newauto[, 1:7], range)
> sapply(newauto[, 1:7], mean)
> sapply(newauto[, 1:7], sd)
(e)代码:
> attach(auto)
> cylinders=as.factor(cylinders)
> par(mfrow=c(2,2))
> plot(cylinders,mpg)
> plot(cylinders,horsepower)
> plot(horsepower,displacement)
> plot(weight,mpg)
分析:cylinders 为 4 时 mpg 最高, 然后 mpg 的值随 cylinders 的增加或减少而递减。
cylinders 为 4 时 horsepower 最低,然后 horsepower 的值随 cylinders 的增加或减少
而递增。 displacement 与 horsepower 存在正相关关系,而 mpg 与 weight 负相关。
(f)由( e)题讨论结果,可以用 cylinders, horsepower,和 weight 等预测 mpg。
10.解:
(a)代码:
> library(MASS)
> ?Boston
> dim(Boston)
[1] 506 14
(b)代码:
> pairs(Boston)
分析:1)公路可达数 rad 明显的可划分为 24 条和小于 10 条。 2) tax 明显的可分为
666 和小于 400。 3)由散点图, nox, rm, age, dis 变量影响其他变量变化趋势明显。
4) crim 受其他变量影响变化明显。
(c)代码:
从 pairs(Boston)的结果来看, crim 和 age, dis, rad, tax, ptratio 有较大的相关性
> par(mfrow=c(3,3))
> plot(Boston$zn, Boston$crim)
> plot(Boston$indus, Boston$crim)
> plot(Boston$chas, Boston$crim)
> plot(Boston$age, Boston$crim)
> plot(Boston$dis, Boston$crim)
> plot(Boston$rad, Boston$crim)
> plot(Boston$tax, Boston$crim)
> plot(Boston$ptratio, Boston$crim)
> plot(Boston$black, Boston$crim)
分析:1)高人均犯罪率 crim 均分布在住宅比例 zn 接近 0 处。 2) 高人均犯罪率 crim
均分布在零售商比例 indus 在 17 左右。 3)近河处犯罪率高 4) 早于 1940 年建立的的
住宅比例 age 越高, 出现高犯罪率的可能越大 5) 距离五个上班区域的加权平均距离
dis 越低,高犯罪概率值越密集。 6) 公路可达数 rad 小于 10 时,越靠近 5 犯罪率越
高, 等于 24 时出现更高的犯罪率,且高犯罪率分布密集。 7)财产税 tax 小于 500 时
犯罪率极低,达到 666 处且高犯罪率分布密集。 8)师生比略超出 20 时高犯罪率分布
密集,大于或小于此值处犯罪率极低。 9)黑人比例 black 在 0.63 左右犯罪率最低,
高犯罪率向两侧逐渐密集分布。
(d)代码:
> par(mfrow=c(1,3))
> hist(Boston$crim[Boston$crim>1], breaks=25)
> hist(Boston$tax, breaks=25)
> hist(Boston$ptratio, breaks=25)
分析:1) 不会,高犯罪率的只有极少城镇。 2) 3)师生比不高
(e)代码:
> dim(subset(Boston, chas == 1))
[1] 35 14
(f)代码:
> median(Boston$ptratio)
[1] 19.05
(g)代码:
> t(subset(Boston, medv == min(Boston$medv)))
399 406
crim 38.3518 67.9208
zn 0.0000 0.0000
indus 18.1000 18.1000
chas 0.0000 0.0000
nox 0.6930 0.6930
rm 5.4530 5.6830
age 100.0000 100.0000
dis 1.4896 1.4254
rad 24.0000 24.0000
tax 666.0000 666.0000
ptratio 20.2000 20.2000
black 396.9000 384.9700
lstat 30.5900 22.9800
medv 5.0000 5.0000
> summary(Boston)
分析: 1) 第 399 个。2) 38.35180 0.0 18.10 0 0.6930 5.453 100.0 1.4896
24 666 20.2 396.90 30.59 5.0 。 3)犯罪率高,住宅用地比率低,零售商
业比例较高,不靠近河,氮氧化物浓度较高,住宅房间数中等, 早于 1940 年建立的
的住宅比例最高, 为 100%, 距离五个上班区域的加权平均距离较近, 交通发达,税率
高,生师比较高, 黑人占比极高, 地位低的人群比例高
(h)代码:
> dim(subset(Boston, rm > 7))
[1] 64 14
> dim(subset(Boston, rm > 8))
[1] 13 14
> summary(subset(Boston, rm > 8))
分析:犯罪率低,住宅用地比率高,零售商业比例更合理, 河,氮氧化物浓度更接近
中等水平,住宅房间数多,早于 1940 年建立的的住宅比例更高,距离五个上班区域
的加权平均距离更近,交通发达,税率低,生师比低,黑人占比极高,地位低的人群

懒得整理,pdf版本http://pan.baidu.com/s/1nv16iG5

转载于:https://www.cnblogs.com/butta/p/6401411.html

统计学习导论 基于R应用——作业 3相关推荐

  1. 统计学习导论 - 基于R的应用 学习笔记1

    统计学习导论 - 基于R的应用 学习笔记 Chapter 1 导论 统计学习是什么: 关于估计ƒ的一系列方法 Y=f(x)+ξ f:X 提供给 Y 的系统信息,是 x 的函数 ξ:随机误差项:均值为0 ...

  2. 最优化理论c语言代码,《统计学习导论基于R应用》PDF代码导图+《最优化理论与算法第2版》PDF习题指导...

    要想深入理解机器学习,或者对人工智能的某个领域有所研究,都必须掌握统计学.最优化.矩阵及其应用等知识. 推荐<统计学习导论:基于R应用>,适合运用统计学习前沿技术分析数据的人士.读起来不费 ...

  3. 【医学信息学】《统计学习导论-基于r应用》的学习总结

    以下仅为笔者在学习<统计学习导论-基于r应用>过程中的理解总结,如有错误,敬请指正 统计学习导论概述 什么是统计学习? 对一系列观测值(自变量/预测变量/X,因变量/响应变量/Y)之间的关 ...

  4. 《统计学习导论-基于R应用》

    机器学习更底层的东西在<统计学习理论的本质>里, <统计学习理论的本质>更现代化.更通俗的理解在这里 <统计学习导论-基于R应用> Gareth James Dan ...

  5. 《统计学习导论-基于R应用》第二章:统计学习(代码)

    A = matrix(seq(1,16),4,4) A 1 5 9 13 2 6 10 14 3 7 11 15 4 8 12 16 A[1,] 1 5 9 13 A[-c(1,3),] 2 6 10 ...

  6. mysql 三阶多项式拟合,《统计学习导论-基于R应用》第三章:线性回归(代码)...

    库library 库:一组不含在基础R配置内的函数和数据集 library(MASS) # 加载库 library(ISLR)# 安装库 install.packages("ISLR&quo ...

  7. 统计学习导论-基于R应用学习笔记

    目录 误差 假设检验 F-检验 分类classification 线性判别分析(LDA) Threshold 分类阀值 resampling 重采样 留一法交叉验证(LOOCV) The Bootst ...

  8. 《统计学习导论》R语言代码整理

    <统计学习导论>R语言代码整理 一.特殊函数 二.基本函数 三.画图 一些函数 一些参数 type pch (plotting character) lty(line types) 特定问 ...

  9. 统计学习导论之R语言应用(四):分类算法R语言代码实战

    统计学习导论之R语言应用(ISLR) 参考资料: The Elements of Statistical Learning An Introduction to Statistical Learnin ...

最新文章

  1. 11.python并发入门(part9 多进程模块multiprocessing基本用法)
  2. 15个可交互的真实房屋场景,Silvio/李飞飞组开源大型室内场景的模拟环境iGibson...
  3. 【前沿】MIT搞了个进取型机器人!能研究学习对象操纵的基础
  4. Android流量统计TrafficStats类
  5. hbuilder入门之基本配置(php)
  6. QT中个数据类型的转换
  7. oracle 查看用户状态,Oracle数据库查看用户状态
  8. 改进初学者的PID-初始化
  9. 飞鸽传书官方网站 2012 最新源码公开
  10. 非常不错的Coding-iOS开源项目
  11. 实验:添加AXI IP到设计
  12. 如何在iPhone上安装Skype?
  13. PB自动注册OCX控件
  14. 给ftp服务器创建文件夹,ftp服务器创建文件夹
  15. 重复测量设计计算机结果分析,重复测量设计样本含量估计.pdf
  16. C++ | 通讯录管理系统
  17. 我不要我觉得,我要你觉得--如何根据企业研发的现状实施DevOps
  18. 广州你让我泪流满面1
  19. bootStrap常用样式
  20. 携程是如何做React Native优化的

热门文章

  1. linux 标准IO缓冲机制探究
  2. vscode中装js解释器_h5学习记录(1)--vscode配置js开发环境
  3. python join函数用法-Python join()函数
  4. java静态方法声明_方法本地类中的Java最终静态声明
  5. python3调用java_Python程序中调用Java代码的实践
  6. 2017年9月2日普级组T1 正方形
  7. [JOI2012春季合宿]Rotate (链表)
  8. python字符串逆序_python之字符串逆序
  9. 如何利用计算机解决问题,《用计算机解决问题的一般步骤》讲课教案
  10. python元组是数组吗,Python基础(4)——数组元组