本文辑录了《R语言实战——机器学习与数据分析》(电子工业出版社2016年出版)一书第6章至第7章前半部分(至136页)之代码。本书引言请见如下链接:
http://blog.csdn.net/baimafujinji/article/details/51596171

内容简介:本书系统地介绍了统计分析和机器学习领域中最为重要和流行的多种技术及它们的基本原理,在详解有关算法的基础上,结合大量R语言实例演示了这些理论在实践中的使用方法。具体内容被分成三个部分,即R语言编程基础、基于统计的数据分析方法以及机器学习理论。统计分析与机器学习部分又具体介绍了包括参数估计、假设检验、极大似然估计、非参数检验方法(包括列联分析、符号检验、符号秩检验等)、方差分析、线性回归(包括岭回归和Lasso方法)、逻辑回归、支持向量机、聚类分析(包括K均值算法和EM算法)和人工神经网络等内容。同时,统计理论的介绍也为深化读者对于后续机器学习部分的理解提供了很大助益。知识结构和阅读进度的安排上既兼顾了循序渐进的学习规律,亦统筹考虑了夯实基础的必要性

网上书店地址:

电子工业出版社官网
中国互动出版网China-pub
京东商城(1)
京东商城(2)


Chapter 6

P100~101

data(geyser, package = "MASS")
geyserdata = read.table("c:/car.txt", header=TRUE, quote="\"")
data[1:2,]mode(data)

P102

names(data)dim(data)data$lp100km
lp100km
attach(data)
lp100km
detach(data)
lp100kmdata.fwf = read.fwf("c:/cities.txt", widths=c(7,7,7),
+ col.names=c("city","latitude","longitude"))
data.fwf

P103~104

data.excel = read.delim("clipboard")
data_excel[1:2,]channel = odbcConnectExcel2007("c:/car.xlsx")
sqlTables(channel)data_excel2 = sqlFetch(channel, "Sheet1")
data_excel2 = sqlQuery(channel, "select * from[Sheet1$]")
close(channel)
data_excel2[1:2,]data_spss = read.spss("c:/car.sav", to.data.frame = T)
data_spss[1:2,]

P105

baseURL = "http://data.worldbank.org/indicator/NY.GDP.PCAP.CD/
+ countries/1W?display=default"
baseURL = gsub("\\n","",baseURL)
table = readHTMLTable(baseURL, header = TRUE, which = 1)
table = table[, 1:5]
names(table) = c("country", "2011", "2012", "2013", "2014")table[c(40,95,71,11),]

P106~107

channel = odbcConnectAccess2007("c:/car.accdb")data_access = sqlFetch(channel, "racv")
close(channel)
data_access[1:2,]library(RJDBC)
con <- dbConnect(RSQLite::SQLite(),"C:/car.db")
dbListTables(con)
data_SQLite <- dbGetQuery(con, "select * from racv")
data_SQLite[1:2, ]

P108

car = file("d:/car.txt")
cat("Make lp100km mass.kg List.price",
+ "\"Alpha Romeo\" 9.5 1242 38500",
+ "\"Audi A3\" 8.8 1160 38700", file = car, sep = "\n")
close(car)data = USArrests[1:10,]
write.table(data, file = "c:/data.txt", col.names = T, quote = F)
read.table("c:/data.txt", header = T, row.names= 1)data2 = read.table("c:/data.txt", header = T, row.names= 1)
write.csv(data2, file = "c:/data.csv", row.names = T, quote = F)
data.csv = read.csv("c:/data.csv", header = T, row.names = 1)

P111

ufc <- read.csv("c:/ufc.csv")
str(ufc)table(ufc$species)
table(ufc$species,ufc$position)mean(ufc$dbh.cm)
median(ufc$dbh.cm)
sd(ufc$dbh.cm)

P112

tapply(ufc$dbh.cm, ufc$species, mean)
tapply(ufc$dbh.cm, ufc$species, median)
tapply(ufc$dbh.cm, ufc$species, sd)library(lattice)
xyplot(height.m ~ dbh.cm | species, data = ufc)xyplot(height.m ~ dbh.cm, groups = species,
+ auto.key = list(space="right"), data = ufc)

P113~114

US_data = USArrests[1:10,]
US_datanames(US_data)names(US_data) = c("MURDER","ASSAULT","URBANPOP","RAPE")
names(US_data)names(US_data)[3] = "UrbanPop"
names(US_data)dimnames(US_data)[[2]]
dimnames(US_data)[[1]]dimnames(US_data)[[1]][1:3] = c("Alb", "Als", "Arz")
dimnames(US_data)[[1]][6:8] = c("Col", "Cnt", "Del")
dimnames(US_data)[[1]]

P115

air_data = airquality[1:7,1:4]
is.na(air_data)sum(is.na(air_data))complete.cases(air_data)
complete.cases(air_data$Ozone)library(VIM)
air_data = airquality[1:31,1:4]
aggr(air_data, las = 1, numbers = TRUE)

P116~117

data1 = air_data[complete.cases(air_data),]
dim(data1)data2 = air_data[(!is.na(air_data$Ozone))
+ &(!is.na(air_data$Solar.R)),]
dim(data2)data3 = na.omit(air_data)
dim(data3)air_data2 = air_data
air_data2$Ozone[is.na(air_data2$Ozone)] =
median(air_data$Ozone[!is.na(air_data$Ozone)])
air_data2$Solar.R[is.na(air_data2$Solar.R)] =
round(mean(air_data$Solar.R[!is.na(air_data$Solar.R)]))

Chapter 7

P119

goods <- list(name="Cookie", price=4.00, outdate=FALSE)goodstypeof(goods$name)
typeof(goods$price)
typeof(goods$outdate)goods2 <- list("Cookie", 4.00, FALSE)
goods2

P120

temp <- vector(mode="list")
temp[["name"]] <- "Cookie"
tempgoods$name
goods[["name"]]
goods[[1]]h1 <- goods["name"]
h2 <- goods[1]class(h1) #查看h1 的类型
h1
class(h2) #查看h2 的类型
h2
class(goods[["name"]])
class(goods[[1]])

P121~122

goods[1:2]
goods[[1:2]]names(goods)goodsgoods$producer <- "A Company" #添加标签并初始化
goodsgoods[["material"]] <- "flour"
goods[[6]] <- 1
goods

P123~124

goods$material <- NULL
goodsc(list(A=1,c="C"),list(new="NEW"))unlist(goods)ngoods <- unlist(goods)
names(ngoods)names(ngoods) <- NULL
ngoodsmgoods <- unlist(goods)
names(mgoods)
unname(mgoods)c(goods,recursive=T)

P125~126

temp <- list(1:10,-2:-9)
lapply(temp, mean)sapply(temp,mean)
sapply(temp,mean,simplify=FALSE,USE.NAMES=FALSE)a1 <- list(name="Cookie", price=4.0, outdate=FALSE)
a2 <- list(name="Milk", price=2.0, outdate=TRUE)
warehouse <- list(a1, a2)
warehousemale <- c(124,88,200)
female <- c(108,56,221)
degree <- c("low","middle","high")
myopia <- data.frame(degree,male,female)
myopia

P127

myopia2 <- data.frame(c("low","middle","high"),
+ c(124,88,200),c(108,56,221))
myopia2weight <- c(50, 70.6, 80, 59.5)
age <- c(20, 30)
wag <- data.frame(weight, age)
wagstr(myopia)rat <- read.csv("F:/R/data/rat_fibres.csv")
ratmyopia$degree
myopia[["degree"]]
myopia[[1]]myopia[1,]
myopia[,2]
myopia[3,2]

P129~130

(sub <- myopia[2:3,1:2])
class(sub)
(sub1 <- myopia[2:3,2])
class(sub1)(sub2 <- myopia[2:3,2,drop=F])
class(sub2)myopia[1:2]
myopia[1]
myopia[c("male", "female")]myopia[myopia$male>100,]
myopia[male>100,]malemale <- c(1,2,3)
myopia[male>100,]myopia[myopia$male>100,]

P131~134

names <- c("Jack", "Steven")
ages <- c(15, 16)
students <- data.frame(names, ages, stringsAsFactors=F)
studentsrbind(students, list("Sariah",15))cbind(students, gender=c("M","M"))studentsstudents$gender <- c("M","M")
studentsstudents
students$gender <- NULL
studentsstudents
students2
merge(students,students2)students
students3
merge(students,students3,by.x="names",by.y="na")merge(students,students3,by.y="na",by.x="names",all.x=T)
merge(students,students3,by.y="na",by.x="names",all.y=T)merge(students,students3,by.y="na",by.x="names",all=T)students4
students
merge(students,students4,by.x="names",by.y="na")students
tt<-rbind(students,list("Kevin",30))
tt$grade <- c(88,74,90,82)
ttapply(tt[,2:3,drop=F],2,mean)

P135~136

(s1 <- lapply(students,sort))
(s2 <- sapply(students,sort))as.data.frame(s1)
as.data.frame(s2)ssample <- c("BJ","SH","CQ","SH")
(sf <- factor(ssample))nsample <- c(2,3,3,5)
(nf <- factor(nsample))str(nf)
unclass(nf)str(sf)
unclass(sf)

R语言实战:机器学习与数据分析源代码5相关推荐

  1. R语言实战:机器学习与数据分析源代码6(最终弹)

    本文辑录了<R语言实战--机器学习与数据分析>(电子工业出版社2016年出版)一书第7章后半部分(137页~145页)至第8章之代码.本书引言请见如下链接: http://blog.csd ...

  2. 备受推崇的《R语言实战》真的值得如此好评吗?

    作者:刘洋溢  R语言中文社区专栏作者 知乎ID:https://zhuanlan.zhihu.com/p/51396601 阅前思考: R语言入门必看的<R语言实战>真的是很好的入门书籍 ...

  3. 对比《学习R》PDF代码+《R语言实战第2版》PDF代码+《R数据科学》PDF代码分析

    R语言是世界上最流行的用于数据处理和统计分析的脚本语言.考古学家用它来跟踪古代文明的传播,医药公司用它来探索哪种药物更安全.更有效,精算师用它评估金融风险以保证市场的平稳运行.总之,在大数据时代,统计 ...

  4. 李倩星r语言实战_基于PCR的全球平均气温研究

    段晓鸣 [摘 要] 本文运用主成分回归的方法研究了全球平均气温与CO2,N2O,CFC.11,CFC.12,TSI,Aerosols六个自变量之间的关系,选取了自1983年5月到2008年12月的数据 ...

  5. R 语言实战-Part 4 笔记

    R 语言实战(第二版) ## part 4 高级方法 -------------第13章 广义线性模型------------------ #前面分析了线性模型中的回归和方差分析,前提都是假设因变量服 ...

  6. 如何让Hadoop结合R语言做统计和大数据分析?

    广大R语言爱好者借助强大工具RHadoop,可以在大数据领域大展拳脚,这对R语言程序员来说无疑是个喜讯. R是GNU的一个开源工具,具有S语言血统,擅长统计计算和统计制图.由Revolution An ...

  7. 使用R语言进行机器学习的原因

    两种最常用的数据科学语言R和Python之间存在着某种竞争. 刚接触机器学习的人都会选择其中一种语言来学习.人们的决定通常以他们可以访问的学习资源为指导,比如哪些资源在他们的工作领域中更常用,以及哪些 ...

  8. r语言实战----01

    1. R 简介 R 是现今最受欢迎的数据分析和可视化平台之一.它是自由的开源软件,并同时提供 Windows.Mac OS X 和 Linux 系统的版本. 数据分析:对于数据的处理,加工,分析,和得 ...

  9. R语言基于机器学习算法进行特征筛选(Feature Selection)

    R语言基于机器学习算法进行特征筛选(Feature Selection) 对一个学习任务来说,给定属性集,有些属性很有用,另一些则可能没什么用.这里的属性即称为"特征"(featu ...

最新文章

  1. iOS安全之二次封装AFN并设置请求头/执行HTTPS加强安全
  2. Linux下core文件调试方法
  3. jAVA 得到Map价值
  4. CentOS 8.0 今天已正式发布!一起看看有哪些新特性
  5. Python 读写操作Excel —— 安装第三方库(xlrd、xlwt、xlutils、openpyxl)
  6. 深入浅出JVM-GC过程
  7. 计算机ppt文字1是什么原因,ppt让答案一个个出现,ppt让文字一个个出现
  8. python列表切片和推导式思维导图_Python列表推导式使用
  9. Android Q 不叫 Q,正式命名为 Android 10
  10. 【安卓按键精灵】教你一个小时自己开发脚本,零基础1个小时上手
  11. 软考网工-第四章知识产权与标准化
  12. 数理统计复习笔记二——充分统计量
  13. Thinkpad预装win10硬盘分区
  14. 明日之后全部服务器怎么修改,明日之后怎么转区 服务器怎么换
  15. 如何用SPSS计算个人BMI值?
  16. Mac使用技巧:轻松自定义设置系统键盘
  17. 前端小技巧(2)-performance.timing属性介绍
  18. C语言数据结构学习——数组和广义表
  19. VS2008 Debug Error R6034
  20. k8s(八)—调度因素(nodeName、nodeSelector、亲和与反亲和、Taints 污点)、影响pod调度的指令

热门文章

  1. win10系统Apache无法启动怎么办?
  2. CAD引线标注文字大小怎么调整?
  3. MATLAB作图技巧汇总
  4. MATLAB 点云粗糙度计算
  5. 华硕笔记本学计算机,买平板电脑学习办公?也许平板、笔记本二合一的产品才更适合你...
  6. 应用泛函分析的知识点
  7. 超详细--neo4j cypher match详细用法
  8. matlab premnmx归一化函数的使用
  9. 现代企业管理笔记——企业概论
  10. 04.千淘万漉虽辛苦,吹尽黄沙始到金——SQL Server大数据群集初探