《R语言数据分析》作业答案

数据赋人工系统以智能。北邮《R语言数据分析》课程从问道、执具、博术三个方面,阐述机器学习/数据挖掘的方法论(道)、编程工具R语言(具)以及经典算法模型(术)。通过课程的学习,可一起领悟数据分析之哲理、掌握模型算法之要义、提升工程实践之素养,推开人工智能的大门,为同学们在机器学习/数据挖掘领域登堂入室奠定基础。以下资料整理于该课程作业,供学习参考。

第1章:气象万千、数以等观

多选题

等号可以表示那些含义?(ABCD)

A.等同于 B.定义为 C.映射 D.联系

解析:

等号可以有很丰富的内涵,大部分的规律,通过数学语言表达时,都离不开等号。等号可以是简单的等同于、定义为,也可以是映射、联系。

判断题

1.对于照片中人的年龄识别,可以认为是将特征取值与人类可能的年龄划上了等号。(√)

解析:

机器学习中的有监督学习,本质上就是在自变量与因变量之间划等号。年龄识别属于有监督学习。

2.在玻意耳定律中,体积与压强(经过变换)之后划上了等号,表明二者质非相同,量却相等。(√)

解析:

划等号不只是表示“等同于”。质不相同、量却相等,体现的是事物之间的联系。

3.机器学习中的有监督学习,主要体现为在自变量与因变量之间划上等号。(√)

解析:

机器学习中的有监督学习,包括分类与回归,本质上都是在因变量与自变量之间划等号,即建立因变量与自变量之间的函数关系y=f(X)。

单选题

若要将邮件文本特征与是否是垃圾邮件划上等号,必须完成以下哪项工作?(B)

A.过滤垃圾邮件 B.建立模型 C.绘制词云 D.文本情感分析

解析:

文本特征不能直接与是否是垃圾邮件划上等号,需建立起特征与类别之间的模型y=f(X)

第2章:所谓学习、归类而已

判断题

1.分类是无监督学习的代表,聚类是有监督学习的代表。(×)

解析:

分类与聚类分别是有监督和无监督学习的代表。

2.一般认为,数据挖掘可以包含数据分析技术和数据管理技术。(√)

3.关联规则主要表现为项集之间的因果关系。(×)

解析:

关联规则表现为项集之间的伴随关系,而非因果关系。

4.聚类分析的结果主要表现为数据空间的距离结构。(√)

5.模型不在于构建,而在于选择。(√)

多选题

1.以下哪些行为可以视为归类行为?(AD)
A.识别火源
B.打开灭火器
C.喷射泡沫
D.确认火已扑灭

解析:

归类属于认知范畴,A和D属于根据特征做出判断的过程,可视为归类行为。B和C为一些具体动作行为,不能视为归类行为。

2.从认知的角度看,以下说法正确的是?(ABCD)
A.概念化是归类
B.学习是归类
C.感知是归类
D.决策是归类

3.机器所能学到的知识包括(ABD)
A.模式 B.模型 C.算法 D.函数

解析:

机器能学到的是某种关系结构,可以是模式、模型,函数是模型的主要表现形式之一,因此A、B、D正确。算法是学习过程,而非学习结果,因此C错误。

单选题

1.就逻辑推理方式而言,训练模型的过程属于(A)。
A.归纳 B.演绎 C.都是 D.都不是

2.就逻辑推理方式而言,将模型应用于预测的过程属于(B)。
A.归纳 B.演绎 C.都是 D.都不是

解析:训练的过程属于归纳,而预测的过程属于演绎。

3.为确保模型的有效性,需要采用数学的方法对算法习得的模型进行证明。(×)

解析:

为了验证模型的有效性,一般都是通过实验的方法,在测试集上测试其性能。模型的验证,以观测、实验为主,而非理论推导。

4.结构风险最小化策略,主要是为了提升模型在训练集上的性能指标。(×)

解析:

结构风险最小化策略,主要是为了提升模型的泛化能力。泛化能力一般通过测试集(而非训练集)上的性能指标来近似。

第3章:格言联璧话学习

判断题

1.所有的模型都是错的,但有些是有用的。(√)

2.无监督学习本身没有类标签,因此无法判断模型是否正确,也无需开展模型评估。(×)

解析:

无论是有监督学习还是无监督学习,都需要开展模型评估。以无监督学习中的聚类分析为例,可以通过轮廓系数等指标来衡量聚类的效果。

3.相关关系不能等同于因果关系。(√)

4.数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。(√)

5.在集成学习中,单个分类器一般称之为弱分类器,组合分类器称之为强分类器。(√)

6.数据密集型科学发现是一种新的范式,无需掌握机理模型,也无需了解业务背景。(×)

解析:

业务敏感是第一位的,任何一个成功的数据分析项目,都离不开对业务背景的深入了解。

第4章:源于数学、归于工程

判断题

1.数学是研究模式的科学。(√)

2.在最近邻法中,每个训练样本的势力范围是半径为r的球体。(×)

解析:

在最近邻法中,每个训练样本的势力范围是由平面围成的空间,非球状。

3.近邻法分类的基本原理是根据数据空间中距离的远近,将测试点分配至不同的类中心。()

解析:

近邻法是根据身边k个训练样本点的标签,按照多数决策原则给测试样本点打标签,不存在类中心的概念。kMeans聚类过程中,则是根据离类中心距离的远近,将每一个点分配至不同的类中心。

4.决策树的构建过程,主要是通过属性取值不同,对空间进行细分,在细分空间中标签足够纯,从而实现分类。(√)

5.随机森林的总体结构依然是一棵决策树,树的分枝又由若干棵决策树构成。(×)

解析:

随机森林是组合学习模型,由若干棵决策树构成。集成的过程采用多数表决或是取平均值的方法,而非一棵总的决策树。

6.朴素贝叶斯分类器是将特征属性的取值作为新的证据,对对象所属类别的先验概率进行调整,从而实现分类。(√)

7.逻辑斯蒂回归模型可以作为神经网络的计算节点。(√)

8.支持向量机是在特征张成的数据空间中,通过分类超平面实现类别的划分。(√)

9.对于特定情境的建模问题,正确的答案、正确的模型应该是唯一的。(×)

解析:

对于同一个问题情境,一般都会尝试不同的模型。我们所能做的,只是在当前已经尝试过的模型中,找到性能指标比较好的那个,未来也可能会有更多更好的模型。所以不存在所谓的唯一正确的模型。

多选题

以下属于有监督学习算法的有(AC)
A.近邻法 B.k-均值 C.随机森林 D.孤立森林

解析:

k均值和孤立森林,都属于无监督学习算法。近邻法kNN和k均值kMeans名字上有点类似,但二者本质上完全不同。

第5章:工欲善其事、必先利其器

判断题

1.R是一个数据分析和绘图的环境。(√)

2.R只适合传统统计,不适合机器学习和数据挖掘等任务.(×)

3.大部分数据科学团队,都同时使用两种以上的工具,如R和Python。(√)

第6章:基础编程——用别人的包和函数讲述自己的故事

单选题

1.以下选项中,不包含在CRISP-DM数据处理流程中的是©
A.数据理解 B.建模 C.推理 D.评估

解析:

CRISP的六个步骤分别为:业务理解、数据理解、数据预处理、算法建模、模型评估、部署应用

多选题

1.R代码的组成部分有(ABC)
A.数据对象 B.函数调用 C.注释 D.变量定义

解析:

在R中,变量无需定义

2.R里边的循环结构有哪些实现方式(ABD)
A.for B.while C.until D.repeat

解析:

无until这一关键词。

3.欲查询if的帮助文档,正确的语句是(ACD)
A.help(‘if’) B.?if C.?‘if’ D.?“if”

解析:

对于特殊的函数if或是+等,通过help()或是单引号、双引号、反单引号查找帮助文档。

4.与1+1等价的语句有(ABD)
A.‘+’(1, 1) B.“+”(1, 1) C.%+%(1, 1) D.+(1,1)

解析:

二元操作符+是特殊的函数,可以改写为函数调用的方式,此时需采用双引号、单引号或反单引号。

判断题

1.R编码的基本过程可以概括为“利用别人的包和函数,讲述自己的故事”。(√)

2.repeat循环体中必然有一条next语句,否则会形成死循环。(×)

解析:

repeat循环体中必然有一条break语句,next语句只是中断本轮循环并跳转至下一轮循环。若repeat语句中仅有next而无break,依然是死循环。

3.magrittr扩展包中的管道操作符lhs%>%rhs是一个函数,lhs和rhs分别为一个数据对象及函数对象。(√)

4.泛型函数可以根据对象所属类型的不同,执行不同的操作。(√)

5.常见的+属于泛型函数,ggplot2扩展包对其进行了扩展。(√)

第7章:数据对象——面向数据对象学习R语言

多选题

1.对于向量x <- c(first = 1, second = 2, third = 3), 合法的访问方式有(ACD)
A.x[c(1, 2, 1, 3)] B.x[c(-1, 2, 3)] C.x[c(-1, -3)] D.x[c(‘first’, “third”)]

解析:

正整数、负整数都可以用作下标,但不能混用。

2.可以作为矩阵M的列下标的是(ABCD)
A.落入区间[1, ncol(M)]的正整数
B.落入区间[-ncol(M), -1]的负整数
C.长度为ncol(M)的逻辑向量
D.由names(M)中元素组成的字符向量.

3.对于列表my_list的第一个组成部分partA,以下描述正确的是(BCD)
A.语句my_list[‘partA’]与my_list[[‘partA’]]等价
B.语句my_listpartA与mylist[[1]]等价C.语句mylist[[1]]与mylist[[′partA′]]等价D.语句mylistpartA与my_list[[1]]等价 C.语句my_list[[1]]与my_list[['partA']]等价 D.语句my_listpartA与myl​ist[[1]]等价C.语句myl​ist[[1]]与myl​ist[[′partA′]]等价D.语句myl​istpartA与my_list[[‘partA’]]等价

解析:

单层[]为列表,双层[[]]为组成部分本身,二者有本质区别。

单选题

1.语句1:10 - 1:3的结果是(A)
A.0 0 0 3 3 3 6 6 6 9
B.0 0 0 4 5 6 7 8 9 10
C.0 1 2 2 3 4 4 5 6 9
D.语法错误,无结果

解析:

在进行向量化运算时,若长度不等,则采取循环补齐的方式进行,相当于1:10 - c(1:3, 1:3, 1:3, 1)。

2.语句sort(c(3, 1, 4, 1, 5, 9, 2, 6))的结果是(A)
A.1 1 2 3 4 5 6 9
B.9 6 5 4 3 2 1 1
C.6 8 5 3 1 7 2 4
D.2 4 7 1 3 5 8 6

解析:

sort()函数默认是对值进行从低到高排序。

3.语句order(c(3, ‘.’, 1, 4, 1, 5))的结果是(D)
A.“.” “1” “1” “3” “4” “5”
B.“5” “4” “3” “1” “1” “.”
C.6 4 1 3 5 2
D.2 3 5 1 4 6

解析:

先进行强制类型转换,然后按照从低到高的顺序取下标。

4.用以表征等级、规模的变量,属于以下哪种变量(B)
A.定类变量 B.定序变量 C.定距变量 D.定比变量

解析:

定序变量,有高下优劣之分,但不能比较差别。

5.若字符向量partA是列表my_list的第1个组成部分,那么my_list[1]的结果是(A)
A.列表对象 B.字符对象 C.序号对象 D.空对象

解析:

单个[]依旧是列表,[[]]才是组成部分本身。

6.在R语言数据建模中,用得最多的数据对象是(D)
A.向量 B.列表 C.因子 D.数据框

解析:

data.frame是R中最常用的数据对象。

7.要将数据框df(包含3列)的第2列和第3列调换位置,正确的代码是(A)
A.df <- df[, c(1, 3, 2)]
B.df[, c(1, 3, 2)]
C.df <- df[c(1, 3, 2), ]
D.df[c(1, 3, 2),]

解析:

选项B产生的是临时对象;选项C/D为数据框的行操作。

判断题

1.利用R语言进行有监督学习,若将其视为分类问题对待,则因变量一般要转换为因子。(√)

解析:

分类问题要求因变量为类别变量,即因子。

2.无论外部数据是图片、音频还是文本,均可转换为向量/因子/矩阵/数组/列表/数据框中的某种类型之一。(√)

解析:

万法归宗,若通过R语言开展机器学习与数据挖掘,绝大部分时候都需要转换成这六种数据对象之一。

3.数组对象可通过array()函数创建。(√)

解析:

R中的数组对象主要是通过array()函数创建。

第8章:人人都爱tidyverse

判断题

1.magrittr扩展包中的管道操作符,x %>% f %>% g表示f(g(x))。(×)

解析:

x %>% f %>% g表示g(f(x))。

2.x %>% f(y, z, .)等价于f(x, y, z)。(×)

解析:

x %>% f(y, z, .)等价于f(y, z, x),若x不是第一个参数,则用点号.指代。

3.x %>% tail(n=3)等价于tail(x, n = 3)。(√)

解析:

第一个参数默认为管道操作符%>%的左侧参数x,其余参数如n=2照常传递。

4.df %>% select(1:3) %>% tail(n = 3) 表示选取数据框df的前三列后三行。(√)

解析:

两个管道操作,前一个操作为选取df的前三列,第二个管道操作为继续选取其后三行。

5.df %>% mutate(sum3 = rowSums(.[1:3]))表示基于df产生一个临时对象,该对象比数据框df多一列sum3,且sum3为df前三列之和。(√)

6.tidyr::spread()的功能是将长的数据变为宽的数据。(√)

解析:

spread()函数将长数据变宽,伸展开来。

7.tidyr::gather()的功能是将宽的数据变为长的数据。(√)

解析:

gather()函数将宽数据变长,将“远处”数据收集过来并垒成长数据。

8.宽数据变为长数据,将由之前的若干列变为两列。(√)

多选题

1.以下代码中,表示将数据框df按照其中的col1列从高到低进行排序的是(AC)
A.df %<>% arange(desc(col1))
B.df %<>% arange(col1)
C.df %>% arange(desc(col1)) -> df
D.df %>% arange(desc(col1))

解析:

df%<>% 或是 ->df才能改变df本身,desc()表示从高到低进行排序。

2.在dplyr扩展包中,列操作的函数有(AB)
A.select() B.mutate() C.filter() D.arrange()

解析:

select()/mutate()为列操作,filter()/arrange()为行操作。其中,select()表示选择某些列,mutate()表示新增或修改某些列。

3.在dplyr扩展包中,行操作的函数有(CD)
A.select() B.mutate() C.filter() D.arrange()

解析:

select()/mutate()为列操作,filter()/arrange()为行操作。其中,filter()表示选择符合某些条件的记录/行,arrange()表示对记录/行进行排序。

单选题

1.分组之后进行summarise(freq = n()),此处的freq表示(A)
A.每组的记录数 B.总的记录数 C.每组的列数 D.总的列数

解析:

函数n()表示计算本组记录数。

2.对于一个100×8的数据框,若将其中的5列数据由宽变长,变换之后的数据框的行列数分别为©。
A.100行8列 B.500行8列 C.500行5列 D.100行5列

解析:

8列中的5列变为2列,加上其余的3列,共5列;原来的1行变为5行,共500行。

第9章:最美不过数据框

多选题

1.数据框中的列,可表达的含义有(ABCD)
A.属性 B.特征 C.数据空间的维度 D.变量

解析:

数据框中的列,从数据库的角度讲,是字段;从统计的角度讲,是变量;从机器学习的角度讲,是属性、特征;从数据空间的角度讲,是空间的维度。

2.数据框中的行,可表达的含义有(ABCD)
A.样本 B.观测记录 C.特征向量 D.数据空间中的数据点

解析:

数据框中的行,从数据库的角度讲,是记录;从统计的角度讲,是样本;从机器学习的角度讲,是特征向量;从数据空间的角度讲,是空间中的点。

3.数据框中蕴含的关系结构包括(ABCD)
A.映射关系 B.距离关系 C.伴随关系 D.相关关系

解析:

数据框是R算法建模过程中,最常用的数据对象,其中蕴含各类关系结构,包括映射关系、距离关系、伴随关系、相关关系、拓扑关系等。

判断题

1.数据框可视为函数的三种表达方式之一——列表法。(√)

解析:

数据框可视为函数的列表法,其中的某些列作为自变量,某些列作为因变量

2.数据框的每一行,表现为数据空间中的一个点。(√)

3.数据空间中的列,可以作为数据空间的维度。(√)

4.数据框中的自变量,一般都表现为数据空间的维度,而因变量的取值(如类别),一般表现为数据点的标签。(√)

第10章:观数以形

单选题

1.在R语言中,茎叶图可通过以下哪个函数实现(A)
A.graphics::stem()
B.graphics::barplot()
C.graphics::boxplot()
D.graphics::hist()

解析:

barplot()为柱状图,boxplot()为箱线图,hist()为直方图

2.在ggplot2绘图系统中,通过以下哪个函数绘制概率密度图(A)
A.geom_density B.geom_point C.geom_step D.geom_hist

解析:

geom_point()绘制散点图;geom_step()绘制梯级图;geom_hist()绘制直方图。

3.可直接用来计算相关系数的函数是(A)
A.stats::cor() B.stats::cov() C.stats::dist() D.stats::density()

解析:

cov()用以计算协方差,dist()用以计算距离,density()用以估算概率密度。

4.层峦叠嶂图属于何种分组图形(B)
A.分组箱线图 B.分组概率密度图 C.分组直方图 D.分组茎叶图

解析:

层峦叠嶂图的本质是分组概率密度图。

判断题

1.在ggplot绘图系统中,几何映射geom与统计变换stat是成对出现。(√)

解析:

geom_XXX()中一般包含stat统计变换过程,stat_XXX()函数同样包含geom几何映射过程,二者可互相替代。

2.箱线图通过分位数来刻画数据的分布。(√)

3.数据空间的密度,可定义为单位体积内数据的质量。(×)

解析:

数据空间的密度,主要指密集程度,与物理学中的密度不同。

4.在计算Hopkins统计量时,随机抽取的点的个数,一般接近于记录数。(×)

解析

在计算Hopkins统计量时,随机抽取的点的个数,一般远远小于记录数,如取0.1×N或0.05×N

多选题

1.在箱线图中,符合以下哪些条件的数据被视为异常数据(ABC)
A.大于Q3+1.5IQR
B.小于Q1-1.5
IQR
C.处于上边界或下边界之外的数据
D.处于中位数附近的数据
解析:
一般视中位数为“最正常”的数据,中位数附近为正常数据,因此选项D错误。

2.哪些统计量可用来刻画数据的分散程度(ABC)
A.极差 B.四分位距 C.标准差 D.中位数

解析:

用以量化数据的分散程度,可以用极差、标准差、方差等;用以量化数据的集中趋势,可以用中位数、均值、众数等。

第11章:相随相伴、谓之关联

判断题

1.关联分析(Association Analysis)用于发现隐藏在大型数据集中有意义的联系,所发现的联系可以用频繁项集或关联规则的形式表示。(√)

解析:

关联分析的两种主要联系为频繁项集和关联规则。

2.项集出现的频度是包含该项集的事务数,简称为项集的支持度。(×)

解析:

出现的频数称之为支持度计数,所占比例或者说出现的概率,称之为支持度。

3.如果项集的支持度满足预定义的最小支持度阈值,称之为频繁项集。(√)

解析:

项的集合称之为项集,出现次数足够频繁的项集称之为频繁项集。

4.规则X→Y的置信度定义为P(Y|X)。(√)

解析:

置信度定义为条件概率P(Y|X)。

5.Apriori算法所基于的先验性质是:非频繁项集的超集必定是非频繁的。(√)

解析:

Apriori中的先验法则是:频繁项集的子集必定是频繁的,非频繁项集的超集必定是非频繁的。

6.如果规则X→(Y-X)不满足置信度阈值,则规则X’→(Y-X’)的规则也一定不满足置信度阈值,其中X为X’的真子集。(×)

解析:

仅当X’为X的真子集时满足:如果规则X→(Y-X)不满足置信度阈值,则对于X’→(Y-X’)的规则也一定不满足置信度阈值。

7.满足最小支持度和置信度要求的规则X→Y是强规则,意味着X的出现有助于促进Y的出现。(×)

解析:

若提升度小于1,则表明二者依然是负相关关系,尽管X→Y是强规则。

8.若要通过arules::apriori挖掘若干连续变量之间的关联关系,通常需要对这些变量进行离散化处理。(√)

解析:

apriori()用于挖掘项集之间的关联关系,因而首先需要将连续变量离散化为项item。

9.apriori算法采用逐层递进的方法生成频繁项集。若事务记录中共有N个项,则首先查找频繁的N项集,在此基础上查找频繁的N-1项集候选,逐层递进。(×)

解析:

方向相反,应是从频繁的1项集开始进行筛选。

10.在Apriori算法中,需要先生成关联规则,然后才可以生成频繁项集。(×)

解析:

一般是先生成频繁项集,在此基础上一分为二生成关联规则。

11.支持度用以减少偶然性,置信度用以增加推断能力。因此,支持度设为0.8,置信度设为0.01是一个合理的参数设置。(×)

解析:

在具体工程实践中,支持度一般设置较小,可能小于1%;置信度代表推断能力,应设置为较高的值,一般在70%以上。

12.设I={I1, I2, I3, I4, I5},若频繁3-项集为{I1, I2, I3}, {I1, I2, I4},则可以将{I1, I2, I3, I4}作为频繁的4-项集候选。(×)

解析:

{I1, I2, I3, I4}包含非频繁的子集{I2, I3, I4}以及{I1, I3, I4}。

13.由于Apriori在挖掘规则的过程中,已经设置了支持度和置信度,因此对于挖出的规则无需进行评估。(×)

解析:

仅有支持度和置信度,并不能判定为有效规则。一般而言,若提升度小于等于1,依旧视为无效规则。

14.若规则X→Y大于预先定义的最小支持度阈值和最小置信度阈值要求,则表明Y伴随X出现,X与Y是正相关关系。(×)

解析:

仅当提升度大于1时,二者才表现为正相关关系。

15.规则X→Y所表示的只是伴随关系,而非因果关系,即:X伴随着Y的出现而出现。(×)

解析:

该规则确实只是表示伴随关系而非因果关系,但准确的说法应该是Y伴随着X的出现而出现。

16.在支持度、置信度框架之下,FP-Growth等算法,可以挖出比Apriori算法更多更好的规则。(×)

解析:

在支持度和置信度框架之下,不同的挖掘算法仅体现在效率上有所不同,所挖出的关联规则并无区别。

单选题

1.在Apriori算法中,在得到频繁的k-1项集之后,通过以下哪种连接方法,生成k-项集候选©
A.所有的k-项集都看做可能的候选集
B.通过频繁的k-1项集和频繁的1项集连接生成频繁的k-项集候选
C.通过合并一对频繁的k-1项集生成频繁的k项集候选
D.以上都不是

解析:

效率最高的连接方式是将两个频繁的k-1项集合并。

多选题

1.对于规则X→Y和规则Y→X,相同的度量指标是(AC)
A.支持度 B.置信度 C.提升度 D.因果置信度

解析:

两条规则的支持度和提升度是相同的,而置信度和因果置信度具有方向性。

第12章:既是世间法、自当有分别

判断题

1.分类与回归的核心任务是建立函数关系y=f(X),若y为数值变量,称之为回归;若y为类别变量,称之为分类。(√)

2.随机森林建模过程中,通过有放回的抽样方法得到自助样本,样本大小一般是原数据集的36%左右。(×)

解析:

随机森林过程中通过有放回的重采样方法,样本大小与原数据集大小一致,但有36%左右的数据不被抽到。

3.在朴素贝叶斯分类器中,假定特征之间相互独立。(√)

解析:

为方便计算,假定特征相互独立,因而称之为朴素贝叶斯。

4.贝叶斯公式p(y|X) = p(y) * (p(X|y) / p(X))用以分类,可将p(X|y) / p(X)视为X出现时对于y的提升程度。(√)

解析:

该计算方法与关联规则提升度一致。

5.逻辑斯蒂回归可以视为广义线性模型,其连接函数为logit函数。(√)

解析:

逻辑斯蒂回归模型在R中的最基本的实现,便是采用广义线性模型glm()函数。

11.在神经网络训练过程中,为了实现节点间权值的迭代优化,需要利用本节点的输出与实际值的偏差信息。(×)

解析:

非本节点的偏差信息,而是最终输出层的偏差信息。

12.对于线性可分但存在噪声点数据的情形,支持向量机通过引入松弛变量的方法进行处理。(√)

多选题

1.以下关于近邻法的描述,正确的是(ABCD)
A.近邻法是惰性学习方法
B.测试记录的标签,取决于训练集中离得最近的k条记录
C.若近邻数k=1,称之为最近邻法
D.邻近性可通过欧氏距离、曼哈顿距离等不同的指标进行度量

2.决策树建模过程中,常用的不纯度指标有(ABCD)
A.分类错误率 B.Gini指数 C.信息增益 D.增益率

3.以下用于rpart树模型可视化的函数有(BCD)
A.rpart::predict.rpart()
B.rpart.plot::rpart.plot()
C.rpart::plot.rpart()
D.rpart::text.rpart()

解析:

predict.rpart()用以模型预测,后三项为模型可视化函数。

4.在R语言中,可用以支持向量机建模的函数有(AC)
A.kernlab::ksvm()
B.stats::glm()
C.e1071::svm()
D.kknn::kknn()

解析:

ksvm()和svm()均可用以训练支持向量机,glm()为广义线性模型,kknn()为加权近邻法。

单选题

1.分类回归树CART可通过 以下哪个函数实现©
A.e1071::naiveBayes()
B.stats::hclust()
C.rpart::rpart()
D.nnet::nnet()

解析:

naiveBayes()实现的是朴素贝叶斯算法,hclust()实现的是层次聚类,nnet()实现的是神经网络算法。

第13章:方以类聚、物以群分

判断题

1.聚类分析将对象分成不同的簇,使得簇内对象彼此相似,簇间对象彼此相异。(√)

2.聚类属于无监督学习,和分类不同,需要在预先不知道分类的情况下,将数据划分成有意义或有用的簇,捕获数据的自然结构。(√)

3.欲判断数据是否适合聚类,可计算相应的Hopkins统计量。一般而言,Hopkins统计量接近于0.5,更适合开展聚类分析。(×)

解析:

Hopkins统计量接近于0.5,表明数据点呈现均匀分布,不适合聚类。

4.综合考虑凝聚性和分离性,可采用轮廓系数silhouette coefficient评估聚类结果。(√)

5.在k-Means建模过程中,若通过轮廓系数来优选k的取值,则轮廓系数最小的k值,为最优k值。(×)

解析:

轮廓系数越大,聚类效果越好,此时相应的k最优。

6.层次聚类hierarchical clustering在不同层次上对数据集进行划分,通过树状图dendrogram来表征对象的远近关系。(√)

7.自下而上的层次聚类方法,其基本过程是每一次合并最接近的两个簇,直至仅剩下一个簇。(√)

8.DMwR::outliers.ranking()算法基于层次聚类进行异常检测,其核心原理是离群值不易于合并,被合并时其所属类的大小与另一个合并的类相比,差别较大。(√)

多选题

1.以下属于数据标准化方法的有(ABC)
A.min-max标准化
B.z-score标准化
C.正项序列归一化
D.连续数据离散化

解析:

离散化并非数据标准化方法。

2.计算轮廓系数时,至少需要给定的两个参数是(AC)
A.对象之前的距离
B.聚类所采用的方法
C.对象所属的类
D.类中心的位置

解析:

计算轮廓系数,既要知道点之间的距离,同时需要知道每一个点所属的类,至于聚类的方法和类中心,则无需明确。

3.在R语言开源生态中,与kMeans算法相关的函数有(ABC)
A.stats::kmeans() B.fpc::kmeansruns()
C.fpc::kmeansCBI() D.kknn::kknn()

解析:

选项D为加权近邻法,为有监督学习方法。

4.簇之前的距离基于点之间的距离进行计算,具体可以包括(ABCD)
A.最小距离 B.最大距离 C.平均距离 D.均值距离

解析:

簇之间的距离可以定义为两个簇点对的最小距离、最大距离、平均距离,也可以定义为两个簇质心的距离(均值距离)。

单选题

R语言中可直接用于数据标准化的函数有(B)
A.base::mean() B.base::scale() C.stats::sd() D.e1071::kurtosis()

解析:

mean()函数用以求平均值,sd()函数用以求标注差,kurtosis()函数用以求峰度。

第14章:庐山烟雨浙江潮

单选题

1.适合于形容"发现历史数据背后的规律"的特点的成语是(B)
A.往者不可谏、来者犹可追
B.万物并作、吾以观复
C.橘生淮南则为橘、生于淮北则为枳
D.南来北往

2.适合于形容"梯度下降"的特点的成语是©
A.鱼目混珠、混淆视听
B.数同类者无远、数异类者无近
C.因势利导、渐入佳境
D.见貌辨色、揣骨听声

3.适合于形容"聚类分析"的特点的成语是(A)
A.物以类聚、人以群分
B.取长补短
C.绳锯木断、水滴石穿
D.泰山不让土壤、故能成其高

4.适合于形容"经验风险最小化"的特点的成语是©
A.众擎易举
B.集腋成裘
C.知错能改、善莫大焉
D.福兮祸所伏,祸兮福所倚

5.适合于形容"模型泛化与迁移"的特点的成语是(A)
A.橘生淮南则为橘、生于淮北则为枳
B.千羊之皮、不如一狐之腋
C.泰山不让土壤、故能成其高
D.众愚不如一贤

6.适合于形容"模型参数设置"的特点的成语是©
A.狮象搏兔、皆用全力
B.磨而不磷、涅而不缁
C.量体裁衣
D.千镒之裘、非一狐之白

7.适合于形容"特征选择不当"的特点的成语是(A)
A.缘木求鱼、问道于盲
B.千锤打锣、一锤定音
C.豪末不掇、将成斧柯
D.种瓜得瓜、种李得李

8.适合于形容"垃圾数据未清理"的特点的成语是(B)
A.一手独拍、虽疾无声
B.鱼目混珠、混淆视听
C.差之毫厘,谬以千里
D.尺蚓穿堤、能漂一邑

9.适合于形容"异常检测"的特点的成语是©
A.日中则昃、月满则亏
B.无根之木、无源之水
C.卓尔不群、鹤立鸡群
D.一不压众、百不随一

多选题

1.属于明显的"特征提取与分类"行为的是(ABCD)
A.见貌辨色、揣骨听声
B.看云识天气
C.确认过眼神、遇上对的人
D.望闻问切

《R语言数据分析》作业答案相关推荐

  1. 翁恺《零基础学习Java语言》作业答案 第1周到第7周

    翁恺<零基础学习Java语言>作业答案 第1周到第7周全部 文章目录 前言 一.第1周 计算 1.温度转换 二.第2周 判断 1.时间换算 2.信号报告 二.第3周 循环 1.奇偶个数 2 ...

  2. 三十四、R语言数据分析实战

    @Author : By Runsen @Date : 2020/5/14 作者介绍:Runsen目前大三下学期,专业化学工程与工艺,大学沉迷日语,Python, Java和一系列数据分析软件.导致翘 ...

  3. 《R语言数据分析》——3.2 聚集

    本节书摘来自华章出版社<R语言数据分析>一书中的第3章,第3.2节,作者盖尔盖伊·道罗齐(Gergely Daróczi),潘怡 译,更多章节内容可以访问云栖社区"华章计算机&q ...

  4. 《R语言数据分析与挖掘实战》——3.2 数据特征分析

    本节书摘来自华章计算机<R语言数据分析与挖掘实战>一书中的第3章,第3.2节,作者 张良均,云伟标,王路,刘晓勇,更多章节内容可以访问云栖社区"华章计算机"公众号查看. ...

  5. 赠书!《R语言数据分析与可视化从入门到精通》

    专注系列化.高质量的R语言教程 R语言是一个自由.免费.源代码开放的编程语言和环境,是S语言的一个分支,多个操作系统都能方便且免费地使用它.R语言不仅具有众多经常更新的统计分析函数,还具有完整的编程功 ...

  6. R语言数据分析-练习题【学习总结20201030】[1-20]

    前言 1-20题 1.创建数据框 一般用data.frame,Python中也是,只不过是pd.DataFrame #######R语言数据分析############# ###1.创建数据框## d ...

  7. R语言数据分析120题

    文章目录 R语言数据分析120题 P1-20 1(创建数据框):将下面的字典创建为DataFrame 2(筛选行):提取含有字符串"Python"的行 整个 包含部分字符 3(查看 ...

  8. 《R语言数据分析》期末试题

    <R语言数据分析>期末试题 数据赋人工系统以智能.北邮<R语言数据分析>课程从问道.执具.博术三个方面,阐述机器学习/数据挖掘的方法论(道).编程工具R语言(具)以及经典算法模 ...

  9. R语言数据分析系列之五

    R语言数据分析系列之五 -- by comaple.zhang 本节来讨论一下R语言的基本图形展示,先来看一张效果图吧. 这是一张用R语言生成的,虚拟的wordcloud云图,具体实现细节请参见我的g ...

最新文章

  1. cacti 添加redis监控(远程服务器)
  2. Centos基础优化
  3. 七、Linux 常用 Shell 命令,控制台的快捷键以及 Shell 编程(上)
  4. python的learn_Python_learn_1day
  5. php mysql 测试页_mysql+php分页类(已测)
  6. 有了它,从此成为自带BGM的主角~
  7. css 图片换行_好程序员web前端学习路线分享CSS浮动-文档流篇
  8. HDU4405(期望DP)
  9. 2021-06-15
  10. wps下一步快捷键_WPS的快捷键有哪些
  11. 清除默认浏览器CSS样式
  12. 详解DAO类(数据库操作对象)
  13. 大学十年(一个程序员的路程)
  14. 上云一时爽,遇坑泪两行
  15. Just Like Heaven
  16. python定时发送qq消息_自动给qq好友发消息
  17. linux下安装drcom方法
  18. CNC系统G代码M代码大全
  19. 在javaweb中将excel表格导入存放数据库
  20. 功利性地去多读书 (现实版)

热门文章

  1. matlab限幅器无饱和怎么设置,基于MATLAB 的直流电动机双闭环调速系统的仿真研究...
  2. 凤凰牌老熊对支付的系统讲解
  3. PPmoney基于Kubernetes的DevOps实践
  4. java-pdf合并三种方法实现以及简单效率对比
  5. 【uniapp Uview】 IndexList用法 姓氏分组方法
  6. 最佳Android系统 | 运行在台式机、笔记本手提电脑的安卓Android系统
  7. ​抖音怎么养号容易热门,一机两卡养抖音号可以吗
  8. linux usb外接硬盘,在Linux系统上使用外置USB硬盘
  9. 项目实战-Medis测试用例
  10. 你应该知道的三相电机知识