《R语言数据分析》作业答案

数据赋人工系统以智能。北邮《R语言数据分析》课程从问道、执具、博术三个方面，阐述机器学习/数据挖掘的方法论（道）、编程工具R语言（具）以及经典算法模型（术）。通过课程的学习，可一起领悟数据分析之哲理、掌握模型算法之要义、提升工程实践之素养，推开人工智能的大门，为同学们在机器学习/数据挖掘领域登堂入室奠定基础。以下资料整理于该课程作业，供学习参考。

第1章：气象万千、数以等观

多选题

等号可以表示那些含义？(ABCD)

A.等同于 B.定义为 C.映射 D.联系

解析：

等号可以有很丰富的内涵，大部分的规律，通过数学语言表达时，都离不开等号。等号可以是简单的等同于、定义为，也可以是映射、联系。

判断题

1.对于照片中人的年龄识别，可以认为是将特征取值与人类可能的年龄划上了等号。（√）

解析：

机器学习中的有监督学习，本质上就是在自变量与因变量之间划等号。年龄识别属于有监督学习。

2.在玻意耳定律中，体积与压强(经过变换)之后划上了等号，表明二者质非相同，量却相等。（√）

解析：

划等号不只是表示“等同于”。质不相同、量却相等，体现的是事物之间的联系。

3.机器学习中的有监督学习，主要体现为在自变量与因变量之间划上等号。（√）

解析：

机器学习中的有监督学习，包括分类与回归，本质上都是在因变量与自变量之间划等号，即建立因变量与自变量之间的函数关系y=f(X)。

单选题

若要将邮件文本特征与是否是垃圾邮件划上等号，必须完成以下哪项工作？(B)

A.过滤垃圾邮件 B.建立模型 C.绘制词云 D.文本情感分析

解析：

文本特征不能直接与是否是垃圾邮件划上等号，需建立起特征与类别之间的模型y=f(X)

第2章：所谓学习、归类而已

判断题

1.分类是无监督学习的代表，聚类是有监督学习的代表。（×）

解析：

分类与聚类分别是有监督和无监督学习的代表。

2.一般认为，数据挖掘可以包含数据分析技术和数据管理技术。（√）

3.关联规则主要表现为项集之间的因果关系。（×）

解析：

关联规则表现为项集之间的伴随关系，而非因果关系。

4.聚类分析的结果主要表现为数据空间的距离结构。（√）

5.模型不在于构建，而在于选择。（√）

多选题

1.以下哪些行为可以视为归类行为？（AD）
A.识别火源
B.打开灭火器
C.喷射泡沫
D.确认火已扑灭

解析：

归类属于认知范畴，A和D属于根据特征做出判断的过程，可视为归类行为。B和C为一些具体动作行为，不能视为归类行为。

2.从认知的角度看，以下说法正确的是？（ABCD）
A.概念化是归类
B.学习是归类
C.感知是归类
D.决策是归类

3.机器所能学到的知识包括（ABD）
A.模式 B.模型 C.算法 D.函数

解析：

机器能学到的是某种关系结构，可以是模式、模型，函数是模型的主要表现形式之一，因此A、B、D正确。算法是学习过程，而非学习结果，因此C错误。

单选题

1.就逻辑推理方式而言，训练模型的过程属于（A）。
A.归纳 B.演绎 C.都是 D.都不是

2.就逻辑推理方式而言，将模型应用于预测的过程属于（B）。
A.归纳 B.演绎 C.都是 D.都不是

解析：训练的过程属于归纳，而预测的过程属于演绎。

3.为确保模型的有效性，需要采用数学的方法对算法习得的模型进行证明。（×）

解析：

为了验证模型的有效性，一般都是通过实验的方法，在测试集上测试其性能。模型的验证，以观测、实验为主，而非理论推导。

4.结构风险最小化策略，主要是为了提升模型在训练集上的性能指标。（×）

解析：

结构风险最小化策略，主要是为了提升模型的泛化能力。泛化能力一般通过测试集（而非训练集）上的性能指标来近似。

第3章：格言联璧话学习

判断题

1.所有的模型都是错的，但有些是有用的。(√)

2.无监督学习本身没有类标签，因此无法判断模型是否正确，也无需开展模型评估。(×)

解析：

无论是有监督学习还是无监督学习，都需要开展模型评估。以无监督学习中的聚类分析为例，可以通过轮廓系数等指标来衡量聚类的效果。

3.相关关系不能等同于因果关系。(√)

4.数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。(√)

5.在集成学习中，单个分类器一般称之为弱分类器，组合分类器称之为强分类器。(√)

6.数据密集型科学发现是一种新的范式，无需掌握机理模型，也无需了解业务背景。(×)

解析：

业务敏感是第一位的，任何一个成功的数据分析项目，都离不开对业务背景的深入了解。

第4章：源于数学、归于工程

判断题

1.数学是研究模式的科学。(√)

2.在最近邻法中，每个训练样本的势力范围是半径为r的球体。(×)

解析：

在最近邻法中，每个训练样本的势力范围是由平面围成的空间，非球状。

3.近邻法分类的基本原理是根据数据空间中距离的远近，将测试点分配至不同的类中心。()

解析：

近邻法是根据身边k个训练样本点的标签，按照多数决策原则给测试样本点打标签，不存在类中心的概念。kMeans聚类过程中，则是根据离类中心距离的远近，将每一个点分配至不同的类中心。

4.决策树的构建过程，主要是通过属性取值不同，对空间进行细分，在细分空间中标签足够纯，从而实现分类。(√)

5.随机森林的总体结构依然是一棵决策树，树的分枝又由若干棵决策树构成。(×)

解析：

随机森林是组合学习模型，由若干棵决策树构成。集成的过程采用多数表决或是取平均值的方法，而非一棵总的决策树。

6.朴素贝叶斯分类器是将特征属性的取值作为新的证据，对对象所属类别的先验概率进行调整，从而实现分类。(√)

7.逻辑斯蒂回归模型可以作为神经网络的计算节点。(√)

8.支持向量机是在特征张成的数据空间中，通过分类超平面实现类别的划分。(√)

9.对于特定情境的建模问题，正确的答案、正确的模型应该是唯一的。(×)

解析：

对于同一个问题情境，一般都会尝试不同的模型。我们所能做的，只是在当前已经尝试过的模型中，找到性能指标比较好的那个，未来也可能会有更多更好的模型。所以不存在所谓的唯一正确的模型。

多选题

以下属于有监督学习算法的有(AC)
A.近邻法 B.k-均值 C.随机森林 D.孤立森林

解析：

k均值和孤立森林，都属于无监督学习算法。近邻法kNN和k均值kMeans名字上有点类似，但二者本质上完全不同。

第5章：工欲善其事、必先利其器

判断题

1.R是一个数据分析和绘图的环境。(√)

2.R只适合传统统计，不适合机器学习和数据挖掘等任务.(×)

3.大部分数据科学团队，都同时使用两种以上的工具，如R和Python。(√)

第6章：基础编程——用别人的包和函数讲述自己的故事

单选题

1.以下选项中，不包含在CRISP-DM数据处理流程中的是©
A.数据理解 B.建模 C.推理 D.评估

解析：

CRISP的六个步骤分别为：业务理解、数据理解、数据预处理、算法建模、模型评估、部署应用

多选题

1.R代码的组成部分有(ABC)
A.数据对象 B.函数调用 C.注释 D.变量定义

解析：

在R中，变量无需定义

2.R里边的循环结构有哪些实现方式(ABD)
A.for B.while C.until D.repeat

解析：

无until这一关键词。

3.欲查询if的帮助文档，正确的语句是(ACD)
A.help(‘if’) B.?if C.?‘if’ D.?“if”

解析：

对于特殊的函数if或是+等，通过help()或是单引号、双引号、反单引号查找帮助文档。

4.与1+1等价的语句有(ABD)
A.‘+’(1, 1) B.“+”(1, 1) C.%+%(1, 1) D.+(1,1)

解析：

二元操作符+是特殊的函数，可以改写为函数调用的方式，此时需采用双引号、单引号或反单引号。

判断题

1.R编码的基本过程可以概括为“利用别人的包和函数，讲述自己的故事”。(√)

2.repeat循环体中必然有一条next语句，否则会形成死循环。(×)

解析：

repeat循环体中必然有一条break语句，next语句只是中断本轮循环并跳转至下一轮循环。若repeat语句中仅有next而无break，依然是死循环。

3.magrittr扩展包中的管道操作符lhs%>%rhs是一个函数，lhs和rhs分别为一个数据对象及函数对象。(√)

4.泛型函数可以根据对象所属类型的不同，执行不同的操作。(√)

5.常见的+属于泛型函数，ggplot2扩展包对其进行了扩展。(√)

第7章：数据对象——面向数据对象学习R语言

多选题

1.对于向量x <- c(first = 1, second = 2, third = 3), 合法的访问方式有(ACD)
A.x[c(1, 2, 1, 3)] B.x[c(-1, 2, 3)] C.x[c(-1, -3)] D.x[c(‘first’, “third”)]

解析：

正整数、负整数都可以用作下标，但不能混用。

2.可以作为矩阵M的列下标的是(ABCD)
A.落入区间[1, ncol(M)]的正整数
B.落入区间[-ncol(M), -1]的负整数
C.长度为ncol(M)的逻辑向量
D.由names(M)中元素组成的字符向量.

3.对于列表my_list的第一个组成部分partA，以下描述正确的是(BCD)
A.语句my_list[‘partA’]与my_list[[‘partA’]]等价
B.语句my_listpartA与mylist[[1]]等价C.语句mylist[[1]]与mylist[[′partA′]]等价D.语句mylistpartA与my_list[[1]]等价 C.语句my_list[[1]]与my_list[['partA']]等价 D.语句my_listpartA与mylist[[1]]等价C.语句mylist[[1]]与mylist[[′partA′]]等价D.语句mylistpartA与my_list[[‘partA’]]等价

解析：

单层[]为列表，双层[[]]为组成部分本身，二者有本质区别。

单选题

1.语句1:10 - 1:3的结果是(A)
A.0 0 0 3 3 3 6 6 6 9
B.0 0 0 4 5 6 7 8 9 10
C.0 1 2 2 3 4 4 5 6 9
D.语法错误，无结果

解析：

在进行向量化运算时，若长度不等，则采取循环补齐的方式进行，相当于1:10 - c(1:3, 1:3, 1:3, 1)。

2.语句sort(c(3, 1, 4, 1, 5, 9, 2, 6))的结果是(A)
A.1 1 2 3 4 5 6 9
B.9 6 5 4 3 2 1 1
C.6 8 5 3 1 7 2 4
D.2 4 7 1 3 5 8 6

解析：

sort()函数默认是对值进行从低到高排序。

3.语句order(c(3, ‘.’, 1, 4, 1, 5))的结果是(D)
A.“.” “1” “1” “3” “4” “5”
B.“5” “4” “3” “1” “1” “.”
C.6 4 1 3 5 2
D.2 3 5 1 4 6

解析：

先进行强制类型转换，然后按照从低到高的顺序取下标。

4.用以表征等级、规模的变量，属于以下哪种变量(B)
A.定类变量 B.定序变量 C.定距变量 D.定比变量

解析：

定序变量，有高下优劣之分，但不能比较差别。

5.若字符向量partA是列表my_list的第1个组成部分，那么my_list[1]的结果是(A)
A.列表对象 B.字符对象 C.序号对象 D.空对象

解析：

单个[]依旧是列表，[[]]才是组成部分本身。

6.在R语言数据建模中，用得最多的数据对象是(D)
A.向量 B.列表 C.因子 D.数据框

解析：

data.frame是R中最常用的数据对象。

7.要将数据框df(包含3列)的第2列和第3列调换位置，正确的代码是(A)
A.df <- df[, c(1, 3, 2)]
B.df[, c(1, 3, 2)]
C.df <- df[c(1, 3, 2), ]
D.df[c(1, 3, 2),]

解析：

选项B产生的是临时对象；选项C/D为数据框的行操作。

判断题

1.利用R语言进行有监督学习，若将其视为分类问题对待，则因变量一般要转换为因子。(√)

解析：

分类问题要求因变量为类别变量，即因子。

2.无论外部数据是图片、音频还是文本，均可转换为向量/因子/矩阵/数组/列表/数据框中的某种类型之一。(√)

解析：

万法归宗，若通过R语言开展机器学习与数据挖掘，绝大部分时候都需要转换成这六种数据对象之一。

3.数组对象可通过array()函数创建。(√)

解析：

R中的数组对象主要是通过array()函数创建。

第8章：人人都爱tidyverse

判断题

1.magrittr扩展包中的管道操作符，x %>% f %>% g表示f(g(x))。(×)

解析：

x %>% f %>% g表示g(f(x))。

2.x %>% f(y, z, .)等价于f(x, y, z)。(×)

解析：

x %>% f(y, z, .)等价于f(y, z, x)，若x不是第一个参数，则用点号.指代。

3.x %>% tail(n=3)等价于tail(x, n = 3)。(√)

解析：

第一个参数默认为管道操作符%>%的左侧参数x，其余参数如n=2照常传递。

4.df %>% select(1:3) %>% tail(n = 3) 表示选取数据框df的前三列后三行。(√)

解析：

两个管道操作，前一个操作为选取df的前三列，第二个管道操作为继续选取其后三行。

5.df %>% mutate(sum3 = rowSums(.[1:3]))表示基于df产生一个临时对象，该对象比数据框df多一列sum3，且sum3为df前三列之和。(√)

6.tidyr::spread()的功能是将长的数据变为宽的数据。(√)

解析：

spread()函数将长数据变宽，伸展开来。

7.tidyr::gather()的功能是将宽的数据变为长的数据。(√)

解析：

gather()函数将宽数据变长，将“远处”数据收集过来并垒成长数据。

8.宽数据变为长数据，将由之前的若干列变为两列。(√)

多选题

1.以下代码中，表示将数据框df按照其中的col1列从高到低进行排序的是(AC)
A.df %<>% arange(desc(col1))
B.df %<>% arange(col1)
C.df %>% arange(desc(col1)) -> df
D.df %>% arange(desc(col1))

解析：

df%<>% 或是 ->df才能改变df本身，desc()表示从高到低进行排序。

2.在dplyr扩展包中，列操作的函数有(AB)
A.select() B.mutate() C.filter() D.arrange()

解析：

select()/mutate()为列操作，filter()/arrange()为行操作。其中，select()表示选择某些列，mutate()表示新增或修改某些列。

3.在dplyr扩展包中，行操作的函数有(CD)
A.select() B.mutate() C.filter() D.arrange()

解析：

select()/mutate()为列操作，filter()/arrange()为行操作。其中，filter()表示选择符合某些条件的记录/行，arrange()表示对记录/行进行排序。

单选题

1.分组之后进行summarise(freq = n())，此处的freq表示(A)
A.每组的记录数 B.总的记录数 C.每组的列数 D.总的列数

解析：

函数n()表示计算本组记录数。

2.对于一个100×8的数据框，若将其中的5列数据由宽变长，变换之后的数据框的行列数分别为©。
A.100行8列 B.500行8列 C.500行5列 D.100行5列

解析：

8列中的5列变为2列，加上其余的3列，共5列；原来的1行变为5行，共500行。

第9章：最美不过数据框

多选题

1.数据框中的列，可表达的含义有(ABCD)
A.属性 B.特征 C.数据空间的维度 D.变量

解析：

数据框中的列，从数据库的角度讲，是字段；从统计的角度讲，是变量；从机器学习的角度讲，是属性、特征；从数据空间的角度讲，是空间的维度。

2.数据框中的行，可表达的含义有(ABCD)
A.样本 B.观测记录 C.特征向量 D.数据空间中的数据点

解析：

数据框中的行，从数据库的角度讲，是记录；从统计的角度讲，是样本；从机器学习的角度讲，是特征向量；从数据空间的角度讲，是空间中的点。

3.数据框中蕴含的关系结构包括(ABCD)
A.映射关系 B.距离关系 C.伴随关系 D.相关关系

解析：

数据框是R算法建模过程中，最常用的数据对象，其中蕴含各类关系结构，包括映射关系、距离关系、伴随关系、相关关系、拓扑关系等。

判断题

1.数据框可视为函数的三种表达方式之一——列表法。(√)

解析：

数据框可视为函数的列表法，其中的某些列作为自变量，某些列作为因变量

2.数据框的每一行，表现为数据空间中的一个点。(√)

3.数据空间中的列，可以作为数据空间的维度。(√)

4.数据框中的自变量，一般都表现为数据空间的维度，而因变量的取值（如类别），一般表现为数据点的标签。(√)

第10章：观数以形

单选题

1.在R语言中，茎叶图可通过以下哪个函数实现(A)
A.graphics::stem()
B.graphics::barplot()
C.graphics::boxplot()
D.graphics::hist()

解析：

barplot()为柱状图，boxplot()为箱线图，hist()为直方图

。

2.在ggplot2绘图系统中，通过以下哪个函数绘制概率密度图(A)
A.geom_density B.geom_point C.geom_step D.geom_hist

解析：

geom_point()绘制散点图；geom_step()绘制梯级图；geom_hist()绘制直方图。

3.可直接用来计算相关系数的函数是(A)
A.stats::cor() B.stats::cov() C.stats::dist() D.stats::density()

解析：

cov()用以计算协方差，dist()用以计算距离，density()用以估算概率密度。

4.层峦叠嶂图属于何种分组图形(B)
A.分组箱线图 B.分组概率密度图 C.分组直方图 D.分组茎叶图

解析：

层峦叠嶂图的本质是分组概率密度图。

判断题

1.在ggplot绘图系统中，几何映射geom与统计变换stat是成对出现。(√)

解析：

geom_XXX()中一般包含stat统计变换过程，stat_XXX()函数同样包含geom几何映射过程，二者可互相替代。

2.箱线图通过分位数来刻画数据的分布。(√)

3.数据空间的密度，可定义为单位体积内数据的质量。(×)

解析：

数据空间的密度，主要指密集程度，与物理学中的密度不同。

4.在计算Hopkins统计量时，随机抽取的点的个数，一般接近于记录数。(×)

解析

在计算Hopkins统计量时，随机抽取的点的个数，一般远远小于记录数，如取0.1×N或0.05×N

多选题

1.在箱线图中，符合以下哪些条件的数据被视为异常数据(ABC)
A.大于Q3+1.5IQR
B.小于Q1-1.5IQR
C.处于上边界或下边界之外的数据
D.处于中位数附近的数据
解析：
一般视中位数为“最正常”的数据，中位数附近为正常数据，因此选项D错误。

2.哪些统计量可用来刻画数据的分散程度(ABC)
A.极差 B.四分位距 C.标准差 D.中位数

解析：

用以量化数据的分散程度，可以用极差、标准差、方差等；用以量化数据的集中趋势，可以用中位数、均值、众数等。

第11章：相随相伴、谓之关联

判断题

1.关联分析（Association Analysis）用于发现隐藏在大型数据集中有意义的联系，所发现的联系可以用频繁项集或关联规则的形式表示。(√)

解析：

关联分析的两种主要联系为频繁项集和关联规则。

2.项集出现的频度是包含该项集的事务数，简称为项集的支持度。(×)

解析：

出现的频数称之为支持度计数，所占比例或者说出现的概率，称之为支持度。

3.如果项集的支持度满足预定义的最小支持度阈值，称之为频繁项集。(√)

解析：

项的集合称之为项集，出现次数足够频繁的项集称之为频繁项集。

4.规则X→Y的置信度定义为P(Y|X)。(√)

解析：

置信度定义为条件概率P(Y|X)。

5.Apriori算法所基于的先验性质是：非频繁项集的超集必定是非频繁的。(√)

解析：

Apriori中的先验法则是：频繁项集的子集必定是频繁的，非频繁项集的超集必定是非频繁的。

6.如果规则X→(Y-X)不满足置信度阈值，则规则X’→(Y-X’)的规则也一定不满足置信度阈值，其中X为X’的真子集。(×)

解析：

仅当X’为X的真子集时满足：如果规则X→(Y-X)不满足置信度阈值，则对于X’→(Y-X’)的规则也一定不满足置信度阈值。

7.满足最小支持度和置信度要求的规则X→Y是强规则，意味着X的出现有助于促进Y的出现。(×)

解析：

若提升度小于1，则表明二者依然是负相关关系，尽管X→Y是强规则。

8.若要通过arules::apriori挖掘若干连续变量之间的关联关系，通常需要对这些变量进行离散化处理。(√)

解析：

apriori()用于挖掘项集之间的关联关系，因而首先需要将连续变量离散化为项item。

9.apriori算法采用逐层递进的方法生成频繁项集。若事务记录中共有N个项，则首先查找频繁的N项集，在此基础上查找频繁的N-1项集候选，逐层递进。(×)

解析：

方向相反，应是从频繁的1项集开始进行筛选。

10.在Apriori算法中，需要先生成关联规则，然后才可以生成频繁项集。(×)

解析：

一般是先生成频繁项集，在此基础上一分为二生成关联规则。

11.支持度用以减少偶然性，置信度用以增加推断能力。因此，支持度设为0.8，置信度设为0.01是一个合理的参数设置。(×)

解析：

在具体工程实践中，支持度一般设置较小，可能小于1%；置信度代表推断能力，应设置为较高的值，一般在70%以上。

12.设I={I1, I2, I3, I4, I5}，若频繁3-项集为{I1, I2, I3}, {I1, I2, I4}，则可以将{I1, I2, I3, I4}作为频繁的4-项集候选。(×)

解析：

{I1, I2, I3, I4}包含非频繁的子集{I2, I3, I4}以及{I1, I3, I4}。

13.由于Apriori在挖掘规则的过程中，已经设置了支持度和置信度，因此对于挖出的规则无需进行评估。(×)

解析：

仅有支持度和置信度，并不能判定为有效规则。一般而言，若提升度小于等于1，依旧视为无效规则。

14.若规则X→Y大于预先定义的最小支持度阈值和最小置信度阈值要求，则表明Y伴随X出现，X与Y是正相关关系。(×)

解析：

仅当提升度大于1时，二者才表现为正相关关系。

15.规则X→Y所表示的只是伴随关系，而非因果关系，即：X伴随着Y的出现而出现。(×)

解析：

该规则确实只是表示伴随关系而非因果关系，但准确的说法应该是Y伴随着X的出现而出现。

16.在支持度、置信度框架之下，FP-Growth等算法，可以挖出比Apriori算法更多更好的规则。(×)

解析：

在支持度和置信度框架之下，不同的挖掘算法仅体现在效率上有所不同，所挖出的关联规则并无区别。

单选题

1.在Apriori算法中，在得到频繁的k-1项集之后，通过以下哪种连接方法，生成k-项集候选©
A.所有的k-项集都看做可能的候选集
B.通过频繁的k-1项集和频繁的1项集连接生成频繁的k-项集候选
C.通过合并一对频繁的k-1项集生成频繁的k项集候选
D.以上都不是

解析：

效率最高的连接方式是将两个频繁的k-1项集合并。

多选题

1.对于规则X→Y和规则Y→X，相同的度量指标是(AC)
A.支持度 B.置信度 C.提升度 D.因果置信度

解析：

两条规则的支持度和提升度是相同的，而置信度和因果置信度具有方向性。

第12章：既是世间法、自当有分别

判断题

1.分类与回归的核心任务是建立函数关系y=f(X)，若y为数值变量，称之为回归；若y为类别变量，称之为分类。(√)

2.随机森林建模过程中，通过有放回的抽样方法得到自助样本，样本大小一般是原数据集的36%左右。(×)

解析：

随机森林过程中通过有放回的重采样方法，样本大小与原数据集大小一致，但有36%左右的数据不被抽到。

3.在朴素贝叶斯分类器中，假定特征之间相互独立。(√)

解析：

为方便计算，假定特征相互独立，因而称之为朴素贝叶斯。

4.贝叶斯公式p(y|X) = p(y) * (p(X|y) / p(X))用以分类，可将p(X|y) / p(X)视为X出现时对于y的提升程度。(√)

解析：

该计算方法与关联规则提升度一致。

5.逻辑斯蒂回归可以视为广义线性模型，其连接函数为logit函数。(√)

解析：

逻辑斯蒂回归模型在R中的最基本的实现，便是采用广义线性模型glm()函数。

11.在神经网络训练过程中，为了实现节点间权值的迭代优化，需要利用本节点的输出与实际值的偏差信息。(×)

解析：

非本节点的偏差信息，而是最终输出层的偏差信息。

12.对于线性可分但存在噪声点数据的情形，支持向量机通过引入松弛变量的方法进行处理。(√)

多选题

1.以下关于近邻法的描述，正确的是(ABCD)
A.近邻法是惰性学习方法
B.测试记录的标签，取决于训练集中离得最近的k条记录
C.若近邻数k=1，称之为最近邻法
D.邻近性可通过欧氏距离、曼哈顿距离等不同的指标进行度量

2.决策树建模过程中，常用的不纯度指标有(ABCD)
A.分类错误率 B.Gini指数 C.信息增益 D.增益率

3.以下用于rpart树模型可视化的函数有(BCD)
A.rpart::predict.rpart()
B.rpart.plot::rpart.plot()
C.rpart::plot.rpart()
D.rpart::text.rpart()

解析：

predict.rpart()用以模型预测，后三项为模型可视化函数。

4.在R语言中，可用以支持向量机建模的函数有(AC)
A.kernlab::ksvm()
B.stats::glm()
C.e1071::svm()
D.kknn::kknn()

解析：

ksvm()和svm()均可用以训练支持向量机，glm()为广义线性模型，kknn()为加权近邻法。

单选题

解析：

naiveBayes()实现的是朴素贝叶斯算法，hclust()实现的是层次聚类，nnet()实现的是神经网络算法。

第13章：方以类聚、物以群分

判断题

1.聚类分析将对象分成不同的簇，使得簇内对象彼此相似，簇间对象彼此相异。(√)

2.聚类属于无监督学习，和分类不同，需要在预先不知道分类的情况下，将数据划分成有意义或有用的簇，捕获数据的自然结构。(√)

3.欲判断数据是否适合聚类，可计算相应的Hopkins统计量。一般而言，Hopkins统计量接近于0.5，更适合开展聚类分析。(×)

解析：

Hopkins统计量接近于0.5，表明数据点呈现均匀分布，不适合聚类。

4.综合考虑凝聚性和分离性，可采用轮廓系数silhouette coefficient评估聚类结果。(√)

5.在k-Means建模过程中，若通过轮廓系数来优选k的取值，则轮廓系数最小的k值，为最优k值。(×)

解析：

轮廓系数越大，聚类效果越好，此时相应的k最优。

6.层次聚类hierarchical clustering在不同层次上对数据集进行划分，通过树状图dendrogram来表征对象的远近关系。(√)

7.自下而上的层次聚类方法，其基本过程是每一次合并最接近的两个簇，直至仅剩下一个簇。(√)

8.DMwR::outliers.ranking()算法基于层次聚类进行异常检测，其核心原理是离群值不易于合并，被合并时其所属类的大小与另一个合并的类相比，差别较大。(√)

多选题

1.以下属于数据标准化方法的有(ABC)
A.min-max标准化
B.z-score标准化
C.正项序列归一化
D.连续数据离散化

解析：

离散化并非数据标准化方法。

2.计算轮廓系数时，至少需要给定的两个参数是(AC)
A.对象之前的距离
B.聚类所采用的方法
C.对象所属的类
D.类中心的位置

解析：

计算轮廓系数，既要知道点之间的距离，同时需要知道每一个点所属的类，至于聚类的方法和类中心，则无需明确。

3.在R语言开源生态中，与kMeans算法相关的函数有(ABC)
A.stats::kmeans() B.fpc::kmeansruns()
C.fpc::kmeansCBI() D.kknn::kknn()

解析：

选项D为加权近邻法，为有监督学习方法。

4.簇之前的距离基于点之间的距离进行计算，具体可以包括(ABCD)
A.最小距离 B.最大距离 C.平均距离 D.均值距离

解析：

簇之间的距离可以定义为两个簇点对的最小距离、最大距离、平均距离，也可以定义为两个簇质心的距离（均值距离）。

单选题

R语言中可直接用于数据标准化的函数有(B)
A.base::mean() B.base::scale() C.stats::sd() D.e1071::kurtosis()

解析：

mean()函数用以求平均值，sd()函数用以求标注差，kurtosis()函数用以求峰度。

第14章：庐山烟雨浙江潮

单选题

1.适合于形容"发现历史数据背后的规律"的特点的成语是(B)
A.往者不可谏、来者犹可追
B.万物并作、吾以观复
C.橘生淮南则为橘、生于淮北则为枳
D.南来北往

3.适合于形容"聚类分析"的特点的成语是(A)
A.物以类聚、人以群分
B.取长补短
C.绳锯木断、水滴石穿
D.泰山不让土壤、故能成其高

5.适合于形容"模型泛化与迁移"的特点的成语是(A)
A.橘生淮南则为橘、生于淮北则为枳
B.千羊之皮、不如一狐之腋
C.泰山不让土壤、故能成其高
D.众愚不如一贤

7.适合于形容"特征选择不当"的特点的成语是(A)
A.缘木求鱼、问道于盲
B.千锤打锣、一锤定音
C.豪末不掇、将成斧柯
D.种瓜得瓜、种李得李

8.适合于形容"垃圾数据未清理"的特点的成语是(B)
A.一手独拍、虽疾无声
B.鱼目混珠、混淆视听
C.差之毫厘，谬以千里
D.尺蚓穿堤、能漂一邑

多选题

1.属于明显的"特征提取与分类"行为的是(ABCD)
A.见貌辨色、揣骨听声
B.看云识天气
C.确认过眼神、遇上对的人
D.望闻问切