CDA Level Ⅲ 模拟题（一）

单选1
练习题【单选题】1/20
数据挖掘结合了数据库、人工智能、机器学习、统计学、高性能计算、模式识别、神经网络、数据可视化、信息检索和空间数据分析等多个领域的理论和技术。关于数据挖掘下列说法不正确的是（）

A.数据挖掘能够从海量信息中发现有价值的信息，并把数据转化成有组织的知识
B.数据挖掘是在大型数据存储库中，自动地发现有用信息的过程
C.数据挖掘需要数据库系统提供有效的存储、索引和查询处理支持。
D.数据挖掘并不需要并行、分布式计算
D
数据量大的时候，单机计算资源不够，需要并行、分布式计算

2/20
数据挖掘起始于20世纪下半叶，是在当时多个学科发展的基础上发展起来的。关于数据挖掘的发展历程，下列何者是正确的（A：数据统计；B：数据挖掘；C：数据查询；D：数据搜集）？

A.D→C→A→B
B.A→B→C→D
C.D→A→C→B
D.C→D→A→B
A
数据挖掘的发展历程经过数据搜索、数据查询、数据统计、数据挖掘。

3/20
知识发掘处理（Knowledge Discovery Process）的执行顺序，下列何者是正确的（A：数据清洗；B：数据选择；C：数据编码；D：数据扩充；E：数据挖掘；F：结果呈现）？

A.D→C→A→B→E→F
B.A→B→C→D→E→F
C.D→A→C→B→E→F
D.B→A→D→C→E→F
D暂无答案解析

4/20
数据准备方法是在评估模型性能之前对整个数据集进行处理，这会导致数据泄漏的问题，而在数据清洗过程中（缺失值、异常值），以下哪个叙述是正确的？

A.运用验证数据集中变量的统计量对训练集中的变量进行数据清洗
B.运用验证数据集中变量的统计量对验证集中的变量进行数据清洗
C.运用训练数据集中变量的统计量对验证集中的变量进行数据清洗
D.以上均不对
C
A和B选项会导致在使用训练集训练模型过程中，把验证集的数据特征“泄露”给训练集。因此A和B项都是不准确的，而C选项是没有这个问题。

5/20
在KNN算法上进行预测概率的推估时，会采用哪一种方法，以保证每一类的预测概率不为0
A.数据正规化(Data Normalization)
B.拉普拉斯修正法(Laplace Correction)
C.数据一般化(Data Generalization)
D.以上皆非
B
暂无答案解析

6/20
很多研究问题时常常需要估算不同样本之间的相似性度量(Similarity Measurement)，这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究，甚至关系到分类的正确与否。两个点在标准坐标系上的绝对轴距总和指的是？

A.欧氏距离
B.曼哈顿距离
C.汉明距离
D.杰卡德距离

B

无监督学习和监督学习是机器学习最基本的两种类型,下列哪些算法属于无监督学习（Unsupervised Learning）的算法？

A.CART
B.Apriori
C.ARIMA
D.Bayes Net
B
Apriori算法是关联规则挖掘算法，它利用逐层搜索的迭代方法找出数据库中项集的关系，以形成规则

8/20
不类型的机器学习模型，所使用的模型评价指标也有所不同。一般情况下，以下哪些指标不用于聚类模型评价

A.正确率Accuracy
B.簇间不相似度
C.ARI
D.轮廓系数Silhouette Coefficient

A
聚类模型是无监督学习，没有正确率评价指标

9/20
关联规则挖掘的目的是在数据项目中找出所有的并发关系,以下可用作数据挖掘分析中的关联规则算法有（）

A.决策树、对数回归、关联模式
B.K均值法、SOM神经网络
C.Apriori算法、FP-Tree算法
D.RBF神经网络、K均值法、决策树
C
关联规则是形如X→Y的蕴涵式，其中， X和Y分别称为关联规则的先导(antecedent或left-hand-side, LHS)和后继(consequent或right-hand-side, RHS) 。其中，关联规则XY，存在支持度和信任度。

10/20
数据泛化把较低层次的概念用较高层次的概念替换来汇总数据。以下对于数据泛化描述错误的是：

A.数据泛化针对的对象是类别型字段
B.用老、中、青分别代替（20-35，36-50，51-70）的年龄区间值
C.用省代替市是一种数据泛化
D.将连续的年龄值变成区间范围是数据泛化
D
数据泛化：把较低层次的概念用较高层次的概念替换来汇总数据。数据泛化就是类似于将广州市，东莞市都转换成广东省，因此D是错误的

XGBoost是"极端梯度提升"(eXtreme Gradient Boosting)的简称，下面关于Xgboost算法描述错误的是
A.Xgboost是在GBDT的基础上改进而来的
B.Xgboost是一个提升算法
C.Xgboost中的基分类器只能是树模型
D.GBDT在模型训练时只使用了代价函数的C
一阶导数信息，XGBoost对代价函数进行二阶泰勒展开
Xgboost基分类器可以是线性模型，因此C是错误的
12/20
随机森林（Random Forest，简称RF）拥有广泛的应用前景，从市场营销到医疗保健保险，既可以用来做市场营销模拟的建模，统计客户来源，保留和流失，也可用来预测疾病的风险和病患者的易感性。以下关于随机森林描述中错误的是:
A.随机森林是一种集成算法
B.随机森林是有多棵决策树共同构成
C.随机森林算法通常可以防止过拟合
D.随机森林算法中的基分类器都是回归树
D
随机森林用于分类时，基本类器是分类树。

13/20
特征工程是将原始数据转化为特征的过程,这些特征可以更好地向预测模型描述潜在问题,从而提高模型对未见数据的准确性。以下不属于特征工程的涵盖范围的是
A.特征转换
B.特征储存
C.特征选择
D.特征学习
B
特征工程中没有特征储存，其他都是特征工程的内容

14/20
常见的缺失值填充方法有填充默认值、均值、众数等方式。下面可以对分类变量的缺失值填充的方法是？
A.均值
B.中位数
C.众数
D.最小值
C
除了众数，其他统计值在分类变量中不存在

15/20
特征缩放是对输入数据进行标准化/标准化所需的重要预处理之一。关于min-max特征缩放的描述错误的是：
A.会将数据缩放到0-1范围之内
B.如果数据存在异常值，数据缩放效果很可能不好
C.作用是将不同量纲数据的量纲进行统一
D.缩放后数据标准差为1
D
min-max将数据缩放到0-1，但是标准差不能控制

16/20
逆向文本频率（inversedocument frequency，IDF）是一个词语普遍重要性的度量。在关键词的撷取中为什么要引入逆向文本频率IDF呢？
A.在越多的文章中出现过，说明重要性越高，则进行加权
B.在越多的文章中出现过的次数越多，说明对我们的分析和统计没什么帮助，利用该数值进行降权
C.一个词在一篇文章中出现的次数越多，说明越重要，利用该指数进行加权
D.一个词如果是常用词，则统计时说明很重要，进行加权
B
逆向文本频率idf，就是在越少的样本中出现，权重越高

17/20
卡方检验是检验定性自变量对定性因变量的相关性，卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度，以下关于卡方检验的描述中错误的是
A.实际观测值与理论推断值之间的偏离程度就决定卡方值的大小
B.卡方值越大，说明实际观测值和理论推断之偏差程度越大
C.卡方检验是一种假设检验
D.卡方检验主要针对连续变量
D
卡方检验是针对分类型变量进行检验的

18/20
以下关于递归特征消除法的描述中错误的是
A.递归消除特征法使用一个基模型来进行多轮训练，每轮训练后，消除若干权值系数的特征，再基于新的特征集进行下一轮训练。
B.RFE的稳定性很大程度上取决于迭代时底层用的哪种模型
C.递归特征消除法就是对所有特征进行遍历删除不符合条件的，保留符合条件的
D.如果在迭代时使用未正则化的LR模型，那C
么递归特征消除法也是不稳定的
不是对所有特征进行遍历，而是通过模型训练找出系数比较小的特征删除

19/20
使用带L1惩罚项的逻辑回归模型进行特征选择，以下选择中错误的是：
A.L1惩罚项的逻辑回归模型倾向于筛选出比较少的特征
B.L1惩罚项降维的原理在于保留多个对目标值具有同等相关性的特征中的一个
C.相比较树模型，L1惩罚项的逻辑回归选择出的特征不具有线性相关性
D.是嵌入法中的一种
C
L1惩罚项的逻辑回归选择出的特征有可能具有线性相关性

20/20
现实中往往很多数据是线性不可分的,因此我们需要引入核函数把数据映射到高纬度而达到线性可分。KPCA成为核主成分分析，核主成分分析解决了PCA存在的什么问题？
A.PCA的最大化方差理论有时候不适用
B.PCA是一种线性降维方法，无法挖掘非线性关系
C.核主成分分析更加复杂因此效果更好
D.核主成分分析中的特征值计算更加快速
B
添加了核的核主成分分析可以挖掘非线性关系，而PCA不能

单选2
练习题【单选题】1/20
在PCA的转换过程中，用到了协方差，以下关于协方差的描述正确的是：
A.协方差可以表示两个变量之间的互信息
B.协方差为0时，代表两个变量完全独立
C.协方差可以表示两个变量的相关性
D.协方差大，意味着两个数字之间存在相关关系越大
A
协方差可以表示互信息，但是不能表示相关性，因为可能受到变量方差的影响
2/20
在PCA的计算步骤过程中，有一步是将特征向量按对应特征值大小从上到下按行排列成矩阵，这里特征值代表了什么
A.特征值代表了特征和原特征的相关性大
B.特征值代表了对应特征的方差小
C.特征值代表了对应特征的方差大
D.特征值代表了对应特征的方差比较平稳，所以信息量大
C
特征值就是代表了对应特征的方差大小
3/20
监督特征学习中，被标记过的数据被当做特征用来学习，以下不属于监督特征学习的是：
A.神经网络
B.多层感知器
C.监督字典学习
D.矩阵分解
D
矩阵分解是无监督学习模型，其他属于监督学习模型
4/20
在自然语言处理中常常使用词嵌入法，所谓词嵌入法，是将文本转换为较低维度空间的矢量表示。以下描述中错误的是：
A.词嵌入法中的常用方法为tf-idf
B.是指将一个词语(word)转换为一个向量 (vector)表示
C.所谓 word2vec，是指学习一个映射f，它可以将单词变成向量表示: vec = f(word)
D.词嵌入英文名称为word2vec
A
词嵌入法不是tf-idf

5/20
信息撷取与检索(Information Extraction & Retrieval)及文本挖掘(Text Mining)的基础是？
A.文本分析
B.文本检索
C.文本查询
D.文本拼接
A
文本分析(Text Analysis)是指对文本的表示及其特征项的选取；它将文本中所抽取出的特征词进行量化，进而表示其文本信息。是信息撷取与检索(Information Extraction & Retrieval)及文本挖掘(Text Mining)的基础。
6/20
Word2vec，是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练以重新建构语言学之词文本。关于word2vec模型，下面说法不正确的是：
A.得到的词向量维度小，可以节省存储和计算资源
B.考虑了全局语料库的信息
C.无法解决多义词的问题
D.可以表示词和词之间的关系
B
文本表示的目的是把文本预处理后的转换成计算机可理解的方式。它的发展过程是从One-Hot编码的词集模型（统计各词在文本中是否出现）->CountVectorizer、IF-IDF这样的词袋模型（考虑了词频、词的重要性，但是会出现词表膨胀的问题）->word2vec、GloVe模型这样的词嵌入模型（将各词映射为实数域上的向量，词向量之间的几何关系表示词之间的语义关系；降低了词向量维度）。因此A、D正确。 word2vec的skip-gram、CBOW这两种模型每次都是用一个窗口中的信息更新出词向量，而Glove才是用全局的信息（共线矩阵），也就是多个窗口进行更新的模型。所以B不正确。但是Word2Vec、GloVe模型都不能有效表示自然语言中广泛存在的多义词的问题，因此才有后来的ELMO模型。所以C选择正确
7/20
汉语自动分词是中文信息处理的重要基石.困扰汉语自动分词发展的原因有很多,对歧义字段的排除是亟待解决的几个难题之一。以下哪一项不属于针对多义词的歧义排除经典算法？
A.基于规则的算法
B.基于概率统计模型的算法
C.规则和统计相结合的算法
D.基于协同过滤算法
D
针对多义词的歧义排除经典算法有
• 基于规则的算法
• 基于概率统计模型的算法
• 规则和统计相结合的算法
8/20
全文扫描、逐项反转、签名文件是信息检索技术中的基本检索法。信息检索技术中的签名文件(Signature File)指的是？
A.计算点与点之间的距离来找出和此查询相近似的文件并加以排序输出
B.利用余弦相似度求出文件的相似程度，并将文件依相似程度由大到小排序输出
C.将待查的字符串直接和原文字符串进行快速字符串比对
D.签名档利用重迭编码的技巧, 将文件转换成一固定长度的签名以加速字符串比对。
D
全文扫描、逐项反转、签名文件是信息检索技术中的基本检索法。向量空间模型、概率式检索模型、神经网络模型都属于信息检索技术中的进阶检索法。 AB选项说的是向量空间模型； C选项说的是全文扫描检索法。
9/20
向量空间模型是信息检索技术，下面有关向量空间模型（VSM）的描述中，错误的是：
A.以向量来表示文档后，两者的夹角越小说明相似度越高
B.文本特征词的向量权重可通过TF-IDF实现，从而保留文本词序结构信息
C.在向量空间模型中，当有新文档加入时，需要重新计算特征词的权重
D.基于向量的文本相似度计算中，除了内积、Dice系数、夹角余弦，还可用Jaccard方法
B
向量空间模型是信息检索技术，B选择说的是文本表示的内容。

10/20
自然语言处理工作中，在自动建构关键词(非控制字汇)时，经常采用的方法是？
A.Controlled Vocabulary（控制字汇）
B.Inversion of Terms（逐项反转）
C.Inverse Document Frequency (IDF)
D.Full-Text Scanning
C
建立关键词的程序(抽取层次:词) - 读取文献 - 分词(中文需要) - 利用 Suffix String 将 Word 重整至最基本字型(Stem Word)(英文需要) - 计算每个 Word 的IDF - 利用一个阀值(Threshold) - 选出代表文献的关键词及其IDF - 产生Stop Words 由此，可以看出本题选C

11/20
IDF逆向文件频率(Inverse Document Frequency)，IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。逆向文件频率IDF的相关说法，以下错误的是？
A.IDF表示一个词在文档中的分布状况
B.如果一个词没有集中出现在某些文档，则这个词越重要
C.如果一个词集中出现在某些文档，则这个词越重要
D. $IDF=log⁡10(文档总数包含该词的文档数)IDF=\log_{10}(\frac{文档总数}{包含该词的文档数})$
B
逆向文档频率（Inverse Document Frequency，IDF） = log(总的文档数N / (1+出现词w的文档数n)) 。 IDF其实衡量了词w在每篇文档中提供的信息量。即IDF可以反映w的独特性。例如：北京和西安在同一篇文档中的词频均为20%，那如何估计北京是该文的关键字，还是西安呢？如果同时有10篇文章均提到了北京，恰好只有这篇文章提到了西安，则西安作为这篇文章的关键字更为合理。这就是逆向文档频率IDF的核心思想。

12/20
词袋模型（英语：Bag-of-words model）是个在自然语言处理和信息检索(IR)下被简化的表达模型。以下关于词袋模型(Bag of Word, BoW)的说法正确的是？
A.是一种在自然语言处理和信息检索(IR)下被简化的表达模型
B.词袋模型只能应用在文件分类
C.CBOW是词袋模型的一种
D.GloVe模型是词袋模型的一种
A
文本表示的目的是把文本预处理后的转换成计算机可理解的方式。词袋模型是一种文本表示方式，可以应用于任何文本分析任务中，故B错误。CBOW是word2vec的一个具体模型，word2vec模型和Glove模型都属于词嵌入模型，而非词袋模型，故CD错误。

13/20
在自然语言处理和文本分析的问题中,词袋(Bag of Words, BOW)和词向量(Word Embedding)是两种最常用的模型。关于词嵌入模型，以下说法错误的是？

A.GloVe模型属于词嵌入模型
B.Word2Vec模型属于词嵌入模型
C.词袋模型属于词嵌入模型
D.词嵌入模型基本假设是出现在相似的上下文中的词含义相似
C
本文表示的发展过程基本是从One-Hot编码的词集模型->词袋模型->词嵌入模型。所以C错误。

14/20
Word2vec，是一群用来产生词向量的相关模型，用来训练以重新建构语言学之词文本。Word2Vec包含哪两种模型？
A.CBOW模型和Skip-Gram模型
B.Bag-of-Words和GloVe模型
C.LSA模型和CBOW模型
D.GloVe模型和CBOW模型
A
Word2Vec 是Google在2013年开源的一款词向量化的高效工具，主要包含两个模型： - 连续词袋模型（continuous bag of words，简称CBOW） - 跳字模型（skip-gram）

15/20
CBOW模型和Skip-Gram模型可以说算是word2vec模型的核心概念之一了。关于Skip-Gram模型，以下说法正确的是？

A.属于词袋模型的一种
B.模型的目标是最大化用当前的词预测上下文的词的生成概率
C.模型的目标是最大化通过上下文的词预测当前词生成概率
D.词集模型的一种
B

16/20
Skip-Gram模型不包含以下哪一项？
A.输入层
B.池化层
C.输出层
D.隐藏层
B

17/20
贝叶斯分类算法是统计学的一种分类方法，它是一类利用概率统计知识进行分类的算法。以下哪一个属于贝叶斯分类算法？
A.TAN
B.HMM
C.LSA
D.TWO-STEP
A
TAN 分类器是由Friedman 等人提出的一种树状贝叶斯网络, 是朴素贝叶斯分类器的一种改进模型隐马尔可夫模型（Hidden Markov Model，HMM）是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程 LSA是1988年S.T. Dumais等提出的一种新的信息检索模型，它使用统计计算的方法对大量的文本集进行分析，提取出词与词之间潜在的语义结构，并用这种潜在的语义结构表示词和文本，达到消除词之间的相关性和简化文本向量实现降维的目的 TWO-STEP是一种分层群集算法

18/20
朴素贝叶斯分类器是一系列以假设特征之间强（朴素）独立下运用贝叶斯定理为基础的简单概率分类器。该分类器模型会给问题实例分配用特征值表示的类标签，类标签取自有限集合。下列选项不属于朴素贝叶斯分类器特点的是？
A.面对孤立的噪声点,朴素贝叶斯分类器是健壮的
B.面对无关属性,朴素贝叶斯分类器是健壮的。
C.相关属性可能会降低朴素贝叶斯分类器的性能，因为对这些属性，条件独立的假设已不成立。
D.朴素贝叶斯分类不可以把连续的属性离散化
D
暂无答案解析

19/20
决策树由节点和边两种元素组成的结构，决策树中不包含一下哪种结点？
A.根结点（root node)
B.内部结点（internal node）
C.外部结点（external node）
D.叶结点（leaf node）
C
决策树在逻辑上以树的形式存在,包含根节点、内部结点和叶节点

20/20
在决策树算法中，ID3使用哪个度量来进行特征的选择？
A.信息熵
B.信息增益比
C.信息增益
D.Gini指数
C
ID3选用信息增益作为度量，C4.5选用增益率作为度量

单选3
1/20
在完整的机器学习流程中，数据标准化（Data Standardization）一直是一项重要的处理流程。不同模型对于数据是否标准化的敏感程度不同，以下哪个模型对变量是否标准化不敏感？
A.决策树
B.KNN
C.K-Means
D.SVM
A决策树是非距离类算法

2/20
BP(back propagation)神经网络是1986年由Rumelhart和McClelland为首的科学家提出的概念，是一种按照误差逆向传播算法训练的多层前馈神经网络，是应用最广泛的神经网络。BP神经网络的训练顺序为何？（ A:调整权重; B:计算误差值; C:利用随机的权重产生输出的结果）
A.BCA
B.CAB
C.BAC
D.CBA
D暂无答案解析

3/20
类神经网络（ANN），又称人工神经网络，根据计算的连接路径连接信息处理的数学计算模型或者使用。在进行类神经网络之前，数据要如何做准备？
A.将所有数值属性转成类别属性
B.将所有类别属性直接用0, 1, 2, 3取代成数值型属性
C.将数据正规化于0到1之间
D.不需要任何准备
C暂无答案解析

4/20
逻辑回归Logistic Regression）和神经网络都可以进行多类别分类，那么如何以类神经网络仿真逻辑回归？
A.输入层节点个数设定为3
B.隐藏层节点个数设定为0
C.输出层节点个数设定为3
D.隐藏层节点个数设定为1
B暂无答案解析

5/20
逻辑回归和支持向量机（SVM）都是经典的机器学习模型。逻辑回归和SVM的联系与区别，不正确的是？
A.二者都可以处理分类问题
B.二者都可以增加不同的正则化项
C.二者都是参数模型
D.SVM的处理方法是只考虑support vectors，也就是和分类最相关的少数点，去学习分类器
C暂无答案解析

6/20
支持向量机（Support Vector Machine, SVM）是一类按监督学习（supervised learning）方式对数据进行二元分类的广义线性分类器（generalized linear classifier），其决策边界是对学习样本求解的最大边距超平面（maximum-margin hyperplane）。支持向量机（SVM）可以解决下列哪类问题
A.分类（Classification）
B.聚类（Clustering）
C.关联（Association）
D.归因（Attribution）
A暂无答案解析

7/20
集成学习(bagging)也叫做bootstrap aggregating,是在原始数据集选择S次后得到S个新数据集的一种技术，其代表算法有？
A.Adaboost
B.GBDT
C.XGBOOST
D.随机森林
D
Adaboost、GBDT、XGBOOST都是基于boosting的集成学习，随机森林是基于bagging的集成学习

提升方法（Boosting），是一种可以用来减小监督式学习中偏差的机器学习算法。基于Boosting的集成学习，其代表算法不包括？
A.Adaboost
B.GBDT
C.XGBOOST
D.随机森林
D
Adaboost、GBDT、XGBOOST都是基于boosting的集成学习，随机森林是基于bagging的集成学习

9/20
下列哪种集成方法，会重复抽取训练数据集中的数据，且每笔被抽中的概率始终保持一样？
A.袋装法（Bagging）
B.提升法（Boosting）
C.随机森林（Random Forest）
D.以上皆是
A暂无答案解析

在机器学习中,非监督性学习主要用来分类。其中重要的两种就是聚类分析和主成分分析。下列那个选项不是聚类分析的算法
A.Two-Step
B.FP-Growth
C.Centroid Method
D.Ward’s Method
B
FP-Growth是关联分析算法

11/20
以下哪个选项是分割式聚类算法?
A.K-Means
B.Centroid Method
C.Ward’s Method
D.以上皆非
A暂无答案解析

12/20
在聚类（Clustering）的问题中，若数据字段属性都是二元属性（Binary Variable），根据下表，下列何者是Jaccard Coefficient计算数据间距离的公式?

A. $d(i,j)=r+sq+r+sd(i,j)=\frac{r+s}{q+r+s}$

B. $d(i,j)=r+sr+s+td(i,j)=\frac{r+s}{r+s+t}$

C. $d(i,j)=r+sq+s+td(i,j)=\frac{r+s}{q+s+t}$

D. $d(i,j)=r+sq+r+s+td(i,j)=\frac{r+s}{q+r+s+t}$

A暂无答案解析

13/20
Apriori算法，最有可能可用来解决以下哪个问题？
A.电子商务网站向顾客推荐商品的广告
B.信用卡欺诈识别
C.电信用户离网预警
D.预测GDP与工业产值之间的关系
A
Apriori算法是关联规则挖掘算法，它利用逐层搜索的迭代方法找出数据库中项集的关系，以形成规则

14/20
广为流传的“啤酒与尿布”的故事，其背后的模型实际上是哪一类？
A.分类（Classification）
B.分群（Clustering）
C.关联（Association）
D.预测（Prediction）
C“啤酒与尿布”是关联规则的经典故事

15/20
考虑下面的频繁3-项集的集合：{1，2，3}，{1，2，4}，{1，2，5}，{1，3，4}，{1，3，5}，{1，4，5}，{2，3，4}，{2，3，5}，{3，4，5}假定数据集中只有5个项，采用合并策略，由候选产生过程得到4-项集不包含：
A.1，2，3，4
B.1，2，3，5
C.1，2，4，5
D.1，3，4，5
C暂无答案解析

16/20
Apriori算法中,候选序列的个数比候选项集的个数大得多，产生更多候选的原因有？
A.一个项在项集中最多出现一次，但一个事件可以在序列中出现多次
B.一个事件在序列中最多出现一次，但一个项在项集中可以出现多次
C.次序在序列中和项集中都是重要的
D.序列不可以合并
A暂无答案解析

17/20
序列模式挖掘 (sequence pattern mining ）是指挖掘相对时间或其他模式出现频率高的模式，典型的应用还是限于离散型的序列。下列哪个选项不属于序列模式的时限约束？
A.最大跨度约束
B.主键约束
C.最小间隔和最大间隔约束
D.窗口大小约束
B
序列模式的时限约束包括最大跨度约束、最大间隔和最小间隔约束、窗口大小约束

18/20
回归树是可以用于回归的决策树模型，一个回归树对应着输入空间（即特征空间）的一个划分以及在划分单元上的输出值。以下哪个指标可用于回归树中的模型比较
A.Adjusted R2
B.F-measure
C.AUC
D.Precision & Recall
A
F-measure、AUC、Precision & Recall是分类模型的评价指标

19/20
下面有关分类算法的准确率，查全率，F1值的描述，错误的是？
A.准确率是检索出相关文档数与检索出的文档总数的比率，衡量的是检索系统的查准率
B.查全率是指检索出的相关文档数和文档库中所有的相关文档数的比率，衡量的是检索系统的查全率
C.正确率、查全率和 F 值取值都在0和1之间，数值越接近0，查准率或查全率就越高
D.为了解决准确率和查全率冲突问题，引入了F1分数
C暂无答案解析

20/20
对于分类器的性能，我们需要不同的尺度来进行综合衡量。以下不属于分类器评价或比较尺度的有？
A.预测准确度
B.查全率
C.模型描述的简洁度
D.计算复杂度
C模型描述简洁度不属于模型评价指标

多选题
1/30
数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。以下操作行为不属于数据挖掘的是（）
A.预测一位新的顾客是否会在一家百货公司消费100元以上
B.使用数据库管理系统查找个别的记录
C.通过因特网的搜索引擎查找特定的Web页面
D.银行预测一位贷款客户是否会发生违约
BC
数据挖掘是在大型数据存储库中，自动地发现有用信息的过程。

2/30
数据挖掘并不是数学或者统计某单一传统学科所研究的方向，数据挖掘接纳吸收了很多其他领域的思想，其中包括（）
A.来自统计学的抽样、估计和假设检验
B.信息论、信号处理
C.可视化和信息检索
D.最优化、进化计算
数据挖掘利用了来自如下一些领域的思想: (1)来自统计学的抽样、估计和假设检验
ABCD
(2)人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想，这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。

3/30
机器学习的常用方法,主要分为有监督学习(supervised learning)和无监督学习(unsupervised learning)。以下哪些算法是有监督学习算法()
A.朴素贝叶斯
B.决策树
C.Apriori算法
D.SOM算法
AB
朴素贝叶斯和决策树是有监督学习算法， Apriori算法和SOM算法是无监督学习算法

4/30
以下算法中，属于无监督算法的是（）
A.K-Means
B.PCA
C.随机森林
D.KNN
AB
K-Means和PCA是无监督算法、随机森林和KNN是有监督学习算法

5/30
以下几项中，可以归于知识发掘处理（Knowledge Discovery Process）中的数据清洗阶段的有（）
A.异常值处理
B.缺失值处理
C.预测结果可视化输出
D.理解业务背景
AB
数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等

6/30
在对缺失数据进行处理前,了解数据缺失的机制和形式是十分必要的。以下属于数据缺失机制的是：
A.完全随机缺失
B.非随机缺失
C.条件随机缺失
D.非概率随机缺失
ABC属于三种数据缺失机制

7/30
特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程，从而提高对未知数据预测的准确性.通过特征工程我们希望去除掉数据中的：
A.多余特征
B.重复特征
C.与目标属性相关的特征
D.与输入属性将相关的特征
ABD
我们希望能够保留与目标属性相关的特征

8/30
以下属于特征工程中包含内容的是
A.特征选择
B.降维
C.特征编码
D.特征构建
ABCD全都是特征工程中的内容

9/30
对数变换是我们在处理特征工程当中常用的处理方法，以下关于对数变换的描述正确的是：
A.对数函数可以对大数值范围进行压缩
B.对数变换对于重尾分布的数据，可以使较短的尾部变成较长的尾部
C.对数函数可以对小数值范围进行拓展
D.在对数变换后，特征分布更像是高斯分布了
ACD
对数变换可以缩短长尾的尾部，其他都是正确的

10/30
Filter过滤方法通常用作预处理步骤,特征选择完全独立于任何机器学习算法。以下属于过滤式特征选择的方案有
A.方差选择
B.相关系数法
C.卡方检验
D.基于惩罚项的特征选择
ABC
基于惩罚项的特征选择不属于过滤式

11/30
特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征，以下哪些方法是特征选择中的常用方法？
A.嵌入式方法
B.融合法
C.包裹式
D.过滤法
ACD
特征选择中没有融合法

12/30
机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。对于数据降维的描述正确的是：
A.降维会让模型表现更差
B.降低维度肯定会损失一些信息
C.降维能提高训练速度
D.降维能用于数据可视化
BCD
降维不一定会让模型表现差

13/30
文本是由特定的人进行编撰的，文本的语义结构不可避免地会反映出什么？
A.人的特定立场
B.人的特定观点
C.人的特定价值
D.人的特定利益
ABCD
由于文本是由特定的人进行编撰的，文本的语义结构不可避免地会反映人的特定立场、观点、价值和利益

14/30
N-Gram模型是一种语言模型（Language Model，LM），语言模型是一个基于概率的判别模型，它的输入是一句话（单词的顺序序列），输出是这句话的概率，即这些单词的联合概率（joint probability）。关于N-Gram的说法正确的是？
A.N-Gram的优点是不需要进行中文分词
B.当N够大时，所有正确的分词均会出现于N-Gram中
C.噪声少，可以与许多资源结合
D.N-Gram的缺点是大多数撷取出来的词是没有语法及语意上意义
ABD
N-Gram的缺点是大多数撷取出来的词是没有语法及语意上意义，噪声过多，且无法与许多资源结合，会大大影响后续的分析。所以C错误。
15/30
文本表示方法通过某种形式将文本字符串表示成计算机所能处理的数值向量。下面关于文本表示说法正确的是：
A.常用的文本表示方式有：离散式表示和分布式表示
B.TF-IDF模型是分布式表示方式
C.GLOVE 模型得到的词向量不能解决多义词的问题
D.ELMO模型训练的词向量可以解决多义词的问题
ACD
本文表示的发展过程基本是从One-Hot编码的词集模型->词袋模型->词嵌入模型。词集模型和词袋模型属于离散式表示，词嵌入模型属于分布式表示。 TF-IDF是一种统计方法，用以评估某一字词对于一个文件集或一个语料库的重要程度。 word2vec模型和Glove模型都属于词嵌入模型,他们都无法解决多义词的问题，所以才发展出后来的ELMO模型。
16/30
NLP为（Neuro-Linguistic Programming）是对人类主观经验的研究。以下属于NLP任务的有：
A.生成式任务：比如机器翻译，文本摘要，写诗造句，看图说话等
B.句子关系判断：比如QA，自然语言推理等
C.分类任务：比如文本分类，情感计算等
D.序列标注：比如中文分词，词性标注，命名实体识别，语义角色标注等
ABCD是NLP的四大基本任务

17/30
自然语言处理方法中，IDF的含义是什么？
A.IDF代表着信息量
B.IDF越大代表这个词越重要, 也越是我们想要的关键词
C.IDF越大代表这个词的索引价值也越低
D.由IDF的大小我们可以得知一个词的重要程度
ABD
逆向文档频率（Inverse Document Frequency，IDF） = log(总的文档数N / (1+出现词w的文档数n)) 。 IDF其实衡量了词w在每篇文档中提供的信息量。即IDF可以反映w的独特性。因此C错误。

18/30
非结构化文本就是自然状态下的文本，结构化文本就是向量化文本，是计算机语言可以识别的文本表示。以下哪些属于非结构转结构数据-词的表示法？
A.词袋模型(Bag of Word, BoW)
B.Glove
C.TF-IDF
D.Word2Vec(Skip-Gram & CBOW)
ABD
非结构化文本就是自然状态下的文本，结构化文本就是向量化文本，是计算机语言可以识别的文本表示。TF-IDF是一种统计方法，用以评估某一字词对于一个文件集或一个语料库的重要程度。

19/30
支持向量机（SVM）在很多分类问题上曾经取得了当时最好的性能，使用非线性核的支持向量机可以处理线性不可分的问题。仅仅通过一个简单的核函数映射，就能达到如此好的效果。下列哪些是SVM的核函数(Kernel Function)？
A.Linear
B.RBF
C.Sigmoid
D.Polynomial
ABCD均为常见的核函数表示。

20/30
决策树归纳法ID3是人工智能机器学习中发展较快的一种归纳学习算法,决策树归纳的学习算法必须解决下面两个问题是？
A.如何分裂训练记录?
B.概率为0的问题
C.如何停止分裂过程?
D.数值型字段离散化
AC
分类树算法要解决的主要问题：一是如何找出分支的最佳节点，二是如何让决策树停止生长

21/30
C4.5算法是由Ross Quinlan开发的用于产生决策树的算法。该算法是对Ross Quinlan之前开发的ID3算法的一个扩展。下列对C4.5算法的描述正确的是？
A.每个节点的分支度只能为2
B.使用gain ratio作为节点分割的依据
C.可以处理数值型态的字段
D.可以处理空值的字段
BCD
CART树每个节点的分支只能有2个

22/30
决策树归纳是从类标记的训练数据构建决策树,属于分类领域。遍历根节点到全部叶节点的路径,每条路径都属于一个元组分类。决策树归纳算法重要特点有？
A.决策树归纳是一种构建分类模型的非参数方法。
B.已开发的构建决策树技术不需要昂贵的计算代价，即使训练集非常大，也可以快速建立模型。
C.决策树相对容易解释，特别是小型的决策树。
D.冗余属性不会对决策树的准确率造成太大的影响
ABCD均为决策树归纳算法的重要特征。

23/30
决策树在长成的过程中极易容易出现过拟合的情况,导致泛化能力低。我们可以用哪种方式来避免决策树过度配适（Overfitting）的问题。
A.利用修剪法来限制树的深度
B.利用盆栽法规定每个节点下的最小的记录数目
C.利用逐步回归法来删除部分数据
D.目前并无适合的方法来处理这问题
AB都是常用的防止决策树模型过拟合的方法。

24/30
决策树模型是一种描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directed edge)组成。决策树中包含以下哪些结点？
A.内部结点(Internal Node)
B.外部结点(External Node)
C.根结点(Root Node)
D.叶结点(Leaf Node)
ACD属于决策树的节点类型。

25/30
下列关于决策树分类算法的说法正确的是？
A.树长的太高容易过拟合
B.树长的太高容易欠拟合
C.可以通过剪枝限制过拟合
D.可解释性强
ACD
决策树长的过高容易过拟合

26/30
类神经网络（ANN），又称人工神经网络，根据计算的连接路径连接信息处理的数学计算模型或者使用。下列选项哪些是类神经网络的缺点？
A.无法得知最佳解
B.模型准确度低
C.知识结构是隐性的，缺乏解释能力
D.训练模型的时间长
ACD
暂无答案解析
27/30
不同的神经网络架构方式会建立出不同的模型，以下哪些模型是神经网络的变形？
A.逻辑回归（Logistic Regression）
B.线性回归（Linear Regression）
C.贝叶斯分类（Bayes Net）
D.非线性回归（Nonlinear Regression）
ABD暂无答案解析

28/30
BP神经网络中‚神经元节点中的激活函数(Activation Function)可以是以下哪些?
A.逻辑函数（Sigmoid）
B.双曲正切函数（tanh）
C.线性整流函数(ReLU)
D.带泄露修正线性单元(Leaky ReLU)
ABCD暂无答案解析

29/30
下列选项哪些是通过聚集多个分类器的组合来提高分类准确率的技术?
A.袋装法（Bagging）
B.提升法（Boosting）
C.支持向量机（Support Vector Machine）
D.随机森林（Random Forest）
ABD
支持向量机（是一类按监督学习方式对数据进行二元分类的广义线性分类器）

30/30
集成学习方法是机器学习领域中用来提升分类算法准确率的技术,主要包括Bagging和Boosting即装袋和提升。集成方法中的提升法（Boosting），可用在下列哪些方法中？
A.决策树
B.神经网络
C.贝式分类法
D.逻辑回归
ABCD暂无答案解析

内容相关
1.根据下表的混淆矩阵（Confusion Matrix），回答以下2题

对于属性值YES的响应率（Precision）应如何计算
A. $A / (A + B)$
B. $A / (A + C)$
C. $C / (A + C)$
D. $B / (A + B)$
A
Precision=将正类预测为正类/(将正类预测为正类+ 将负类预测位正类)

2/10
对于属性值YES的查全率（Recall）应如何计算
A. $A / (A + B)$
B. $A / (A + C)$
C. $C / (A + C)$
D. $B / (A + B)$
B
Recall=将正类预测为正类/（将正类预测为正类+将正类预测为负类）

3/10
我们有一个来自于大众点评的数据，数据集保存了用户对商家的点评数据，每个商家都有一个点评数量，假设我们的任务是使用协同过滤方法预测某用户给某商家的打分，点评数量会是一个非常有用的特征，因为人气和高评分之间有很强的相关性。现在我们将点评数量的分布绘制出来，如图所示

根据点评数量数据分布，需要对数据进行离散化，请问该数据需要离散化的原因是：
A.数据过于集中在较小的部分
B.数据存在明显的离群值
C.数据不符合正态分布
D.数据的分布不连续
B暂无答案解析

在这个分布中，数量的否是不是很均衡，如果我们想要让离散化后的每个分箱中的数量接近，应该使用的分箱方法是：
A.对数分箱
B.人工分箱
C.等深分箱
D.等宽分箱
C暂无答案解析

5如果想要对图像进行降维，这里我们使用PCA对图像维度进行压缩，PCA是以什么来判断某一个坐标轴当中信息量的多少
A.均值
B.方差
C.变异系数
D.四分位差
B暂无答案解析

6/10
在MNIST数据集中包含了从0-9数字的手写体图像，初始图像是28像素*28像素，我们希望构建预测模型预测图像中的数字，请根据题干回答一下问题
请问选项中不是PCA转换计算流程的步骤是
A.样本集标准化
B.样本集矩阵中心化
C.计算样本矩阵的协方差矩阵C
D.求样本集矩阵的协方差矩阵的特征值和特征向量
A暂无答案解析

7/10
假设词典中包括词｛的确，王公，实在，在理，公子，确实｝以及所有单字集合，请分别给出句子“王公子说的确实在理”的FMM和BMM分词结果。

FMM分词结果为？
A.王公/子/说/的确/实在/理
B.王/公子/说/的/确实/在理
C.王公子/说/的/确实/在理
D.王公子/说的/确实/在理
A
FMM即正向（从左向右扫描）最大匹配分词，即每次向后读取maxWordLength个字，如若匹配则继续，否则回退一个字继续匹配，直至单字无法匹配，将其单独分词。从前往后，这里先出现王公，后出现公子，所以选A。

8/10
假设词典中包括词｛的确，王公，实在，在理，公子，确实｝以及所有单字集合，请分别给出句子“王公子说的确实在理”的BMM分词结果。

BMM分词结果为？

A.王公/子/说/的确/实在/理
B.王/公子/说/的/确实/在理
C.王公子/说/的/确实/在理
D.王公子/说的/确实/在理
B
BMM即反向（从右向左扫描）最大匹配分词，每次从句尾向前读取maxWordLength个字，如若匹配则继续，否则去掉最左侧单字继续匹配，直至单字无法匹配，将其单独分词。从后往前，这里先出现公子，后出现王公，所以选B。

9/10
根据以下混淆矩阵和ROC曲线，回答以下两题：

ROC曲线的x轴，实际上可以由每个阈值下混淆矩阵的（）计算而来
A.D/(C+D)
B.D/(A+D)
C.B/(B+C)
D.C/(B+C)
A

10/10
根据以下混淆矩阵和ROC曲线，回答以下两题：
ROC曲线的y轴，实际上可以由每个阈值下混淆矩阵的（）计算而来
A.A/(A+B)
B.A/(A+D)
C.B/(B+C)
D.C/(B+C)
A暂无答案解析

CDA Level Ⅲ 模拟题（一）相关推荐

2021年新版CDA LEVELⅠ 模拟题（二）
1 1分一个BI项目由多个不同步骤构成,不同步骤又对应不同功能的工具,以下不属于BI工具组成部分的是A. ETLB. 可视化工具C. DWD. DB 正确答案:D , 你的答案:未作答解析: D, ...
CDA Level Ⅲ 模拟题（二）
1/20 进入21世纪,数据挖掘已经成为一门比较成熟的交叉学科,并且数据挖掘技术也伴随着信息技术的发展日益成熟起来.关于数据挖掘,下列说法不正确的是() A.数据挖掘把大型数据集转化成知识 B.数据挖 ...
CDA学习-------模拟题
一.单选题 1.EDIT数字化模型是企业在实现数字化工作的落地模板,以下关于数据分析 EDIT 模型描述错误的是( ) A.E 指的是 Exploration.探索 B.D 指的是 Data.数据 C ...
2021最新版CDA数据分析认证模拟题库
2021年新版CDA LEVELⅠ 模拟题 1.卡方检验中,将任意两行互换,卡方值( ) A. 变大 B. 变小 C. 不变 D. 不确定 2.在研究数据中,有一个变量"饮料类型" ...
CDA LEVEL I 数据分析认证考试模拟题库（四）
又到公布CDA数据分析师认证考试LEVEL I的模拟试题时间了,今天给大家带来的是模拟试题(一)中的16-20题. 不过,在出题前,要公布下上一期11-15题的答案,大家一起来看! 11.D 12.C ...
CDA LEVELⅠ2021新版模拟题二（附答案）
总结整理不易,记得一键三连(关注哦,其他练习题库正在整理中,在评论框发"模拟题"三个字给你们发word版方便自测) 考试题型:客观选择题(单选 80 题+多选 20 题+内容相关 ...
CDA数据分析师认证考试模拟题库
CDA等级考试模拟题库 Level 1 1.分析教师和会计师之间收入的差异,选择什么分析方法最合适? A.卡方分析 B.方差分析 C.两样本T检验 D.相关系数答案C 2.分析购买不同产品的频次时, ...
CDA数据分析师level2（模拟题考点记录）
CDA数据分析师level2模拟题考点记录背景目前CDA一级题目刷完,课看完,但是由于疫情无法出去考试,所以先复习level2.level2的考试课程大致刷了一遍,整体ppt也看过一遍,但是感觉l ...
CSP认证201612-3 权限查询[C++题解]：模拟题、结构体、set、有点复杂
题目分析来源:acwing 分析:这样的模拟题,主要难在建模,需要思考用什么来存储. 这里用一个结构体来存权限.用哈希表来存<角色,权限结构体>的映射,当然权限结构体存在set中,需要去 ...

CDA Level Ⅲ 模拟题（一）

CDA Level Ⅲ 模拟题（一）相关推荐

最新文章

热门文章