清华大学数据挖掘课程幕课习题（第二章）

第二章第一节

多选1. 以下关于数据预处理的描述正确的是：
（1分）
需要借助领域知识
核心内容就是缺失数据填充
数据挖掘工作的基础性工作
主要靠标准化算法自动处理
单选2. 小张的个人信息中身份证号倒数第二位是单数，性别为女。这种情况被称为：
（1分）
Missing Data
Inconsistent Data
Noisy Data
Redundant Data
单选3. 学生小明在调查问卷中没有回答下述问题：“你去年的工资收入和前年相比是否有所增加？” 对这种情况最恰当的描述是：
（1分）
完全随机缺失
N/A
数据未提供
异常数据
单选4. 以下针对缺失值问题的阐述正确的是：
（1分）
删就一个字
用均值填充即可
用中位数填充即可
具体问题具体分析
单选5. 某大一男生体检数据中体重值缺失，相对合理的填充值是：
（1分）
40公斤
60公斤
80公斤
100公斤
单选6. 假设男生用1表示，女生用0表示，某人的性别未填，应该如何处理？
（1分）
填1
填0
填均值0.5，必须的
可根据其它信息（如身高、体重）推测
单选7. 以下关于离群点（Outlier）和异常点（Anomaly）关系的论述正确的是：
（1分）
一回事，说法不同而已
离群点一定是异常点
异常点一定是离群点
不能简单判定

第二章第二节

关于离群点的判定：
（1分）
主要看其与近邻的平均距离
主要看其与近邻的最大距离
需要考虑相对距离因素
主要靠感觉
单选2. 采用LOF方法进行离群点检测时：
（1分）
LOF值越小越疑似离群点
LOF值越大越疑似离群点
LOF值越接近1越疑似离群点
LOF值越接近0.5越疑似离群点
单选3. Case A：两人名字不同，身份证号相同。 Case B：两人同名同姓，身份证号不同。
（1分）
A为重复数据可能性大
B为重复数据可能性大
我读书少，看不出什么区别
单选4. 在记录手机号码的时候，相对而言：
（1分）
前三位不容易记错
末尾三位不容易记错
中间三位不容易记错
都一样
单选5. 在记录英语国家人名时：
（1分）
姓容易写错
名容易写错
没有明显区别
单选6. 对英语国家的人群而言：
（1分）
姓的区分度大
名的区分度大
没有明显区别

第二章第三节

单选1. 按A, B, C, D打分的考试成绩数据属于：
（1分）
数值型（连续）
数值型（离散）
序数型（Ordinal）
标称型（Nominal）
字符串
多选2. 在对标称型数据（如颜色、职业等）进行编码时：
（1分）
按1,2,3,4…顺序编码即可
类别较少时，可考虑采用扩维法
不同编码可能会影响数据的空间分布
不好处理，删了算了
多选3. 在大数据分析中，利用采样技术可以：
（1分）
降低获取数据的成本
减少需要处理的数据量
有助于处理不平衡数据
提高数据的稳定性
单选4. 对于极度不平衡的二分类数据集，应特别注意：
（1分）
整体的准确率
多数类样本的准确率
少数类样本的准确率
两类样本准确率的均值
单选5. SMOTE的工作原理是：
（1分）
对多数类样本进行下采样
对少数类样本进行克隆复制
对少数类样本通过插值进行上采样
对整体样本进行随机采样

第二章第四节

单选1. 很多人感觉到自己的收入与官方公布的平均收入相去甚远，最有可能的解释是：
（1分）
自己工作不够努力，怨不得别人
统计样本不具有代表性
个体收入分布极度不均衡
错觉，都是错觉
多选2. Pearson’s product moment correlation coefficient 可用来判断：
（1分）
X和Y是否正相关
X和Y是否负相关
X和Y是否不相关
X和Y之间的因果关系
单选3. 在Box Plots当中，一个盒子越扁说明在该维度上：
（1分）
25%到75%之间的数据分布较为集中
25%到75%之间的数据分布较为分散
离群点较少
离群点较多
单选4. 适合可视化高维数据的方法是：
（1分）
圆饼图
散点图
平行坐标
直方图
单选5. 数据可视化工作：
（1分）
锦上添花，可有可无
不学就懂，一看就会
主要用于展示最终结果
贯穿数据挖掘工作全过程

第二章第五节

熵衡量的是系统的不确定性，熵值越大（接近于1）说明系统的不确定性越低。
（1分）
正确
错误
单选2. 假设某数据集的原始熵值为0.7，已知某属性的信息增益为0.2，那么利用该属性进行划分后数据集的熵值为：
（1分）
0.9
0.7
0.5
0.2
单选3. 以下方法中可以确保获得最优属性子集的是：
（1分）
Top K Individual Features
Sequential Forward Selection
Sequential Backward Selection
Simulated Annealing
Exhaustive Search
单选4. 关于分支定界法不正确的描述是：
（1分）
树状搜索算法
随机搜索算法
依赖属性的单调性假设
能够减少搜索空间
多选5. 进行属性选择的原因是：
（1分）
属性可能存在冗余
属性可能存在噪声
降低问题复杂度
个人喜好

第二章第六节

特征选择与特征提取的关系是：
（1分）
特征提取包含特征选择
特征选择包含特征提取
一码事，说法不同而已
It is like comparing apples and oranges.
单选2. 平面图中的老鹰能够被人们识别的原因是：
（1分）
体积大
为人所熟知
长得有个性
观察角度合适
单选3. 在PCA变换中，应尽量把数据向什么方向投影：
（1分）
数据集中的方向
数据散布大的方向
数据分组特征明显的方向
平行于原始坐标轴的方向
单选4. PCA变换中不包含以下哪一种操作：
（1分）
去均值
矩阵特征值分解
属性值标准化
坐标变换
单选5. 假设样本数大于维数，利用PCA技术，可以把N维数据降到：
（1分）
只能到1维
只能到N-1维
1到N-1维
取决于样本的类别数

第二章第七节

如果将PCA应用于带标签的分类数据：
（1分）
程序直接崩溃
效果杠杠的
驴唇不对马嘴
视情况而定
单选2. LDA与PCA最本质的区别是：
（1分）
能够降到的维数不同
计算效率不同
降维的目标不同
我读书少，看不出来
单选3. 当样本个数小于数据维数的时候，LDA不能正常工作的原因是：
（1分）
类间散布矩阵不满秩
类内散布矩阵不满秩
计算量过高
Fisher准则无意义
单选4. 当类中心重合的时候，LDA不能正常工作的原因是：
（1分）
Fisher准则函数分母为零
类内散布矩阵奇异
Fisher准则函数恒等于零
类间散布矩阵满秩
单选5. 对于二分类问题，LDA只能将原始数据降到1维的原因是：
（1分）
类间散布矩阵秩为1
类内散布矩阵秩为1
原始数据维度过高
原始数据维度过低
单选6. 关于LDA和PCA投影方向描述正确的是：
（1分）
必然相同
必然不同
LDA总是优于PCA
世事难料