第二章第一节

多选1. 以下关于数据预处理的描述正确的是:
(1分)
需要借助领域知识
核心内容就是缺失数据填充
数据挖掘工作的基础性工作
主要靠标准化算法自动处理
单选2. 小张的个人信息中身份证号倒数第二位是单数,性别为女。这种情况被称为:
(1分)
Missing Data
Inconsistent Data
Noisy Data
Redundant Data
单选3. 学生小明在调查问卷中没有回答下述问题:“你去年的工资收入和前年相比是否有所增加?” 对这种情况最恰当的描述是:
(1分)
完全随机缺失
N/A
数据未提供
异常数据
单选4. 以下针对缺失值问题的阐述正确的是:
(1分)
删就一个字
用均值填充即可
用中位数填充即可
具体问题具体分析
单选5. 某大一男生体检数据中体重值缺失,相对合理的填充值是:
(1分)
40公斤
60公斤
80公斤
100公斤
单选6. 假设男生用1表示,女生用0表示,某人的性别未填,应该如何处理?
(1分)
填1
填0
填均值0.5,必须的
可根据其它信息(如身高、体重)推测
单选7. 以下关于离群点(Outlier)和异常点(Anomaly)关系的论述正确的是:
(1分)
一回事,说法不同而已
离群点一定是异常点
异常点一定是离群点
不能简单判定

第二章第二节

  1. 关于离群点的判定:
    (1分)
    主要看其与近邻的平均距离
    主要看其与近邻的最大距离
    需要考虑相对距离因素
    主要靠感觉
    单选2. 采用LOF方法进行离群点检测时:
    (1分)
    LOF值越小越疑似离群点
    LOF值越大越疑似离群点
    LOF值越接近1越疑似离群点
    LOF值越接近0.5越疑似离群点
    单选3. Case A:两人名字不同,身份证号相同。 Case B:两人同名同姓,身份证号不同。
    (1分)
    A为重复数据可能性大
    B为重复数据可能性大
    我读书少,看不出什么区别
    单选4. 在记录手机号码的时候,相对而言:
    (1分)
    前三位不容易记错
    末尾三位不容易记错
    中间三位不容易记错
    都一样
    单选5. 在记录英语国家人名时:
    (1分)
    姓容易写错
    名容易写错
    没有明显区别
    单选6. 对英语国家的人群而言:
    (1分)
    姓的区分度大
    名的区分度大
    没有明显区别

第二章第三节

单选1. 按A, B, C, D打分的考试成绩数据属于:
(1分)
数值型(连续)
数值型(离散)
序数型(Ordinal)
标称型(Nominal)
字符串
多选2. 在对标称型数据(如颜色、职业等)进行编码时:
(1分)
按1,2,3,4…顺序编码即可
类别较少时,可考虑采用扩维法
不同编码可能会影响数据的空间分布
不好处理,删了算了
多选3. 在大数据分析中,利用采样技术可以:
(1分)
降低获取数据的成本
减少需要处理的数据量
有助于处理不平衡数据
提高数据的稳定性
单选4. 对于极度不平衡的二分类数据集,应特别注意:
(1分)
整体的准确率
多数类样本的准确率
少数类样本的准确率
两类样本准确率的均值
单选5. SMOTE的工作原理是:
(1分)
对多数类样本进行下采样
对少数类样本进行克隆复制
对少数类样本通过插值进行上采样
对整体样本进行随机采样

第二章第四节

单选1. 很多人感觉到自己的收入与官方公布的平均收入相去甚远,最有可能的解释是:
(1分)
自己工作不够努力,怨不得别人
统计样本不具有代表性
个体收入分布极度不均衡
错觉,都是错觉
多选2. Pearson’s product moment correlation coefficient 可用来判断:
(1分)
X和Y是否正相关
X和Y是否负相关
X和Y是否不相关
X和Y之间的因果关系
单选3. 在Box Plots当中,一个盒子越扁说明在该维度上:
(1分)
25%到75%之间的数据分布较为集中
25%到75%之间的数据分布较为分散
离群点较少
离群点较多
单选4. 适合可视化高维数据的方法是:
(1分)
圆饼图
散点图
平行坐标
直方图
单选5. 数据可视化工作:
(1分)
锦上添花,可有可无
不学就懂,一看就会
主要用于展示最终结果
贯穿数据挖掘工作全过程

第二章第五节

  1. 熵衡量的是系统的不确定性,熵值越大(接近于1)说明系统的不确定性越低。
    (1分)
    正确
    错误
    单选2. 假设某数据集的原始熵值为0.7, 已知某属性的信息增益为0.2,那么利用该属性进行划分后数据集的熵值为:
    (1分)
    0.9
    0.7
    0.5
    0.2
    单选3. 以下方法中可以确保获得最优属性子集的是:
    (1分)
    Top K Individual Features
    Sequential Forward Selection
    Sequential Backward Selection
    Simulated Annealing
    Exhaustive Search
    单选4. 关于分支定界法不正确的描述是:
    (1分)
    树状搜索算法
    随机搜索算法
    依赖属性的单调性假设
    能够减少搜索空间
    多选5. 进行属性选择的原因是:
    (1分)
    属性可能存在冗余
    属性可能存在噪声
    降低问题复杂度
    个人喜好

第二章第六节

  1. 特征选择与特征提取的关系是:
    (1分)
    特征提取包含特征选择
    特征选择包含特征提取
    一码事,说法不同而已
    It is like comparing apples and oranges.
    单选2. 平面图中的老鹰能够被人们识别的原因是:
    (1分)
    体积大
    为人所熟知
    长得有个性
    观察角度合适
    单选3. 在PCA变换中,应尽量把数据向什么方向投影:
    (1分)
    数据集中的方向
    数据散布大的方向
    数据分组特征明显的方向
    平行于原始坐标轴的方向
    单选4. PCA变换中不包含以下哪一种操作:
    (1分)
    去均值
    矩阵特征值分解
    属性值标准化
    坐标变换
    单选5. 假设样本数大于维数,利用PCA技术,可以把N维数据降到:
    (1分)
    只能到1维
    只能到N-1维
    1到N-1维
    取决于样本的类别数

第二章第七节

  1. 如果将PCA应用于带标签的分类数据:
    (1分)
    程序直接崩溃
    效果杠杠的
    驴唇不对马嘴
    视情况而定
    单选2. LDA与PCA最本质的区别是:
    (1分)
    能够降到的维数不同
    计算效率不同
    降维的目标不同
    我读书少,看不出来
    单选3. 当样本个数小于数据维数的时候,LDA不能正常工作的原因是:
    (1分)
    类间散布矩阵不满秩
    类内散布矩阵不满秩
    计算量过高
    Fisher准则无意义
    单选4. 当类中心重合的时候,LDA不能正常工作的原因是:
    (1分)
    Fisher准则函数分母为零
    类内散布矩阵奇异
    Fisher准则函数恒等于零
    类间散布矩阵满秩
    单选5. 对于二分类问题,LDA只能将原始数据降到1维的原因是:
    (1分)
    类间散布矩阵秩为1
    类内散布矩阵秩为1
    原始数据维度过高
    原始数据维度过低
    单选6. 关于LDA和PCA投影方向描述正确的是:
    (1分)
    必然相同
    必然不同
    LDA总是优于PCA
    世事难料

清华大学数据挖掘课程幕课习题(第二章)相关推荐

  1. 清华大学数据挖掘课程幕课习题(第一章)

    第一章第二节 1."教育不是灌输,而是点燃火焰" 这一思想出自于:苏格拉底. 2.如何学好数据挖掘技术?认真学习幕课视频:充分利用课后阅读材料:勤于动手,实践出真知:主动思考,知其 ...

  2. 科研论文课程幕课习题(第一二章)

    ** 第一章 ** 1.对于论文标题的撰写,以下描述正确的是: 标题应尽量精炼简洁 标题需注意保护知识产权 标题应反映核心技术 标题可以尽量起的宽泛 2.什么样的论文,能被称为优秀的论文: 论文能开辟 ...

  3. 指数随机变量 泊松过程跳_概率微课:第二章(19) 连续型随机变量函数的分布1...

    主要内容 连续型随机变量函数的分布1 更多系列视频 概率微课:第二章(1)   随机变量的定义 概率微课:第二章(2) 离散型随机变量 概率微课:第二章(3) 两点分布及伯努利试验 概率微课:第二章( ...

  4. python数据结构题目_《数据结构与算法Python语言描述》习题第二章第三题(python版)...

    ADT Rational: #定义有理数的抽象数据类型 Rational(self, int num, int den) #构造有理数num/den +(self, Rational r2) #求出本 ...

  5. 机器学习(浙大课程b站)第二章

    机器学习(浙大课程b站)第二章:支持向量机 笔记 测试 根据我个人学习的感受,我是以b站浙大机器学习研究生课程(BV1dJ411B7gh)为主,MOOC为辅. 笔记 线性可分与线性不可分 线性可分(L ...

  6. ADSP重点习题第二章-第三章(原版书第四章)

    ADSP重点习题 第二章 例题2.1.5 习题2.12 习题2.13 第三章 习题3.2 习题3.7 尤利-沃克方程: PACS(部分自相关序列的计算) 习题3.11 习题3.21 低阶极点模型(低阶 ...

  7. java中北大学ppt总结+课后习题第二章(小宇特详解)

    java中北大学ppt总结+课后习题第二章(小宇特详解) 基本数据类型 Java语言有8种基本数据类型. 逻辑类型:boolean.1字节 整数类型: 1字节整数类型:byte. 2字节整数类型:sh ...

  8. 《算法设计与分析(第4版)》课后习题第二章第2小题

    <算法设计与分析(第4版)>课后习题第二章第2小题 下面的7个算法与本章中的二分搜索算法binarySearch略有不同.请判断这7个算法的正确性,并说明原因和证明. 第二章二分搜索算法b ...

  9. 期末安卓习题--第二章

    第二章 安卓第二章 填空题 判断题 安卓第二章 填空题 1.下列表示Toast较长时间显示的是Toast.LENGTH_LONG. 2.在帧布局中的子控件默认是左上角对齐的. 3.Android相对布 ...

最新文章

  1. 豆瓣FLASHMP3播放器
  2. 08_使用TCP/IP Monitor监视SOAP协议
  3. linux内核 header.s,Linux启动代码header.S研究
  4. Sharepoint client model 中出现Cannot invoke HTTP DAV request. There is a pending query 的解决办法...
  5. css expression
  6. LAMP攻略: LAMP环境搭建,Linux下Apache,MySQL,PHP安装与配置
  7. Android之让图片匀速旋转效果
  8. mysql+tushare搭建本地数据库
  9. 【Pytorch神经网络理论篇】 07 激活函数+Sigmoid+tanh+ReLU+Swish+Mish+GELU
  10. ASP.Net 使用SqlBulkCopy批量插入
  11. CSDN的一些年度大牛(2018)
  12. Linux下用dump实现备份和还原
  13. Spring 定时器结合线程池
  14. 在英文Win7操作系统上部署C#开发的Web系统出现乱码的解决方法
  15. 上新啦 | 火山翻译新增38个语种!
  16. Linux中级之ansible概念及hoc命令行调用模式
  17. 网页调用智能IC卡读写器的解决方案
  18. java javaw 命令区别_java 和javaw 的区别
  19. Visual Studio Coded的安装以及中文化
  20. js获取明天的年月日和计时器

热门文章

  1. 微软365网盘国内服务器,5TB微软Office365网盘OneDrive详细申请方法教程
  2. 通信端口感叹号_PCI简易通讯控制器有黄色感叹号怎么办?
  3. Doxygen 一个程序的文件产生工具,可将程序中的特定批注转换成为说明文件
  4. 闲鱼无货源电商课程第19期【完结】
  5. matlab看图像分度值,也制作开源 STC15W408AS 白光T12控制器 数码管版本 洞洞板搭建...
  6. 抓取国家统计局2018年的省市区街道数据
  7. 微信小程序解决苹果端在禁止下拉刷新以后仍可以拖到屏幕的问题
  8. 最新小储云商城V1.782免授权源码
  9. 五、Springboot 整合Shiro---03认证---第三方QQ登陆
  10. 农家女靠养花赚钱,年收入几十万