1、当学习器在训练集上把训练样本自身的一些特征当作了所有潜在样本都具有的一般性质时,泛化性能可能会因此下降,这种现象一般称为 ____。(过拟合/欠拟合)

过拟合

2、对于两个样本点 (0,0),(1,1)(0,0),(1,1)(0,0),(1,1),若我们将其投影到与拉普拉斯核函数k(x,y)=e−∣∣x−y∣∣k(x,y)=e^{-||x-y||}k(x,y)=e−∣∣x−y∣∣关联的RKHS中时,则两个样本投影后的点距离为 ____(保留三位小数)

1.230

dist(x1,x2)=∥ϕ(x1)−ϕ(x2)∥Hk2=k(x1,x1)−2k(x1,x2)+k(x2,x2)dist(x_1,x_2)=\|\phi(x_1)-\phi(x_2)\|_{\mathcal{H}_k}^2=\sqrt{k(x_1,x_1)-2k(x_1,x_2)+k(x_2,x_2)}dist(x1​,x2​)=∥ϕ(x1​)−ϕ(x2​)∥Hk​2​=k(x1​,x1​)−2k(x1​,x2​)+k(x2​,x2​)​

3、考虑如下三分类的例子,使用投票法集成的结果的精度为 ____ (保留3位小数)。

0.200

4、如果为了同时得到多个聚类簇数的聚类结果(如下图所示),最适合使用 ____(原型聚类/密度聚类/层次聚类)

层次聚类

5、下列说法错误的是()

  1. 信息增益准则对可取值较多的属性有所偏好
  2. 基尼指数越小,数据集的纯度越高
  3. 决策树学习时,给定划分属性,若样本在该属性上值缺失,会随机进入一个分支
  4. 随着决策树学习时的深度加深,位于叶结点的样本越来越少

6、聚类算法是机器学习中一种典型的 ____(监督/无监督)学习算法。

无监督

7、在上题的例子中,每个基分类器的精度都为0.4,因而都是弱分类器,但集成后的精度下降了。这一现象表明在多分类任务中,弱学习器 ____ (能/不能) 保证集成精度不下降。

不能

8、以下关于模型评估与选择的说法,错误的是

  1. 模型的超参数选择需要在验证集上进行测试
  2. 交叉验证t检验是基于列联表的
  3. 训练模型时,仅仅保证训练误差为0是不够的
  4. 当数据集很大时,通过留一法进行模型评估的计算代价是非常高昂的

9、当多隐层神经网络使用线性激活函数时,下列哪个选项是正确的?

  1. 经验损失最小化具有唯一解
  2. 神经网络具有万有逼近性
  3. 神经网络的输出是权重的线性函数
  4. 神经网络的输出是输入的线性函数

10、以下关于聚类的说法,错误的是

  1. 聚类可以作为其他学习算法的前驱过程
  2. 原型聚类得到的每一簇都是凸的
  3. 聚类好坏存在绝对标准
  4. 密度聚类假设聚类结构可以通过本分布的紧密程度确定

11、Sigmoid函数在一点的函数值总是 ____(大于/等于/小于/无法确定) 该点的导数值。

大于

12、以下哪种方式通常不能帮助解决决策树过拟合()

  1. 去除训练集一半样本
  2. 预剪枝
  3. 限制最大树深度
  4. 后剪枝

13、考虑正类样本(-1,0),(0,1),(-1,1) 和负类样本(1,0),(0,-1),(1,-1),通过支持向量机的基本型得到的解为

  1. y=x-1
  2. 以上答案均不是
  3. y=x+1
  4. y=x

14、下列说法错误的是

  1. CART算法的评价指标是基尼系数
  2. 当样本均匀分布于所有类中时,熵最大
  3. ID3算法能解决过拟合问题
  4. 在某些情况下样本特征向量中一些分量没有值,这称为属性缺失

15、以下关于机器学习的说法错误的是

  1. 在聚类任务中,我们需要事先直到数据的标记信息
  2. 预测离散值的任务一般称为分类任务
  3. 同一个算法在不同数据集上,一般不能得到同样一个模型
  4. 学得模型后,待测试的样本我们称为“测试样本”,亦称“测试示例”

16、下列说法错误的是

  1. 测试数据应和训练数据一样
  2. 用数据建立模型的过程叫训练
  3. 机器学习一般有“独立同分布”假设
  4. 学得模型是用于新样本的能力称为“泛化”能力

17、决策树划分时,若其中一个属性为样本的编号(各样本编号不同),若基于该属性进行划分,则信息增益最 ____(大/小)

18、下列说法错误的是

  1. 决策树相比于对数几率回归更适合分线性分类问题
  2. 根据训练数据是狗有标记信息,学习任务可以大致划分为两类:监督学习、无监督学习
  3. 留一法对模型性能的估计总是比交叉验证法更准确
  4. 支持向量机的原问题和对偶问题都是二次规划问题

19、下列有关支持向量机,说法正确的是

  1. 一般情况下,支持向量机训练完后解与全部样本都有关系
  2. 利用SMO算法求解支持向量机时,只需要迭代更新参数一次
  3. 支持向量机智能处理线性可跟问题
  4. 通过支持向量机求解出的划分超平面是对训练样本局部扰动的“容忍”性最好的划分平面

20、如果决策树过拟合训练集,减少决策树最大深度____(是/否)为一个好主意。

21、下列哪一种数据集切分方式会导致划分的训练集和测试集与初始数据集分布不同?

  1. 自助法
  2. 交叉验证法
  3. 留出法
  4. 以上做法都不对

22、下列关于类别不平衡问题的描述中正确的是哪个?

  1. 当大类和小类一样重要时,需要针对不平衡问题做特殊处理
  2. 阈值移动法需要构造平衡数据集来处理类别不平衡问题
  3. 复制小类样本可以搞笑解决类别不平衡问题
  4. 过采样和欠采样都通过构造平衡数据集来处理类别不平衡问题

23、考虑如图数据集,其中 x1与x2为特征,其取值集合分别为x1={−1,0,1},x2={B,M,S},y为类别标记,其取值集合为y={0,1}。

使用所给训练数据,学习一个朴素贝叶斯分类器,考虑样本x={0,B},请计算P(y=1)P(x|y=1)的值____(保留2位有效数字)。

0.03

24、支持向量机原始问题目标函数最优值是对偶问题得到的目标函数最优值的 ____(上界/下界)

上界

25、朴素贝叶斯分类器采用了()假设:即对已知类别,假设所有属性相互独立。

  1. 独依赖
  2. 道德图
  3. 有向无环图依赖
  4. 属性条件独立性

26、下列关于线性模型的描述中正确的是哪个?

  1. 线性模型既可以处理回归任务,也可以处理分类任务
  2. 线性模型无法你和与输入呈指数关系的输出
  3. 线性模型通过投票法或加权平均法可以得到非线性模型
  4. 线性模型的表达能力与神经网络相同

27、下列说法错误的是

  1. 决策树属于生成式模型
  2. 贝叶斯决策论是概率框架下实施决策的基本理论
  3. 如果概论都能拿到真实值,那么根据贝叶斯判定准则做出的决策是理论上最好的决策
  4. 1−R(h∗)1-R(h^*)1−R(h∗)反映了分类器所能达到的最好性能

28、若任务中数据的属性是连续值,此类任务称为 ____(分类/回归/不确定)。

不确定

29、使用BP算法优化神经网络,若发现损失函数剧烈波动,可能是优化步长偏 ____ (大/小)。

30、下列说法错误的是()

  1. 极大似然估计需要假设某种概论分布形式
  2. 对连续属性,计算条件概率 P(xi∣c)P(x_i|c)P(xi​∣c)可考虑概率密度函数
  3. 贝叶斯学习等于贝叶斯分类器
  4. 朴素贝叶斯分类器中,对给定类别,模型假设所有属性间相互独立

31、设n∈N+n \in N^+n∈N+为一正自然数,考虑数据集Dn={(−i,−1),(i,1)}i=1nD_n=\{(-i, -1), (i, 1)\}_{i=1}^nDn​={(−i,−1),(i,1)}i=1n​。记wnw_nwn​为最小二乘法在数据集 DnD_nDn​ 上学得的线性模型的斜率,则的 limn→+∞nwn\underset{n \rightarrow +\infty}{lim} ~nw_nn→+∞lim​ nwn​ 值为 1.234(保留3位小数或填写"不存在")。

1.500

32、下列关于集成学习的说法中正确的是哪个?

  1. 已有的多样性定义可以作为优化目标直接优化
  2. 个体学习器犯错的样本具有一定差异性是集成学习取得好性能的要求之一
  3. Boosting中所有个体学习器的权重是相等的
  4. Bagging中不同个体学习器的数据是从统一数据集中采样得到的,因而需要其他途径使基学习器具有多样性

33、下列关于BP算法的说法中正确的是哪个?

  1. BP算法可以找到神经网络的全局极小解
  2. 只有Sigmoid激活函数的神经网络可以使用BP算法优化
  3. 只要模型的损失函数关于模型权重可微,就可以使用BP算法优化
  4. BP算法能在多项式实践内收敛

34、下列关于多元线性回归中使用正则项的说法中正确的是?

  1. 即便计算机具有无限精度,多元线性回归也需要使用正则项
  2. 使用正则化后,多元线性回归可以找到多个最优解
  3. 样例维度小于样例数是使用正则项的原因之一
  4. 使用正则项只有理论意义,实际应用中无需使用

35、下列关于神经网络万有逼近性的说法中正确的是哪个?

  1. 包含足够多神经元的单隐层神经网络具有万有逼近性
  2. 万有逼近性表明任意一个神经网络在限时任务可以逼近任意函数
  3. 万有逼近性保证了神经网络在显示任务中优异的表现
  4. 万有逼近性是神经网络独有的性质

36、当查准率和查全率均为1时,F1度量为 ____。(计算结果保留三位小数)

1.000

37、对于参数估计过程,统计学界的 ____(频率主义/贝叶斯主义)学派认为参数虽然未知,但却是客观存在的固定值,因此,可通过优化似然函数等准则来确定参数值。

频率主义

38、当西瓜收购公司去瓜摊收购西瓜时既希望把好瓜都收走又保证收到的瓜中坏瓜尽可能的少,请问他应该分别考虑什么评价指标?

  1. 准确率 查全率
  2. 查全率 查准率
  3. 查全率 准确率
  4. 查准率 查全率

39、对率回归 ____ (是/否) 可以通过极大似然估计求解。

40、下列哪些函数可以作为核函数?

  1. 以上函数均可作为核函数
  2. 多项式核
  3. 线性核
  4. 高斯核

西瓜书习题 - 10.机器学习初步考试相关推荐

  1. 西瓜书习题3.4 (交叉验证法)

    西瓜书习题3.4 (交叉验证法): ​ 选择两个UCI数据集,比较10折交叉验证法和留一法所估计出的对率回归的错误率. 1.数据集长啥样? ​ 于是就下载了一组UCI数据集,它长这样: 至于这些数据是 ...

  2. 西瓜书习题详解 机器学习能在互联网搜索的哪些环节起什么作用?

    看完了西瓜书的第一章,课后习题有这个问题.我先将这个问题定义为:机器学习在搜索引擎上的应用. 维基百科:搜索引擎(英语:Search Engine)是一种信息检索系统,旨在协助搜索存储在计算机系统中的 ...

  3. 机器学习之西瓜书绪论--关于机器学习的简单介绍

    机器学习的简单介绍 绪论 1.1机器学习是能够用来干嘛的 1.2 机器学习的基本术语 1.3 假设空间 1.4归纳偏好 总结 参考链接 绪论 1.1机器学习是能够用来干嘛的 我们在辨别一个西瓜的好坏的 ...

  4. 西瓜书习题 - 3.线性模型

    1.线性回归 1.以下哪个不是线性模型的优势? 简单 复杂 基本 可理解性好 2.示例的属性可以属于下列哪个类别? 无序的离散属性 连续属性 有序的离散属性 以上都对 3.一卖伞商家想利用天气来预测销 ...

  5. [西瓜书习题] 第二章 模型评估与选择

    2.1 数据集包含1000个样本,其中500个正例,500个反例,将其划分为包含70%样本的训练集和30%样本的测试集用于留出法评估,试估算共有多少种划分方式. 留出法将数据集划分为两个互斥的集合,为 ...

  6. 西瓜书习题 - 8.集成学习

    1.集成学习 1.下列关于集成学习描述错误的是哪个? 集成学习只能使用若干个相同类型的学习器 集成学习使用多个学习器解决问题 集成学习在许多比赛中取得了优异的成绩 集成学习在英文中是一个外来词 2.下 ...

  7. 西瓜书习题 - 6.支持向量机

    1.支持向量机基本型 1.对于线性可分的二分类任务样本集,将训练样本分开的超平面有很多,支持向量机试图寻找满足什么条件的超平面? 在正负类样本"正中间"的 靠近正类样本的 靠近负类 ...

  8. 西瓜书习题4.3(基于信息熵的决策树)

    试编程实现基于信息熵进行划分选择的决策树算法,并为表4.3中数据生成一颗决策树. 代码 import numpy as np import matplotlib.pyplot as plt from ...

  9. 周志华西瓜书 10 个算法详细视频

    (文末有福利) 如果你现在准备开始学习,我想你的第一步就是先囤课!打开你的百度云,发现内存已达到80%!打开你的收藏夹,链接已经100+!仿佛我囤了,就代表我学了! 可是,真的有认真看吗? 可能囤积这 ...

最新文章

  1. 400名微软员工主动曝光薪资:28万元到228万元不等!
  2. mongodb 安装时错误
  3. postgresql高可用_Postgresql高可用实现方案
  4. Linux怎么创建date文件,Linux下手工创建oracle database
  5. linux下ftp服务器的搭建与使用
  6. Spring Cloud Kubernetes容器化实践
  7. Android开发之设置DialogFragment的窗体背景色的方法亲测可用
  8. Exchange中的数据库文件
  9. rust腐竹是什么意思_学习Rust 集合与字符串
  10. cuteEditor 配置
  11. 《恋上数据结构第1季》单向链表、双向链表
  12. Transact-SQL 语法约定
  13. Python弹球游戏(tkinter模块编写)
  14. Kurento Tree 简介
  15. Zune支持哪些格式?
  16. 一点经验:从五星填数中所学到的
  17. 高通 锁定DDR频率
  18. 在程序员职业中,外包的薪资真的更高吗?
  19. idea创建maven项目失败, Failed to create a Maven project
  20. 华硕笔记本开机直接进入bios解决方法

热门文章

  1. Redis入门(五):Redis set命令和 Redis zset命令
  2. Linux在中国...
  3. FOC——16.单片机最小系统
  4. 看看远处,也许可以恢复视力。
  5. 国外毕业论文写作论证方面如何做好?
  6. html中的垂直居中实现
  7. 手里有10万块钱,创业做什么比较好?
  8. 没钱没经验的人到底拿什么资本创业?
  9. XmlHttp.onreadystatechange属性
  10. CAS:2183440-52-8,Cyanine5.5 azide是染料叠氮化物