机器学习实战课后习题(一)
机器学习实战课后习题第一章答案
课本:handson-ml2
1.如何定义机器学习?
- 机器学习是一门能够让编程计算机从数据中学习的计算机科学。
2.机器学习在哪些问题上表现突出?是否能提出四种类型?
机器学习非常利于:
- 不存在已知算法解决方案的复杂问题;
- 需要大量手动调整或是规则列表超长的问题;
- 创建可以适应环境波动的系统;
- 帮助人类学习(例如数据挖掘)。
3.什么是被标记的训练数据集?
- 被标记的训练集是指包含每个实例所期望的解决方案的训练集。
4.最常见的两种监督式学习任务是什么?
- 回归和分类。
5.举出四种常见的无监督式学习任务。
- 聚类、可视化、降维和关联规则学习。
6.要让一个机器人在各种未知的地形中行走,会使用什么类型的机器学习算法?
- 强化学习可能更适合复杂的一系列机器学习人类的行走动作。
7.要将顾客分成多个组,会使用什么类型的算法?
- 不知道分组的情况下,选择聚类算法;
- 知道具体的群组,选择分类算法。
8.垃圾邮件检测的问题是监督式学习还是无监督式学习?
- 典型的监督式学习问题:将邮件和它们的标签(垃圾邮件或非垃圾邮件)一起提供给算法。
9.什么是在线学习系统?
- 在线学习系统可以进行增量学习,与批量学习系统正好相反。使得它能够快速适应不断变化的数据和自动化系统,并且能够在大量的数据上进行训练。
10.什么是核外学习?
- 核外算法可以处理计算机主内存无法应对的大量数据。它将数据分割成小批量,然后使用在线学习计数从这些小批量中学习。
11.什么类型的学习算法依赖相似度来做出检测?
- 基于实例的学习系统。
12.模型参数与学习算法的超参数之间有什么区别?
- 模型有一个或多个参数,这些参数决定了模型对新的给定实例做出怎样的预测(例如,线性模型的斜率)。学习算法试图找到这些参数的最佳值,使得该模型能够很好地泛化至新实例。
- 超参数是学习算法本身的参数,不是模型的参数(例如,正则化参数)
13.基于模型的学习算法搜索的是什么?最常使用的策略是什么?它们如何做出预测?
- 基于模型的学习算法搜索使模型泛化最佳的模型参数值。
- 通常通过使损失函数最小化来训练这样的系统,损失函数衡量的是系统对训练数据的预测有多坏。
- 学习算法最后找到的参数值就是最终得到的预测函数,只需将实例提供给这个预测函数即可进行预测。
14.机器学习的四个主要挑战?
- 数据缺乏;
- 数据质量差;
- 数据不具有代表性;
- 特征不具信息量;
- 模型过于简单对训练数据欠拟合;
- 模型过于复杂对训练数据过拟合。
15.如果你的模型在训练数据上表现很好,但是应用在新的实例上的泛化结果却不好,是怎么回事?能提出三种可能的结局方案么?
- 过度拟合训练数据(在训练数据上运气太好)。可能的解决方案有:获取更多数据;简化模型(选择更简单的算法、减少使用的参数或特征数量、对模型进行正则化);减少训练数据中的噪声。
16.什么是测试集,为什么要使用测试集?
- 在模型启动至生产环境之前,使用测试集来估算模型在新实例上的泛化误差。
17.验证集的目的是什么?
- 验证集用来比较不同模型,可用来选择最佳模型和调整超参数。
18.如果使用测试集调整超参数会出现什么问题?
- 有过拟合的风险,最后测量的泛化误差过于乐观,导致最后的模型性能低于预期。
19.什么是交叉验证?为什么比验证集更好?
- 通过交叉验证计数,可以不需要单独的验证集实现模型比较(用于模型选择和调整超参数),节省了宝贵的训练数据。
机器学习实战课后习题(一)相关推荐
- 机器学习实战课后习题(八)
机器学习实战课后习题第八章答案 课本:handson-ml2 1.减少数据集维度的主要动机是什么?主要缺点是什么? 1.降维的主要动机是: 为了加速后续的训练算法(在某些情况下,也可能为了消除噪声和冗 ...
- 周志华《机器学习》课后习题(第七章):贝叶斯分类
作者 | 我是韩小琦 链接 | https://zhuanlan.zhihu.com/p/51768750 7.1 试使用极大似然法估算回瓜数据集 3.0 中前 3 个属性的类条件概率. 答: 以第一 ...
- 周志华《机器学习》课后习题(第三章):线性模型
作者 | 我是韩小琦 链接 | https://zhuanlan.zhihu.com/p/43270830 3.1 试分析在什么情况下,在以下式子中不比考虑偏置项b. 答: 在样本 中有某一个属性 ...
- 【机器学习】中国大学慕课《机器学习》课后习题(二)(回归)
部分习题来自黄海广老师的慕课<机器学习>的课后习题,答案暂不公布,可以留言讨论. 课程链接: https://www.icourse163.org/course/WZU-146409617 ...
- 周志华《机器学习》课后习题解析(第四章):决策树
作者 | 我是韩小琦 链接 | https://zhuanlan.zhihu.com/p/44666694 4.1 试证明对于不含冲突数据(即特征向量完全相同但标记不同)的训练集,必存在与训练集一致( ...
- 周志华《机器学习》课后习题解析(第二章)模型评估与选择
作者 | 我是韩小琦 链接 | https://zhuanlan.zhihu.com/p/42435889 2.1 数据集包含 1000 个样本,其中 500 个正例. 500 个反例,将其划分为包含 ...
- 周志华《机器学习》课后习题解析(第一章)绪论
周志华老师的<机器学习>(西瓜书)一书,没有公布答案,于是我们从网上搜集了各题目的答案,供大家参考. 参考答案 第一章 绪论 1.1.表1.1中若只包含编号为1,4的两个样例,试给出相应的 ...
- 周志华《机器学习》课后习题(第五章):神经网络
作者 | 我是韩小琦 链接 | https://zhuanlan.zhihu.com/p/47616848 5.1 试述将线性函数 用作神经元激活函数的缺陷. 答: 使用线性函数作为激活函数时,无论 ...
- 周志华《机器学习》课后习题解答系列(四):Ch3.3 - 编程实现对率回归
这里采用Python-sklearn的方式,环境搭建可参考 数据挖掘入门:Python开发环境搭建(eclipse-pydev模式). 相关答案和源代码托管在我的Github上:PY131/Machi ...
最新文章
- 【原】iOS学习之事件处理的原理
- [转]计算机存在两个管理员,删除其中一个,administration隐藏显示
- 12/12 day06
- ie下LI的间距问题
- Java设计模式之组合Composite模式代码示例
- 去掉烦人的“正在配置Windows”
- python贪婪匹配和非贪婪匹配_贪婪匹配和非贪婪匹配
- C# Stream 和 byte[] 之间的转换(文件流的应用)
- redis windows下的环境搭建
- odoo 自定义视图_如何使用Windows的五个模板自定义文件夹视图
- Pytorch中RNN入门思想及实现
- 听我讲完GET、POST原理,面试官给我倒了杯卡布奇诺
- php7.3 mysql gd支持_配置PHP对gd库的支持
- Nginx限速模块初探
- 中兴助印尼Smartfren测试大规模MIMO技术
- java数组里的索引越界问题、空指针异常问题
- 卸载精灵(bue directx) r4.0 完美版 是什么
- 性能 Android APP 帧数FPS的方法
- go学习笔记-语言指针
- 网址二维码:如何制作网页链接二维码?
热门文章
- matlab_stateflow_2
- g700刷机包android5,华为G700线刷刷机教程_华为G700线刷rom包_救砖系统刷机包
- 321套Excel可视化图表、Excel模板(在Excel里面实现数据可视化),史上最全Excel可视化图表,模板
- DOA估计 基于互质阵列的DOA估计
- 天津高一计算机会考,09天津高中计算机会考复习.doc
- 正则表达式及re模块
- win10电脑发现不了华为share_电脑发现不了华为分享?
- 广大华软html5期末试卷,数据库原理与应用试题--含答案(华软)
- 美团技术团队:实例详解机器学习如何解决问题
- 全栈之路-前端篇 | 第三讲.基础前置知识【前端标准与研发工具】学习笔记