2.1:分层采样,
[ ( 500 500 × 70 % ) ] 2 \left[ \binom{500}{500\times 70\%} \right]^2 [(500×70%500​)]2

2.2:注意需要分层采样。

(1)10折交叉验证法

这时 D 1 , D 2 , ⋯ , D 10 D_1,D_2,\cdots,D_{10} D1​,D2​,⋯,D10​均含有5个正例和5个负例,即训练集中的正负例个数相同,此时算法模型为随机猜测,错误率为50%。

(2)留一法

当“留一”为正例时,则训练集中负例占多数,训练出的算法模型预测“留一”(测试集)为负例,错误率为100%,当“留一”为负例时,同样推导出错误率为 100%。 平均下来,该算法的错误率为100%。

此题说明:同一数据集用不同的方法分拆出训练集和测试集时,同一算法可能会有不同的错误率。

2.3:在BEP处 P = R P=R P=R,又由调和平均得到BEP处 F 1 = P = R F_1=P=R F1​=P=R

若 F 1 A > F 1 B F_1^A>F_1^B F1A​>F1B​则
{ P A > P B R A > R B \begin{equation*} \begin{cases} P^A>P^B\\ R^A>R^B \end{cases} \end{equation*} {PA>PBRA>RB​​
即A的BEP点高于B的。

2.4:参见:2.3 恭喜:高考你被录取了!式(3)

2.5*:参见2.4 事情有点麻烦:你的分数与别人并列了!

2.6:参见2.5 代价的曲线美中图1、图2的讨论。

2.7:2.5 代价的曲线美中,我们讨论了任意一条ROC曲线都有一条对应的代价曲线。

反过来,由于代价曲线是由“包络”形成的,即它的任一点Q都存在一条切线,该切线与正方形交于 A ( 0 , a ) A(0,a) A(0,a)与 B ( 1 , b ) B(1,b) B(1,b)(【西瓜书图2.5】以及代价的曲线美中图1,
设 F P R = a T P R = 1 − b FPR=a \quad TPR=1-b FPR=aTPR=1−b,则动点 R ( F P R , T P R ) R(FPR,TPR) R(FPR,TPR)在坐标系中形成ROC曲线。

2.8:
(1) m i n − m a x min-max min−max关注范围,将任意 [ x m i n , x m a x ] [x_{min},x_{max}] [xmin​,xmax​]中的变量变换到指定的范围 [ x m i n ′ , x m a x ′ ] [x'_{min},x'_{max}] [xmin′​,xmax′​]内,如,将120分制的分数转化为100分制的。 而 z − s c o r e z-score z−score关注的是分布密度,将任意分布密度变量变换为标准正态分布。

(2) m i n − m a x min-max min−max公式只与端点值相关,而 z − s c o r e z-score z−score公式与全部值相关(需要计算 x ˉ \bar{x} xˉ和 σ x \sigma _x σx​),即增加或减少样本时需要重新计算。

(3) m i n − m a x min-max min−max能将新变量固定到一个范围,如,归一化到[0,1],而 z − s c o r e z-score z−score做不到,它能使得新变量服从标准正态分布 N ( 0 , 1 ) N(0,1) N(0,1),通过其累计分布可获得原变量各值所处的百分位位置,高考标准分及排位就是利用这个原理。

2.9: χ 2 \chi _2 χ2​检验过程同 t t t检验过程,只不过是查卡方分布表。

2.10:【西瓜书式(2.34)】用 χ 2 \chi _2 χ2​检验,【西瓜书式(2.35)】用 F F F检验,前者较后者保守。 更多的知识可参考统计学的方差分析。

本文为原创,您可以:

  • 点赞(支持博主)
  • 收藏(待以后看)
  • 转发(他考研或学习,正需要)
  • 评论(或讨论)
  • 引用(支持原创)
  • 不侵权

上一篇:周志华西瓜书《机器学习》习题提示——第1章
下一篇:3.1 线性回归(线性模型对应于仿射函数)

周志华西瓜书《机器学习》习题提示——第2章相关推荐

  1. 周志华西瓜书课后习题答案总目录

    https://blog.csdn.net/icefire_tyh/article/details/52064910 机器学习(周志华西瓜书)参考答案总目录 从刚开始学习机器学习到现在也有几个月了,期 ...

  2. 《机器学习》(周志华)西瓜书读书笔记

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 第1章 绪论 第2章 模型评估与选择 第3章 线性模型 第4章 决策树 第5章 神经网络 第6章 神经网络 第7章 贝 ...

  3. 周志华西瓜书学习笔记(一)

    周志华西瓜书学习笔记 第一章 绪论 数据处理分为三个阶段:收集,分析,预测. 一.基本概念 机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能. Mitchell给出的更形式化的定义为 ...

  4. 周志华西瓜书3.4题——用十折交叉验证法和留一法估计对率回归的误差

    周志华西瓜书3.4题. 本文所编写的代码均使用python3.7进行调试,依靠的sklearn进行的实验. 第一步,导入iris数据集,数据集使用sklearn包里面自带的. from sklearn ...

  5. 周志华西瓜书公式勘误(一)之公式2.27勘误

    刚开始读周志华老师的机器学习西瓜书,读到第38页时感觉公式2.27的公式有误,照书上的理解怎么也说不通,网上搜一下,果然发现知乎上有人提问.可惜知乎上的回答也不能让人满意,不仅罗里吧嗦,还满屏公式让人 ...

  6. 周志华西瓜书第三章学习笔记

    第三章学习笔记 文章目录 第三章学习笔记 1.知识脉络 2.我的笔记 参考 1.知识脉络 2.我的笔记 这一章公式推导实在太多了,需要补充的推导过程也有很多,就不写电子档了.扩展公式推导和LDA部分补 ...

  7. 机器学习(周志华西瓜书) 参考答案 总目录

    转自:http://blog.csdn.net/icefire_tyh/article/details/52064910 从刚开始学习机器学习到现在也有几个月了,期间看过PDF,上过MOOC,总感觉知 ...

  8. 《机器学习》周志华(西瓜书)学习笔记 第十一章 特征选择与稀疏学习

    机器学习 总目录 第十一章 特征选择与稀疏学习 11.1 子集搜索与评价 给定属性集,其中有些属性可能很关键.很有用,另一些 属性则可能没什么用.我们将属性称为"特征" (feat ...

  9. 周志华西瓜书 10 个算法详细视频

    (文末有福利) 如果你现在准备开始学习,我想你的第一步就是先囤课!打开你的百度云,发现内存已达到80%!打开你的收藏夹,链接已经100+!仿佛我囤了,就代表我学了! 可是,真的有认真看吗? 可能囤积这 ...

最新文章

  1. Bengio参与、LeCun点赞:图神经网络权威基准现已开源
  2. 利用ConfigParser读取配置文件
  3. c语言中函数可以有几个参数,C中子函数最多有几个形参
  4. 考试 彩色 离散化+类暴力
  5. 使用X.509数字证书加密解密实务(一)-- 证书的获得和管理
  6. php自动关闭页面代码,自动生成伪静态页面代码(简易版)
  7. 封装jquery插件 uoload file
  8. iOS12.3正式版发布 iOS13亮相进入倒计时
  9. ctfshow-WEB-web1签到题
  10. kubernetes视频教程笔记 (7)-安装Harbor私有仓库
  11. 二分图最大权匹配【KM算法 BFS优化下的真正的O(N3)的KM算法】【KM算法模板】
  12. 下一代数据架构Data Fabric到底是什么?
  13. 怎么把wav转换成mp3格式,5种方法值得收藏
  14. python制作qq登录界面_Python制作一个仿QQ办公版的图形登录界面
  15. Mysql 报错:Incorrect string value: ‘\xE4\xBB\x98\xE6\xAC\xBE...‘ for column ‘product_pay_remark‘
  16. [java]干支纪年法(循环练习)
  17. d调 简谱 一次就好
  18. 微信小程序开发之——个人中心-介绍(1)
  19. 音频拼接软件哪个好用?这三款软件千万不要错过哦
  20. xplorer文件管理下载 | xplorer2 Professional Ultimate(文件管理器)官方中文版V5.0.0.0 | 文件管理器哪个好用

热门文章

  1. 欧洲科学家计划建立大型人工智能中心来与中美竞争
  2. ELA图像处理-图像篡改
  3. 计算机桌面出现家庭组,如何删除桌面上的“家庭组”图标;如何设置桌面图标...
  4. dscp值_QOS的dscp值0-63怎么划分优先级?
  5. scrapy抓取盗墓笔记小说
  6. Squish - GUI Tester
  7. SQL索引字段使用函数操作导致不走索引
  8. oracle判断空值的函数nvl2,【PL/SQL】 NVL,NVL2,COALESCE 三种空值判断函数
  9. VirtualBox下win10系统时间比实际时间慢8个小时
  10. 联合循环——29低压柜欠电压保护