评估假设与比较检验

  • 一、评估假设
    • 估计偏差和估计方差
      • 估计偏差
      • 估计方差
    • 样本错误率和真实错误率
    • 离散值假设的置信区间
    • 正态分布代替二项分布
      • 二项分布
    • 单双侧置信区间(置信度为α)
  • 二、比较检验
    • 交叉验证t检验
      • k折
      • n次k折
    • McNemar检验
    • Friedman检验和Nemenyi后续检验
      • Friedman检验
      • Nemenyi后续检验

评估假设部分看的《机器学习-Mitchell》比较检验部分还是周志华老师的《机器学习》。

不保证我自己理解的都对,这篇算是笔记的整理吧!

一、评估假设

估计偏差和估计方差

估计偏差

我们知道训练误差和测试误差,如果只有一个数据集,拿着它去喂我们的模型,然后拿它再去测试模型会出现一种看上去指标很高,但是很假的情况,总之就是模型看上去很“乐观”。所以我们通常会分出一部分来当做未来数据,这样我们可以都对未来的数据做一个无偏估计。

估计方差

继续上一段的话,如果我们两次得到错误率为0.3,一次样本数量100个一次是10000个,那么你能说这俩个0.3是一样的吗,很明显10000个样本的显得更真实。结论是我们使用的样本越多估计方差越小。

样本错误率和真实错误率

**样本错误率:**在某个数据样本的假设错误率。
errorss(h)=1n∑x∈Sδ(f(x),h(x))errors_s(h)=\frac{1}{n}\sum_{x\in S}{δ(f(x),h(x))} errorss​(h)=n1​x∈S∑​δ(f(x),h(x))
例子,如果10个数据,3个测试为负例,那么就是3/10=0.3。

**真实错误率:**分布在D的整个实例集合上的假设错误率。
errorsD(h)=Pr⁡x∈D[f(x)≠h(x)]errors_D(h)=\Pr_{x\in D}[f(x)≠h(x)] errorsD​(h)=x∈DPr​[f(x)​=h(x)]
按这种分布不断进行随机试验,最后得到的分错的样本数/总的样本数。

离散值假设的置信区间

上面说了很多看上去没啥用的话,从这才算开始,我们评估的时候更想要的是真实错误率而不是样本错误率,而真实错误率我们通常是得不到的,所以我们就要用样本错误率去代替它,当然不能直接代替。

引入置信区间置信度(学过高数应该了解这个词,没学过假装一下,有这么个名词就行了)。假设大约有95%(置信度)的可能性,真实错误率存在于下面的区间中:
errorsD(h):errorsS(h)±1.96errorss(h)(1−errorss(h))nerrors_D(h): errors_S(h)±1.96\sqrt{\frac{errors_s(h)(1-errors_s(h))}{n}} errorsD​(h):errorsS​(h)±1.96nerrorss​(h)(1−errorss​(h))​​
n是样本数,1.96对应95%,为什么是1.96,因为我们有一张被规定好的表告诉了我们怎么转换:

置信度 50% 68% 80% 90% 95% 98% 99%
常量 0.67 1.00 1.28 1.64 1.96 2.33 2.58

上面公式使用有几个前提,也就是说有些时候我们是无法将样本错误率转化为真实错误率的。

前提:

①样本数量也就是n至少为30。

②样本错误率不能太接近0或1。

正态分布代替二项分布

二项分布

直接上例子吧,好理解

10个样本3个分错

分对,分错的概率P®分别为0.7,0.3

X的期望:
E[X]=npE[X]=np E[X]=np
例子=10*0.7=7

X的方差:
Var(X)=np(1−p)Var(X)=np(1-p) Var(X)=np(1−p)
X的标准差:
σX=np(1−p)σ_X=\sqrt{np(1-p)} σX​=np(1−p)​
我们已得的随机变量样本错误率服从二项分布,再次回到前面的问题,这俩个错误率之前的差异是多少呢?如果我们用二项分布的话那么重新定义:
errorss(h)=rnerrors_s(h)=\frac{r}{n} errorss​(h)=nr​

errorsD(h)=perrors_D(h)=p errorsD​(h)=p

在统计学中,我们称样本错误率为真实错误率的一个估计量,如果要用他,我们就要关心下他的平均数能不能产生正确的估计,于是定义了任意参数p的估计量Y的估计偏差
E[Y]−pE[Y]-p E[Y]−p
如果估计偏差为0,我们称Y为p的无偏估计量。

以上便是二项分布有关问题,下面开始转换

对于给定N如何计算区间大小以及包含N%的概率质量?对于二项分布来说,这是很繁琐的,虽然大多情况下,我们用了近似值,而且他要求我们要有足够大的样本。二项分布可以有正态分布来近似,为什么选择正态分布,原因还有很多,这里不一一解释了。

概率密度函数:
p(x)=12πσ2e−12(x−μσ)2p(x)=\frac{1}{\sqrt{2πσ^2}}e^{-\frac{1}{2}(\frac{x-μ}{σ})^2} p(x)=2πσ2​1​e−21​(σx−μ​)2
X落入[a,b]概率:
∫abp(x)dx\int_{a}^{b}{p(x)dx} ∫ab​p(x)dx
X的期望/均值:
E[X]=μE[X]=μ E[X]=μ
X的方差:
Var(X)=σ2Var(X)=σ^2 Var(X)=σ2
X的标准差:
σX=σσ_X=σ σX​=σ

单双侧置信区间(置信度为α)

上面我们使用的置信区间均为双侧的,某些情况下我们需要用单侧的。

如果有一个含上界L和下界U的双侧置信区间为100(1-α)%,那么可以得到一个只含下界或只含上界的100(1-2α)%的单侧置信区间。

二、比较检验

交叉验证t检验

k折

对于学习器A和B,使用k折交叉验证得到的错误率为
ε1A,ε2A,...εkA和ε1B,ε2B,...εkBε_1^A,ε_2^A,...ε_k^A和ε_1^B,ε_2^B,...ε_k^B ε1A​,ε2A​,...εkA​和ε1B​,ε2B​,...εkB​
如果两个学习器性能相同,那么k个对应的ε都应该相同,也就是说:
εiA=εiBε_i^A=ε_i^B εiA​=εiB​
建立一个式子:
△i=εiA−εiB△_i=ε_i^A-ε_i^B △i​=εiA​−εiB​
对于k个△组成的列表,求得其均值μ和方差σ^2,在显著度α下,t检验为:
Tt=∣kμσ∣T_t=|\frac{\sqrt{k}μ}{σ}| Tt​=∣σk​μ​∣
当它小于临界值**t(α/2,k-1)**时,认为两个学习器没有显著性区别,否则平均错误率小的优。

加粗部分:有了显著度的α/2,k-1,根据对照表(可自行查阅)可以得到一个临界值。

n次k折

t检验公式定义做了一些改变,以5次2折交叉验证为例(n=5,k=2)

对于A和B两个学习器,第 i 次2折交叉验证产生两对错误率,对他们分别求差,得到第1折第2折插值
△i1和△i2△_i^1和△_i^2 △i1​和△i2​
计算第一次(注意看好,只求第一次的)k折交叉验证的平均值
μ=0.5(△11+△12)μ=0.5(△_1^1+△_1^2) μ=0.5(△11​+△12​)
计算每一次k折交叉验证的方差
σ2=(△i1−△i1+△i22)2+(△i2−△i1+△i22)2σ^2=(△_i^1-\frac{△_i^1+△_i^2}{2})^2+(△_i^2-\frac{△_i^1+△_i^2}{2})^2 σ2=(△i1​−2△i1​+△i2​​)2+(△i2​−2△i1​+△i2​​)2
t检验公式转化为:
Tt=μ0.2∑i=15σi2T_t=\frac{μ}{\sqrt{0.2\sum_{i=1}^{5}{σ_i^2}}} Tt​=0.2∑i=15​σi2​​μ​
服从自由度为5的t分布,检验方式如上。

McNemar检验

对于两分类器的分类结果,两两对比无非就是俩都对,俩都错,你对我错,你错我对,根据这个关系,我们得到一个表,名为列联表:

算法A 算法A
算法B 正确 错误
正确 e00 e01
错误 e10 e11

变量|e10-e01|服从正态分布,均值为1,方差为e10+e01,卡方检验为:
Tx2=(∣e10−e01∣−1)2e10+e01Tx^2=\frac{(|e10-e01|-1)^2}{e10+e01} Tx2=e10+e01(∣e10−e01∣−1)2​
服从自由度为1的卡方分布,给定显著度α,比较检验结果和临界值,小于临界值时,两个学习器性能差别不显著。否则平均错误率小的优。

Friedman检验和Nemenyi后续检验

Friedman检验

前面的两个检验都是在一个数据集比较两个算法,如果我们需要比较多个数据集多个算法是肿么办呢?

这就要用到这个小节了:

如果我们此时得到了五个数据集在四个算法上的指标,我们按照优劣排序1,2,3,4。

然后得到平均序值。

数据集 NB TAN SETAN 3WD-TAN
M 4 3 2 1
V 4 3 2 1
Br 2 4 3 1
Ba 4 3 2 1
C 4 3 1 2
平均序值 3.6 3.2 2 1.2

得到:
ri={3.6,3.2,2,1.2}r_i=\{3.6,3.2,2,1.2\} ri​={3.6,3.2,2,1.2}
n:数据集个数,k:算法个数

卡方分布
Tx2=12nk(k+1)(∑i=1kri2−k(k+1)24)T_{x^2} = \frac{12n}{k(k+1)}(\sum^{k}_{i=1}{r_i^2}-\frac{k(k+1)^2}{4}) Tx2​=k(k+1)12n​(i=1∑k​ri2​−4k(k+1)2​)
F分布
Tf=(n−1)Tx2n(k−1)−Tx2T_f=\frac{(n-1)T_{x^2}}{n(k-1)-T_{x^2}} Tf​=n(k−1)−Tx2​(n−1)Tx2​​
Tf服从自由度为k-1和(k-1)(n-1)的F分布,根据对照表的临界值,对比检验结果,方法如上。当算法性能不同时引入Nemenyi后续检验。

Nemenyi后续检验

首先计算出平均序列差别的临界值域
CD=qαk(k+1)6nCD=q_α\sqrt{\frac{k(k+1)}{6n}} CD=qα​6nk(k+1)​​
k和n都是已知量,那么还剩下一个qα值,这个值和检验一样需要对照一个表,根据显著度和算法个数k得到:

k
α 2 3 4 5 6 7 8 9 10
0.05 0.960 2.344 2.569 2.728 2.850 2.949 3.031 3.102 3.164
0.1 1.645 2.052 2.291 2.459 2.589 2.693 2.780 2.855 2.920

(软件问题,可能画的不好)

然后得到如下一个检验图

**解释:**每一条线长度相同都是CD的大小,也就是临界值域,每一个点对应每个算法的平均序值。

**这个图怎么看:**如果两个算法的线段没有交叠,那说明两个算法有显著性区别;如果有交叠,说明两个算法没有显著差别。如果有差别的话,点对应的x值,也就是平均序值越小,算法性能越好。

机器学习 扬帆起航004-02评估假设与比较检验相关推荐

  1. 高影响力期刊iMeta扬帆起航!第一篇文章已上线!

    "iMeta"是由威立.肠菌分会和本领域数百位华人科学家合作出版的开放获取期刊,主编由中科院微生物所刘双江和荷兰格罗宁根大学傅静远教授担任.目的是发表原创研究.方法和综述以促进宏基 ...

  2. 智子社区上线FCoin、IDCM即将扬帆起航

    智子社区(Sophon Capital Community)通证,以下简称SAIT,即将于8月25日同步登陆FCoin.IDCM交易平台,杀手级功能白皮书审查也将于近期正式上线智子社区主网站.智子社区 ...

  3. 百面机器学习(2)——模型评估

    目录 评估指标的局限性(准确率,精确率,召回率,均方根误差) ROC曲线(曲线下的面积AUC,P-R曲线) 余弦距离的应用(余弦相似度,余弦距离,欧式距离) A/B测试的陷阱(实验组,对照组) 模型评 ...

  4. “扬帆起航 开启DHR新纪元” 中建信息携手SAP SuccessFactors 人力资源“进化”之旅...

    申耀的科技观察 读懂科技,赢取未来! 7月19日,中建信息携手SAP,在天府之国成都引领合作伙伴开启了一场SAP SuccessFactors 人力资源'进化'之旅".SAP Success ...

  5. 高影响力期刊iMeta扬帆起航(微生物组生物信息)

    期刊简介 "iMeta"是由威立.肠菌分会和本领域数百位华人科学家合作出版的开放获取期刊,主编由中科院微生物所刘双江和荷兰格罗宁根大学傅静远教授担任.目的是发表原创研究.方法.综述 ...

  6. 读“基于机器学习的无参考图像质量评估综述”有感

    读"基于机器学习的无参考图像质量评估综述"有感 摘要: 无参数图像质量评价(NRIQA)因其广泛的应用需求一直以来都是计算机视觉及其交叉领域的研究热点.回顾近十几年来基于机器学习的 ...

  7. 扬帆起航 继续前行1 nginx+lua+template+cache

    扬帆起航 继续前进 1 1.nginx命中率低解决方案 分发层----算法------应用层 2.nginx+lua.最流行的开源方式OpenResty,提供了大量组件 OpenResty的安装:ht ...

  8. 对学校的希望和寄语_南中医举行2020年开学典礼,校长胡刚寄语“后浪”:乘风破浪,扬帆起航...

    现代快报讯(通讯员 刘丹青 记者 仲茜)"钟山脚下.扬子江畔,杏林学子济济一堂.青春风华.意气轩昂,满园桃李竟芬芳."9月17日,南京中医药大学举行2020级新生开学典礼.为了让每 ...

  9. 正宇控股集团丨正宇,扬帆起航

    你是一颗耀眼璀璨的明珠 你是一艘承载理想的航母 你是生命奇迹的见证 你是诠释爱心的净土 大千世界茫茫人海 是你把我们相拥在一起 都市繁华乡间小路 是你激励我们前进的脚步 只要我们追求梦想 绽放五彩斑斓 ...

  10. 【汇正财经】扬帆起航,医美市场行业规模扩张

    央视 315 曝光妆字号美容针乱象,有望加速医美产品正规化.今年央视 315聚焦了妆字号美容针的非法注射与虚假宣传问题,报导揭示了展会现场多位展商为顾客面部注射备案为化妆品的美容针的严重违法行为.事实 ...

最新文章

  1. 你的Windows电脑里有哪些效率翻倍的生产力软件?
  2. vue 插件 滑块验证_VUE接入腾讯验证码功能(滑块验证)备忘
  3. golang实现聊天室(四)
  4. Hive之架构 功能
  5. 亏了1000万,卖房卖车也要坚持梦想,值吗?
  6. zend studio 10.6.2破解和汉化
  7. Unity接入百度语音识别WebAPI
  8. 组装一台工作游戏两用机
  9. 信息系统集成监理费收取标准_信息产业部信息系统工程监理与咨询服务收费参考标准Word1...
  10. 如何上传蛋白质组数据
  11. 校园民谣:1983-2003。谨以此文献给2020年说再见就此生再也不见的毕业生们
  12. SWUST OJ312: 偷菜
  13. 多元统计分析笔记二——多元分布
  14. 全球主要语言缩写对照
  15. Python哲学之import this,诠释代码之美
  16. 网页前端监控系统(错误日志,接口监控)的使用
  17. DOS下显示JPG/JPEG图像文件
  18. 3.9、互斥锁(互斥量)
  19. Android应用安装流程理解
  20. 特斯拉充电电流设置多大_特斯拉充电时间需要多久?汽车知识介绍

热门文章

  1. FPGA IP核之FIFO
  2. 在centos官网下载系统镜像完整教程
  3. NetFlix 服务注册与发现 Eureka
  4. QT使用AES加密解密
  5. 电线行业中UL单支电子线成本计算
  6. 移动通讯技术--3G
  7. 三国论(16-20章)
  8. Oracle 11g SQL基础入门系列培训-小布作品
  9. 河南城建学院计算机学院排名,河南城建学院2019年度“读书之星”评选结果公示...
  10. 纵横iGoogle工具世界的程序发明王