特征选择-相关系数法F检验
F检验(F-test),最常用的别名叫做联合假设检验(英语:joint hypotheses test),此外也称方差比率检验、方差齐性检验。它是一种在原假设(null hypothesis, H0)之下,统计值服从F-分布的检验。
F检验的计算公式:
p值的计算:
p值的计算是与假设检验有着密不可分的关系,p值为结果可信水平的一个递减指标,p值越大,我们越不能以为样本中变量的关联是总体中各变量关联的可靠指标。p值是将察看结果觉得有效即具有总体代表性的犯错概率。如p=0.05提醒样本中变量关联有5%的可能是由于偶然性造成的。即假设总体中任意变量间均无关联,我们反复相似试验,会发现约20个试验中有一个试验,我们所研讨的变量关联将等于或强于我们的实验结果。(这并不是说如果变量间存在关联,我们可得到5%或95%次数的雷同结果,当总体中的变量存在关联,反复钻研和发明关联的可能性与设计的统计学效率有关。)在许多钻研范畴,0.05的p值通常被以为是可接收过错的边界程度。
让我们用一个统计学的例子来描述p值的求取过程:
例如:假设某制药公司断言,鼾克能够在2周内治愈90%的患者。恰好一位医生在给患者开治疗药物时随机抽取了15名患者的治疗情况,统计他们是否被治愈,结果如下:
是否治愈 |
是 |
否 |
频数 |
11 |
4 |
根据抽样结果,这名医生对该药物的治疗效果表示失望,因此她想要否决该制药公司的断言。
1.确定原假设和备择假设
那么她如果想要拒绝这个推论就需要检验鼻鼾药物是否至少能治愈90%的患者,因此原假设为:p=90%.即(H0:p=0.9)
而与原假设对立的结论被统计学称为备择假设,一般用H1表示。因此有医生认为制药公司对疗效的判断不准确,她认为治愈率不会达到90%,低于90%的概率比较大。此时我们能够确定备择假设为H1:p<0.9.
2.选择检验统计量
由于我们需要检验是否有充足的证据反驳原假设。办法是:首先假设H0为真,然后寻找不利于H0的证据。在针对上述案例中,我们假设治愈概率为0.9,在X个样本人数中随机抽取15名患者的治疗情况,此时的X就称为检验统计量。因此检验统计量将服从二项分布,即:X~B(15,0.9)。而我们想要拒绝原假设又怎么办呢,这就需要根据样本结果,然后计算发生这个结果的概率—此时就需要求拒绝域来实现这一目的了。
3.确定拒绝域
假设检验的拒绝域是一组数值,这组数值给出了反驳原假设的最极端的证据。再让我们回到医生的样本中,以便了解拒绝域的使用方法。如果治愈人数为90%或90%以上,这就与制药公司的断言吻合了。随着治疗人数的下降,制药公司的断言为真的可能性越来越小。
下面是概率分布:
1)何时能够拒绝制药公司的断言呢?
样本中得到成功治愈的患者人数越少,就可以用于反驳制药公司断言的证据就越有力。问题是:这些证据的强度达到多大时,我们能够坚决地拒绝原假设?
我们需要通过某种方法指出何时能够合理的拒绝原假设---指定一个拒绝域即可实现这一目的。如果鼻鼾患者的治愈人数位于拒绝域以内,我们就说有足够的证据可以反驳原假设;如果鼻鼾患者的治愈人数位于拒绝域以外,我们就承认没有足够的证据可以反驳原假设,并接受制药公司的断言。我们把拒绝域的分界点称为“c”----临界值。
2)如何选择临界值
提到临界值,就不得不谈下显著性水平。这也是求取拒绝域必须先定下的参数,检验的显著性水平所量度的是一种愿望,即:希望在样本的结果的不可能程度达到多大时,就拒绝原假设H1.像置信区间的置信水平一样,显著性水平以百分数表示。
假设我们想以5%为显著性水平检验只要公式的断言,这说明我们选取的拒绝域应使得“鼻鼾患者的治愈人数小于c”的概率小于0.05,即概率分布最低端的5%部分。
显著性水平通常用希腊字母α表示。α越小,为了拒绝H0,样本结果需要达到的不可能程度越高。
所以上述过程的公式化表达为:
一般情况下α由人为确定,概率的值也可以通过查表的方式获取。
补充小知识(单边检验,双边检验):
两者的区别主要看X<c之间的符号,不等于时候为双边检验,文字表达有点啰嗦,直接上图吧!
单边检验:
双边检测:
4.求取p值
P值的求取取决于拒绝域和检验统计量。对于鼾克检验来说,治愈人数为11人,而拒绝域位于分布的最低端,于是P值为(P(X<=11)),其中X为样本中的治愈人数的分布。
由于显著水平为5%,说明如果P(X<=11)小于0.05,则落在拒绝域中,这时我们可以拒绝原假设。
要计算P的值,这时我们要回想起前面我们谈到了X是服从B(15,0.9)的二项分布的,因此我们的P(X<=11)的计算结果就为:
好了,最终我们求得p值为0.0555.此时的样本不在拒绝域内,说明制药厂的断言还不足以被推翻。
以上内容转自https://blog.csdn.net/zijinmu69/article/details/80564566
在机器学习特征选择中
常用来计算各个特征属性对于目标值对相关系数以及相关系数对P值,然后选取大于阈值对特征属性。
特征选择-相关系数法F检验相关推荐
- 特征选择过滤法之方差选择、双样本t检验、方差分析、相关系数法、卡方检验、互信息法
特征选择过滤法之方差选择.双样本t检验.方差分析.相关系数法.卡方检验.互信息法 目录
- 特征选择过滤法-方差过滤、F检验、互信息法
过滤法 过滤法通常用作预处理步骤,特征选择完全独立于任何机器学习算法.它是根据各种统计检验分数和相关性指标来选择特征. 全部特征--->最佳特征子集--->算法---> ...
- T检验、F检验、卡方检验、互信息法及机器学习应用
1.T检验 目的:主要是为了比较数据样本之间是否具有显著性的差异.主要通过样本均值的差异进行检验,判断差异性. 前置条件:样本服从正态分布:各样本间独立. 适用:小样本(n<30); 定量数据检 ...
- python f检验 模型拟合度_多元线性回归模型检验和预测
一.概述 (F检验)显著性检验:检测自变量是否真正影响到因变量的波动. (t检验)回归系数检验:单个自变量在模型中是否有效. 二.回归模型检验 检验回归模型的好坏常用的是F检验和t检验.F检验验证的是 ...
- KS检验、t检验、f检验、Grubbs检验、狄克逊(Dixon)检验、卡方检验小结
1. KS检验 Kolmogorov-Smirnov检验是基于累计分布函数的,用于检验一个分布是否符合某种理论分布或比较两个经验分布是否有显著差异. 单样本K-S检验是用来检验一个数据的观测经验分布是 ...
- T检验与F检验的区别和关系
转自于:http://www.cdadata.com/9116 1,T检验和F检验的由来 一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方 ...
- t检验.医学统计实例详解-医学统计助手★卡方检验,t检验,F检验,秩和检验,方差分析
t检验是医学统计学中常用的一种假设检验方法,用于比较两个样本均值是否有显著差异.它可以帮助医学研究者确定一个治疗方法或药物是否显著地改善了患者的症状或生理指标. 在医学研究中,t检验常被用来: 比较两 ...
- python数据分析----卡方检验,T检验,F检验,K-S检验
卡方检验 卡方检验是一种用途很广的计数资料的假设检验方法.它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析.其根本思想就是在于比较理论频数和实际频数的吻合 ...
- t检验自由度的意义_T检验和F检验 自由度(转)
1,T检验和F检验的由来 一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方法,进行统计检定. 通过把所得到的统计检定值,与统计学家建立了一 ...
- 点特征提取及影像相关系数法匹配
一.ReadMe 1. 实习任务 2. 实验数据 3. 编程环境 4. 文件组织结构 二.原理及算法 1. 点特征提取 1.1Moravec算法 1.2Forstner算法 2. 相关系数法匹配 三. ...
最新文章
- 跨平台PHP调试器设计及使用方法——拾遗
- 分享一首诗歌关于人生 时间 成就 得失的
- 数学中的span以及线性流形是什么意思
- Linux监控进程的iops,linux性能监控工具--Collectl
- mysql解释中fitered_MySQL的explain中的参数说明
- python 3.6 MJ小工具
- C语言实现http的下载
- 问题九:C++中::是干嘛用的(域解析操作符)
- 用户画像的构建与使用2应用
- 「leetcode」406.根据身高重建队列【贪心算法】详细图解
- Cocos2dx 3.0 过渡篇(二十六)C++11多线程std::thread的简单使用(上)
- 当游戏遇到区块链之链游经济系统思考
- Windows 2016 server NVIDIA cuda toolkit11.3 pytorch-gpu 踩坑教程
- mysql lag和lead_Oracle的LAG和LEAD分析函数
- java从入门到精通API01
- 人工智能专业就业方向及就业前景分析
- eps倾斜摄影矢量化采集毕业设计_eps倾斜摄影矢量化dlg采集#知识参考
- 免费高效的Speedpdf,一款好用的在线转换神器
- 转 近几年前端技术盘点以及 2016 年技术发展方向
- Arduino超声波测距模块控制蜂鸣器
热门文章
- android 项目交接文档,Android实用开发规范
- 文件管理器android实现,基于Android的文件管理器的设计与实现
- Heckman 两阶段法及与工具变量法的区别
- qrc文件编译到可执行文件exe
- 信号与系统实验二 信号运算的MATLAB 实验
- LinGo基本用法总结
- alipay.data.bill.balance.query ISV权限不足
- 请求支付宝渠道报错:40006,Insufficient Permissions,ISV权限不足
- 计算机英语词汇 沪江,常用计算机英语词汇学习
- 天涯论坛邮箱采集器1.0