统计学nb。当笔者使用SPSS,或者调用很多sk-learn函数包时,常常会用并不是最难的,会选择包,会阅读结果,会得出统计学答案才是最难的。

T-Value

T-value 就是组间差异与组内差异的比值。
t=XˉA−XˉBSE(XˉA−XˉB)t=\frac{\bar{X}_{A}-\bar{X}_{B}}{S E\left(\bar{X}_{A}-\bar{X}_{B}\right)}t=SE(XˉAXˉB)XˉAXˉB
其中SE指Standard Error。

单样本T值

对于单样本来说
t=m−μs/nt=\frac{m-\mu}{s / \sqrt{n}}t=s/n

mμ
其中m为样本均值,μ\muμ为理论均值,s是样本标准差,n是样本量。

阈值和结果阅读

如果第一组均值大于第二组均值,则t值将为正;如果较小,则t值将为负。
一旦T值确定,则必须在阅读t检验表(见附录)

α\alphaα选定0.05,自由度dF:
df=n−1df=n-1 df=n1

T-test解释

t检验评估两组的均值是否在统计学上彼此不同。每当您想比较两组均值时,此分析都是合适的,尤其适合作为posttest-only two-group randomized experimental design.

但上图仅仅是一个理想分布,实际情况中,由于结果的可变范围不同,在相同的均值差下,可能看起来会有几乎完全不同的效果,如下图:

当我们查看两组分数之间的差异时,我们必须判断其均值相对于分数分布或变异性的差异。T检验就是这样做的。

T-Test单双尾检验选择

t -test 首先要服从正态分布,如果不服从正态分布,可以使用非参数检验

附录:T-test表


表格来源:http://www.sthda.com/english/wiki/t-distribution-table

扩展阅读

同方差(pooled variances)t-test

t=mA−mBS2nA+S2nBt=\frac{m_{A}-m_{B}}{\sqrt{\frac{S^{2}}{n_{A}}+\frac{S^{2}}{n_{B}}}}t=nAS2+nBS2

mAmB
其中
S2=∑(x−mA)2+∑(x−mB)2nA+nB−2S^{2}=\frac{\sum\left(x-m_{A}\right)^{2}+\sum\left(x-m_{B}\right)^{2}}{n_{A}+n_{B}-2}S2=nA+nB2(xmA)2+(xmB)2

异方差(separate variance)t-test

t=mA−mBsA2nA+SB2nBt=\frac{m_{A}-m_{B}}{\sqrt{\frac{s_{A}^{2}}{n_{A}}+\frac{S_{B}^{2}}{n_{B}}}}t=nAsA2+nBSB2

mAmB
其中

配对样本 T 检验(paired t-test)

如果对相同的人或事,有两个测量值(before/after)选择配对 T 检验。

要比较配对样本的均值,首先要计算出所有配对的差值 d。


m:d 的平均值;

s:d 的标准差;

n:d 的数量。

自由度: df=nd−1df=n_{d}-1df=nd1

机器学习中使用T-Test做特征筛选

机器学习中有三种特征筛选方法:

  • Filter approach和“任务”无关
  • Wrapper approach用predictor来评估参数,和任务有关
  • Embedding approach用predictor来构建一个模型,之后用模型来选择,Lasso也属于这里

使用T-test做二分类问题的参数选择如下图:右侧是比较好的特征

T-Test的R语言实战

https://zhuanlan.zhihu.com/p/38243421

参考文献

https://www.statisticshowto.datasciencecentral.com/probability-and-statistics/t-test/
http://www.sthda.com/english/wiki/t-test-formula
https://socialresearchmethods.net/kb/statistical-student-t-test/

特征筛选利器:详解T-test(T检验)原理、参数分析、单\双尾检验选择相关推荐

  1. 尺度不变特征变换匹配算法详解

    尺度不变特征变换匹配算法详解 Scale Invariant Feature Transform(SIFT) Just For Fun 对于初学者,从David G.Lowe的论文到实现,有许多鸿沟, ...

  2. python 数列筛选_对numpy中的数组条件筛选功能详解

    在程序设计中,时常会遇到数据的唯一化.相同.相异信息的提取等工作,在格式化的向量存储矩阵中南,numpy能够提供比较不错的快速处理功能. 1,唯一化的实现: In [63]: data = np.ar ...

  3. php搜索表格,table表格内对某列内容进行搜索筛选步骤详解

    这次给大家带来table表格内对某列内容进行搜索筛选步骤详解,table表格内对某列内容进行搜索筛选的注意事项有哪些,下面就是实战案例,一起来看一下. 往往有些时候,我们把数据从数据库读取出来,显示到 ...

  4. 详解OpenCV中的Lucas Kanade稀疏光流单应追踪器

    详解OpenCV中的Lucas Kanade稀疏光流单应追踪器 1. 效果图 2. 源码 参考 这篇博客将详细介绍OpenCV中的Lucas Kanade稀疏光流单应追踪器. 光流是由物体或相机的运动 ...

  5. 网络知识详解之:HTTPS通信原理剖析(对称、非对称加密、数字签名、数字证书)

    网络知识详解之:HTTPS通信原理剖析(对称.非对称加密.数字签名.数字证书) 计算机网络相关知识体系详解 网络知识详解之:TCP连接原理详解 网络知识详解之:HTTP协议基础 网络知识详解之:HTT ...

  6. 详解阿里巴巴1688日常业务中的榜单算法

    导读:本文详解阿里巴巴1688日常业务中的榜单算法. 作者:阿里集团 新零售技术事业群 CBU技术部 来源:大数据DT(ID:hzdashuju) 在1688日常的业务场景中,榜单(如图6-14所示) ...

  7. tomcat7修改内存 win_详解Windows下调整Tomcat启动参数的实现方法

    Windows下调整Tomcat启动参数 Tomcat默认可以使用的内存为128MB,对于访问数比较多.比较吃内存的应用来说,这是不够的.我们可以通过调整Java虚拟机的启动参数来增加Tomcat可使 ...

  8. 详解CUDA核函数及运行时参数

    详解CUDA核函数及运行时参数 核函数是GPU每个thread上运行的程序.必须通过__gloabl__函数类型限定符定义.形式如下: __global__ void kernel(param lis ...

  9. python什么是可变参数_详解Python的三种可变参数

    可变参数 可变参数应该最简单,在C/C++和Java等语言中都有,就是用*号来表示,例如 def testArg(*arg) 你可以传入任意多个元素(包括0)到参数中,在函数内部会自动认为是一个元组或 ...

  10. 详解变频器、逆变器工作原理

    我现在知道直流怎么变为交流,通过PWM波,我感觉无人机的电调就是个逆变器,就是把直流变为交流,莫非就是飞控输出PWM,电调就是专为交流电?不讲道理是PWM遇到电机线圈就自动变为交流电了么. 摘自:ht ...

最新文章

  1. Spring Bean 中的线程安全
  2. mysql+零时数据结构,MySql主要索引数据结构
  3. b500k带开关电位器内部构造_R138带开关大功率大电流电位器 B10K B500K
  4. 数据库两大神器【索引和锁】
  5. 我为啥不想用Python
  6. C#算法 质因数 最大公约数与最小公倍数
  7. angularjs1-2,作用域、代码压缩
  8. iframe常用属性知识
  9. 由UIview获得其controller
  10. 教你编写第一个人工智能程序
  11. 移动通信技术的未来发展趋势分析
  12. 《从零开始的 RPG 游戏制作教程》第八期:对话、按钮、变量、马甲
  13. c语言常用英语带音标,C语言常见英语单词,带音标
  14. 关于欧拉四面体公式的推导及证明过程
  15. Python爬虫爬取滚动新闻
  16. 醉林疯的PTA 7-2 换硬币 (20分)
  17. 全球及中国芯片产业研发方向与投资规模预测报告2022版
  18. 天池比赛TASK3打卡
  19. R语言ggplot2可视化为轴标签添加下标实战:符号下标、百分比下标、带括号的下标
  20. 判定重大风险有哪几种_安全风险分为哪几个等级

热门文章

  1. 京东自营客服初级考试
  2. 绿盟科技网络安全攻防实验室安全研究员廖新喜:Java JSON 反序列化之殇
  3. DAP数据加工流程梳理
  4. 从零开始用人工智能预测股票(二、数据加工)
  5. svg格鲁特动画代码
  6. Lambda表达式的几种简化形式
  7. Python输入身高体重并计算BMI
  8. 错误Could not locate executable null\bin\winutils.exe in the Hadoop binaries的解决方案
  9. 隐藏的BUG探讨——从“Y2K”问题到“2038”年问题
  10. 如何回答“你没有经验,我们为什么录用你”