• 我们在生活中经常会遇到对一个总体数据进行评估的问题,但我们又不能直接统计全部数据,这时就需要从总体中抽出一部分样本,用样本来估计总体情况。

01 假设检验概念:反证法

  • 假设检验,也称为显著性检验,是通过样本的统计量,来判断与总体参数之间是否存在差异(差异是否显著)。那我们对总体参数进行一定的假设,然后通过收集到的数据,来验证我们之前作出的假设(总体参数)是否合理。

  • 在假设检验中,我们会建立两个完全对立的假设,分别为原假设H0(零假设)与备则假设(对立假设)H1,然后根据样本信息进行分析判断,是选择接受维持原假设还是拒绝原假设,假设检验基于反证法。首先,我们会假设原假设为真,如果在此基础上,得出了违反逻辑与常理的结论,则表明原假设是错误的,我们就接受备则假设,否则,我们就没有充分的理由推翻原假设,此时,我们选择去接受原假设。

  • 假设检验(hypothesis testing),又称统计假设检验,是用来判断样本与样本、样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。

  • 显著性检验是假设检验中最常用的一种方法,也是一种最基本的统计推断形式,其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。

原假设H0(零假设):样本与总体或样本与样本间的差异是由抽样误差引起的;
备则假设H1:样本与总体或样本与样本间存在本质差异

  • 为了检验一个假设H0是否正确,首先假定该假设H0正确,然后根据样本对假设H0做出接受或拒绝的决策。

  • 常用的假设检验方法有Z检验、t检验、卡方检验、F检验等。

弃真错误、取伪错误

我们通过样本数据来判断总体参数的假设是否成立,但样本时随机的,因而有可能出现小概率的错误。这种错误分两种,一种是弃真错误,另一种是取伪错误。

弃真错误也叫第I类错误或α错误:它是指 原假设实际上是真的,但通过样本估计总体后,拒绝了原假设。明显这是错误的,我们拒绝了真实的原假设,所以叫弃真错误,这个错误的概率我们记为α。这个值也是显著性水平,在假设检验之前我们会规定这个概率的大小。

取伪错误也叫第II类错误或β错误:它是指 原假设实际上假的,但通过样本估计总体后,接受了原假设。明显者是错误的,我们接受的原假设实际上是假的,所以叫取伪错误,这个错误的概率我们记为β。

现在清楚原假设一般都是想要拒绝的假设了么?因为原假设备被拒绝,如果出错的话,只能犯弃真错误,而犯弃真错误的概率已经被规定的显著性水平所控制了。这样对统计者来说更容易控制,将错误影响降到最小。

02 小概率事件:违反悖论、不应该发生

  • 在假设检验中,违反逻辑与常规的结论,就是小概率事件,我们认为,小概率事件在一次试验中是不会发生的,我们首先认为原假设为真,如果在此基础上,小概率事件发生,则我们就拒绝原假设,否则,我们就选择去接受原假设。
  • 假设检验遵循疑罪从无的原则,接受原假设,并不代表假设一定是正确的,只是我们没有充分的证据,去证明原假设是错误的,因此,只能维持原假设。
  • 那么,假设检验中的小概率事件是怎么得出的呢? 想想置信区间。

03 P值与显著性水平

  • 假设检验,用来检验样本的统计量与总体参数是否存在显著性差异。那么,如何才算显著?我们就可以计算一个概率值P-value,该概率值可以认为就是支持原假设的概率,因为在假设检验中,通常原假设为等值假设,因此,P-value也就表示样本统计量与总体参数无差异的概率。然后,我们预先设定一个阈值,这个阈值就是显著性水平(使用α表示),通常α的取值为0.05(1-α为置信度),当P-value的值大于α时,支持原假设,否则,拒绝原假设。
  • 假设检验与之前的参数估计具有一定的相似性,只不过参数估计是通过正面的方式,来计算总体参数可能的值(区间),而假设检验是从反证的角度来判断,是接受原假设,还是拒绝原假设。
  • 所谓显著性水平,可以认为是一个临界水平,我们拿某次实验得到的实际的p-value与该显著性水平下理论上应该是多少的p-value的临界值进行比较。如果实际的p-value比临界值上的p-value低,则说明结果显著,如果实际的p-value比临界值上的p-value高,则说明结果不显著。
  • 显著性水平是指当原假设实际上正确时,检验统计量落在拒绝域的概率,简单理解就是犯弃真错误的概率。这个值是我们做假设检验之前统计者根据业务情况定好的。

04 假设检验步骤

  1. 设置原假设与备则假设。
  2. 设置显著性水平α。
  3. 根据问题选择假设检验的方式,计算统计量,并通过统计量获取P值
  4. 根据P值和α值,决定接受原假设还是备则假设。

学习笔记 | 假设检验概念、小概率事件、P-Value与显著性水平、假设检验步骤相关推荐

  1. 软考高项之学习笔记——质量成本概念

    软考高项之学习笔记--质量成本概念 一.常见混淆概念 二.质量成本相关概念解释 1.质量成本概念 2.一致性成本 3.非一致性成本 三.历年真题 一.常见混淆概念 质量成本.一致性成本.非一致性成本. ...

  2. TCP/IP详解学习笔记-基本概念

    为什么会有TCP/IP协议 在世界上各地,各种各样的电脑运行着各自不同的操作系统为大家服务,这些电脑在表达同一种信息的时候所使用的方法是千差万别.就好像圣经中上帝打乱了各地人的口音,让他们无法合作一样 ...

  3. HFS学习笔记——基本概念

    HFSS软件学习笔记 一.HFSS中的边界条件(Boundaries) 边界条件定义了求解区域的边界以及不同物体交界处的电磁场特性,是求解麦克斯韦方程的基础. 只有在假定场矢量是单值.有界.并且沿空间 ...

  4. 变分推断(variational inference)学习笔记(1)——概念介绍

    ref:http://www.crescentmoon.info/?p=709#more-709 问题描述 变分推断是一类用于贝叶斯估计和机器学习领域中近似计算复杂(intractable)积分的技术 ...

  5. 网络原理学习笔记--基本概念1

    学习网络原理过程中必须熟知的一些最基本的概念,理解这些概念对于学习信号传输.各种网络协议等都很有帮助 1) 模拟信号:就是连续变化的信号.例如,当我们说话时,声音大小是连续变化的,因此运送话音信息的声 ...

  6. 机器学习/深度学习-学习笔记:概念补充(上)

    学习时间:2022.05.09~2022.05.11 概念补充(上) 在进行学习机器学习和深度学习的过程中,对于部分概念会比较陌生(可能是因为没有系统深入学习过统计学.运筹学和概率统计的相关知识:也可 ...

  7. Eureka学习笔记001--Eureka概念和源码分析

    Eureka的一些概念 Register:服务注册  当Eureka客户端向Eureka Server注册时,它提供自身的元数据,比如IP地址.端口,运行状况指示符URL,主页等. Renew:服务续 ...

  8. Python爬虫学习笔记:概念、知识和简单应用

    Python爬虫:概念.知识和简单应用 什么是爬虫? 使用的开发工具 一个简单的爬虫实例 Web请求过程分析 HTTP协议 请求头中的重要内容 响应头中的重要内容 请求方式 requests 安装 G ...

  9. 学习笔记——spring5概念和原理

    文章目录 一. spring5概述和原理 Spring5 框架概述 Spring5入门案例 IOC(概念和原理) IOC(BeanFactory 接口) IOC操作 Bean 管理(概念) IOC操作 ...

  10. OpenAI Spinning Up强化学习笔记——关键概念与术语

    版权说明:此系列文章是博主对 OpenAI Spinning Up 内容的翻译和学习,虽然已经有很多人翻译过内容了,但还是自己写一遍更有收获,欢迎分享和讨论.   强化学习 (RL: Reinforc ...

最新文章

  1. VS2013在Windows7 64位上变慢的解决方法
  2. Android之独孤口诀:之强大的“测试单元”
  3. 初次使用Eclipse,坑一二
  4. Java基础篇:多重继承的实现
  5. 计蒜客 - Distance on the tree(LCA+主席树)
  6. Linux安装Jenkins
  7. swift建立桥接_在Swift中建立Alexa技能
  8. _Linux自编译云锁Web网站防火墙,看完小白也能保护网站安全
  9. 小米音箱蓝牙连不上_小米蓝牙音箱怎样 小米蓝牙音箱如何连接电脑
  10. Unity3D Demo
  11. 十分简明易懂的FFT(快速傅里叶变换)
  12. javascript通过银行卡号识别所属银行
  13. 【golang】go app 优雅关机 Graceful Shutdown How?
  14. 《程序员修炼之道-从小工到专家》读后感
  15. caj格式转换成pdf免费的有吗
  16. 个人看过的动漫、动画电影推荐
  17. 量子计算机科学家,再破纪录!中国科学家实现18个量子比特纠缠 为量子计算机奠基...
  18. iOS——3DES的加密
  19. android 非SDK API blacklist处理
  20. torch.roll 函数的理解

热门文章

  1. 2020年阴历二月二十 读书笔记~漫步华尔街③
  2. Word to PDF Converter v3.0 算法分析及注册机
  3. 两篇文章的相似度比较
  4. 586A 586B线序
  5. 在优矿(uqer.io)上打开量化投资的黑箱-技术分析篇
  6. 读《如何找对另一半》后感以及论自己择偶标准
  7. tomcatX.exe与startup.bat启动的区别
  8. operating system not found的问题的解决办法 ---设置活动分区
  9. Share Creators公开课:游戏美术如何提升出海游戏转化
  10. Myeclipse项目内容没有报错但是项目上面却有红色叉叉