本文是已读书籍的内容摘要,少部分有轻微改动,但不影响原文表达。

:以漫画形式来讲解最基本的统计概念和方法。

  • ISBN: 9787121299636
  • https://book.douban.com/subject/26906845/

2 - 探寻参数

2.1 - 中心极限定理(Central Limit Theorem)

概率分布曲线

想准确地预测变量,那么首先要了解目标变量的基本行为。

  • 确定目标变量可能输出的结果,以及这个可能的输出结果是离散值(孤立值)还是连续值(无限值)。
  • 为事件(值)分配概率:如果一个值不会出现,则概率为 0%。概率越高,事件发生的可能性就越大。

大量重复一个实验,并记录检索到的变量值,根据这些值作图,就可以得到一个概率分布曲线。
这个图表明目标变量得到一个值的概率,也就是该变量的概率分布。
理解了值的分布方式后,就可以开始估计事件的概率了,甚至可以使用公式(概率分布函数)。

正态分布(Normal distribution)

也称为正态概率分布、“常态分布”、高斯分布(以著名数学家高斯的名字命名),是最常用的概率分布。
正态分布是只依赖数据集中两个参数的分布

  • 平均值:样本中所有点的平均值。
  • 标准差:表示数据集与样本均值的偏离程度。

如果对概率分布作图,将得到一条倒钟形曲线,样本的平均值、众数以及中位数是相等的,那么该变量就是正态分布的。
也就是说,只要用平均值和标准差就可以解释整个分布,因此预测任何呈正态分布的变量准确率通常都很高。
自然界和日常工作生活中的大部分变量都呈置信度为 x% 的正态分布(x<100),也就是说差不多都能用高斯分布描述。

中心极限定理

从某个总体中采集了一连串各自独立的随机样本。
算出每个样本的平均数。然后把这些平均数按顺序堆积起来。
堆在一起的平均数最终将开始聚集,随着堆放的样本平均数越来越多,堆放的外形就越来越接近正态,就像一个对称的古钟。
概括起来,中心极限定理说明的是在大样本条件下,不论总体的分布如何,样本的均值总是近似地服从正态分布。
可以简单的理解为:随机样本平均数倾向于聚集在总体平均数周围。

事实证明:

  • 平均数堆成的大型数据堆的中心值等于产生样本的总体的中心值。
  • 大型随机样本平均数堆往往比产生这个数堆的总体的外形更窄,以总体平均数为中心。具体程度取决于每个样本的大小。
  • 样本大小越大,平均数堆积形状越窄。

特别注意:中心极限定理只有在每个样本均为随机抽取,且每个样本都足够大时才成立。

2.2 - 概率

概率是一个数值,用于对某个随机事件的长期可能性进行量化。

  • 概率仅适用于长期,短期重来不会带来确信的结论。
  • 每一个概率都有一个对立面,原因是所有概率之和永远是100%。
  • 只能计算随机事件的概率,这也是总是随机采集统计值的原因。

2.3 - 推断

由于样本平均数倾向于聚集在总体平均数周围,可以用来猜测总体平及其大量样本平均数,以此画图显示出样本平均数的堆积形状。
也就是说,用一个随机样本,构建了一个估计抽样分布,然后用这个抽样分布算出置信区间。。

  • 采集极大量样本平均数,以此画图,显示出样本平均数的堆积形状。
  • 以中心极限定理为蓝图绘制图形,这张图叫做估计抽样分布。
  • 估计抽样分布是一个估计结果,是在采集海量样本平均数后,对平均数分布情况的估计。

2.4 - 信心

不断采集更多随机样本,构建更多估计抽样分布,就会不断得到不同的区间。
如果用这种方法计算出极大量各不相同的区间,则大约有1/20样本不包含真正的总体平均数,19/20样本包含真正的总体平均数。
也就是说,有95%的信心来推断总体平均数就在这个范围内的某个地方,有5%的概率是错的。

事实上,从总体中随机采集的任何一个样本都有可能存在误导性。
如果一个样本存在误导性。那么基于这个样本构建的估计抽样分布也存在误导性。
但从长远来看,大多数随机样本平均数倾向于聚集在总体平均数的周围,这种采用估计和剪切的计算方法是有效的。

2.5 - 恨之深

依据如下要素,就可以构建一个估计抽样分布,然后剪去尾部,得到一个可靠的论断,包括一个置信水平和一个置信区间。

  • 一个合理的英文大小
  • 一个样本平均数
  • 一个样本标准差

构建估计抽样分布的这个过程包括一系列数学运算,因此只能对用数字进行度量的特性成立。
对于明显不能用数字表示的特性,这个过程一般难以成立。
实际上,只要能够度量特性(创造一个数字尺度),并将这种度量结果记录在数轴上,就可以计算该特性。

根据单一样本得出的任何结论,都可能大错特错。
即使放大置信水平,涵盖更大区间,仍然有可能是错的。

2.6 - 假设检验

采用估计结果,然后把估计结果移到另一个中心位置,看看能得出什么结论,这个过程被称为假设检验。
目的是检验所设想的总体平均值的位置。

通过假设检验,将猜测值与样本中找到的平均数进行比较,以此检验猜测。
从长期看,期望所有样本平均数的95%都聚集在距离实际总体平均数两个标准差的范围内。

假设性检验的逻辑基础是在“假设条件”成立的情况下,取得当下样本的概率有多大,当概率足够小时就可以认为“假设条件”不成立。
比如,在“假设条件”成立的情况下得到当下样本的概率是5%,那就有95%的把握证明“假设条件”不成立。

简单地说,假设检验的基本思路和原理有两个:

  1. 一个命题只能证伪,不能证明为真。也就是说,个案当然不足以证明一个全称命题,但是却可以否定全称命题。
  2. 在一次观测中,小概率事件不可能发生证明逻辑:想要证明命题为真---》证明该命题的否命题为假---》在否命题的假设下,观察到小概率事件发生了,否命题为假---》命题为真。

举例说明

命题“A是合格的投手”
---》证明否命题“A不是合格投手”为假
---》观察到一个事件(比如A连续10次投中10环),而这个事件在“A不是合格投手”的假设下,概率为p(显著水平),小于0.05
---》小概率事件发生,否命题被推翻,也就是否命题“A不是合格投手”为假
---》原命题“A是合格的投手”为真
---》P值越小,说明这个事件越可能是小概率事件,否命题越可能被推翻,原命题越可信

2.7 - 破立之争

在假设检验的实践中。总是将一种设想与另一种设想进行比较。
假设检验往往包括两种相互对立的设想。
每一种设想各自为抽取到的数据来历做出了不同的解释。
假设检验的要点:断不可妄下结论。

第1步:问题是什么?

  • 确定你要研究的问题是什么.
  • 明确的问题,会帮助你批判性地筛选信息。

第2步:证据是什么?

  • 找到与问题相关的证据。
  • 向专家咨询意见,或求教过来人的经验,或查询相关的数据资料作为证据。

第3步:判断标准是什么

  • 找到证据后,要判断证据是否有效,就需要一个判断标准。
  • 这个判断标准要能够做到“不错过一个坏人,不冤枉一个坏人”的效果。

第4步:做出结论

  • 根据找到的证据和判断标准,做出正确的结论。
  • 这是一种使用数据和概率来做决策的过程。

3 - 走向高级

解决高级统计问题需要依靠各种各样的技巧。
重点在于,即使高级统计学技巧各种各样,无穷无尽。但统计推断的基本步骤保持不变。
本质上一切统计问题都相似,因此解决办法也雷同。
收集样本数据,估计出某种抽样分布,截取概率部分,有时候也需要把这个分布推移到一个新的位置,最后得出有信心的结论。

转载于:https://www.cnblogs.com/anliven/p/11173528.html

Data - 深入浅出学统计 - 下篇相关推荐

  1. Data - 深入浅出学统计 - 上篇

    本文是已读书籍的内容摘要,少部分有轻微改动,但不影响原文表达. :以漫画形式来讲解最基本的统计概念和方法. ISBN: 9787121299636 https://book.douban.com/su ...

  2. 热烈欢迎云南财经大学统计与数学学院院长石磊教授来芝诺数据视察指导工作

    11月30日下午,云南财经大学统计与数学学院院长.教育部长江学者特聘教授,国家百千万人才工程人选,国务院特殊津贴获得者,国家有突出贡献中青年专家,云南省云岭学者石磊教授莅临芝诺数据视察指导工作.芝诺数 ...

  3. 深入浅出学 Vue 开发

    课程介绍 前端技术日新月异,每一种新的思想出现,都代表了一种技术的跃进.架构的变化,那么对于目前的前端技术而言,MVVM 的思想已经可以代表当今前端领域的前沿思想理念,Angular.React.Vu ...

  4. 深入浅出学Vue开发:导读

    如果你看了这一篇文章,那么相信你对这次的课程是有兴趣的,同时作为撰写者的我,也感到非常的荣幸. 程序人生 程序人生,我们选择了这个行业,自然希望能够在这里走的更远.我相信没有任何一个人会甘于平庸,大家 ...

  5. Problem E: 深入浅出学算法019-求n的阶乘

    Problem E: 深入浅出学算法019-求n的阶乘 Time Limit: 1 Sec  Memory Limit: 64 MB Submit: 5077  Solved: 3148 Descri ...

  6. 深入浅出学算法007-统计求和

    4006: 深入浅出学算法007-统计求和 Time Limit: 1 Sec Memory Limit: 64 MB Submit: 4335 Solved: 2014 Description 求含 ...

  7. 1325: 深入浅出学算法020-阶乘和(sum)

    1325: 深入浅出学算法020-阶乘和(sum) 欢迎使用Markdown编辑器 #include<bits/stdc++.h> using namespace std; int b[3 ...

  8. 私塾在线《深入浅出学 Hadoop- 初级 部分》 —— 系列精品教程

    私塾在线<深入浅出学  Hadoop-  初级  部分>   --  系列精品教程 视频课程地址>>>  http://sishuok.com/product/481 整 ...

  9. 【数学】从零开始学统计

    从零开始学统计 研一在读,因为本科没有什么扎实的数学基础,现在学习专业课时举步维艰.虽然从前学过一些概率论与数理统计,但是掌握得并不到位,约等于没学过.开一个博客记录一下学习统计学时需要补充的一些前置 ...

最新文章

  1. 东 北 大 学计算机辅助设计,东北大学计算机辅助设计(B)
  2. Visual Studio 2015软件安装教程
  3. 数据中心冷却塔结冰应急演练
  4. java并发编程之美-阅读记录3
  5. 【linux网络编程】网络字节序、地址转换
  6. [USACO15FEB]Superbull (最小生成树)
  7. c语言100以内奇数的和为多少,编写C#程序,计算100以内所有奇数的和。谢谢了,大神帮忙啊...
  8. python dataframe删除重复行_详解pandas使用drop_duplicates去除DataFrame重复项参数
  9. python turtle画四叶草的步骤_python turtle工具绘制四叶草的实例分享
  10. Oracle MySQL社区版与Oracle MySQL企业版特征对比
  11. python 启动新进程执行脚本
  12. vbs编程中 on error resume next的意思
  13. 为什么有些网站域名不以www开头?什么是二级域名?
  14. larvel html转pdf文件,如何在Laravel中使用TCPDF从HTML生成PDF
  15. 熊孩子太调皮,送他Airblock无人机变身小神童
  16. 非常有意思的网页版在线PS
  17. mac上设置ms office word初始窗口大小
  18. 九零后看什么网络电视
  19. 谈谈百度的短视与无奈
  20. 腾讯和华为领导的中国区块链联盟将推出无币区块链

热门文章

  1. Android环境搭建和Android HelloWorld—Android开发环境搭建
  2. python redis连接池获取后关闭_python通过连接池连接redis,操作redis队列
  3. android camera 降低帧率_Android性能问题分析之bugreport
  4. linux apache配置多线程,linux apache 日志配置
  5. 如何删除linux的root权限,永久删除现代Linux的root权限
  6. binlog流程 mysql_小米 MySQL 数据实时同步到大数据数仓的架构与实践
  7. Windows下Eclipse配置基于MinGW的C/C++开发环境
  8. Python+OpenCV检测灯光亮点
  9. sklearn 朴素贝叶斯分类示例
  10. 【TensorFlow2.0】(2) 创建tensor的方法