本文是已读书籍的内容摘要,少部分有轻微改动,但不影响原文表达。

:以漫画形式来讲解最基本的统计概念和方法。

  • ISBN: 9787121299636
  • https://book.douban.com/subject/26906845/

引言:统计无处不在

统计值无处不在。我们伴随着统计值出生,离开后也会化为统计值。
统计帮助我们把握重要事件的大量数据。进而帮助我们更好地理解这个千变万化的世界,并操纵世界。

统计的真正力量更为特别,统计帮助我们在信息有限的情况下,做出充满信心的决策。
我们总是希望能够得到所有数据,接着算出结果,但显然这很难做到。
实际上,我们只能得到的有限的信息,但好在通过统计工具,能使用这些有限的信息,对所有的情况做出充满信心的描述。

统计学是展示数据的工具,而不是解释数据的工具。
也就是说,“统计”只是将隐藏在混杂的、扑朔迷离的数据中规律性信息,以一种方便解释、易于理解的方式表达出来,用来帮助人们做出判断,而不是代替人们下判断。

以下内容主要讲的就是统计学的基本问题:如何通过样本来充满信心的描述整体。

  • 如何采集和调查样本。
  • 如何通过样本探索总体的各种特质(统计推论过程:筛选数据、计算置信区间、进行假设检验)

特别注意:可以通过统计进行充满信心的猜测,但永远无法通过统计得出确定无疑的结果。

1 - 收集统计数据

1.1 - 数字

统计并不只关系到数字,而且也关系到我们的信心。
统计的确需要处理大量数字,而且处理起来并不是总是那么简单。

数字很容易被用于撒谎。这通常会让人们对数字过度怀疑,从而忽略了数字的真正威力。
这要求我们在处理任何数字时,都必须带着适当的怀疑。
不管拿到什么数字,都应该问这样几个问题:

  • 你从哪里来?
  • 谁导致你出现?
  • 为什么?

1.2 - 随机原始数据

很多时候,我们都不可能清楚所有要了解的东西,只能通过研究样本,进而了解总体。

必须知晓的事实:

  • 不可能通过样本完全确定一个总体。统计指的是做出最佳猜测,而绝非确凿无疑的判断。
  • 采集样本犯下的任何错误,都可能会彻底扭曲对较大总体的结论。

通过各种方法采集样本观测值,这个过程并不简单。
最大的挑战可能在于要准确地指出样本中包含哪些内容。目的是避免样本出现偏差,因为偏差可能会导致我们曲解总体。
理想情况是,采集的样本能正确反映总体。

通过随机采集样本来避免偏差。
实践中。我们常常需要设想所有可能令样本发生偏差的问题,并确保这种问题不会出现。
随机样本效果显著的原因是,它表明我们抽取的任何一个样本的可能性都和抽取任何其他样本的可能性是一样大的。
确保样本必须正确是重中之重,因为随机抽样是一切统计调查的关键。

1.3 - 排序

问题的特性十分重要,因为我们的提问类型决定我们最终得到的是类别型数据,还是数值型数据。
这两种数据各自为政,根本差别:是否能够对其进行数学运算。

在下列情况下采集类别数据:

  • 在研究只用文字就能描述的特性时
  • 在能够用“是”或“否”回答问题时

在下列情况下采集数值型数据:

  • 在研究可以用数字进行比较的特性时

尽管可以通过类别数据来了解样本的构成比例,但总得来说,数值型数据更为有用。
在采集到大量数值型数据后,首先要做的就是利用这些数据“画图”,也就是观察现有的数据。
简单的图形能让我们集中关注数据表达的确切意义。

  • 直方图:最基本的数值型数据图形,可以对整个数据集进行整体描述,包含精确的细节。
  • 箱线图:希望了解数据的概要情况,或者希望对不同样本和群组进行比较时,可以迅速了解数据的汇聚情况。

1.4 - 侦探工作

分析数据就像解谜一样,最终目的是从一个随机样本中收集证据。然后用这些证据形成对总体的描述。

首先需要学习如何做一些基本的侦探工作。
当开始动手调查任何一批数据时,总是观察四个主要特性:大小。形状,位置。分散性。

大小

一般说来,样本越大,结果越好。
样本大小会直接关系到,对一个总体可以具有的置信水平。
但在实际工作中,样本大小总会受到某种限制。

形状

每一个样本的形状都是独一无二的。
无论数据汇聚成什么形状,总是有其原因的。

  • 当所有可能结果都比较相似时,可以称这堆数据是平的。
  • 当一批数据因为某种原因围绕一个特定数据聚集在一起。那么可以说这批数据是正态。
  • 当一批数据由于某种原因,在一个方向上的尾部比另一个方向的尾部延伸的更长。那么可以说这些数据是偏斜的。

位置

位置是对一批数据在一个数轴上落点的量度,简而言之就是数据聚集的地方。
通常可用一个数字来描述位置:平均数。

尽管平均数在量度位置时很有用,很精确。却并非完美。
平均数具有欺骗性。一批数据出现偏斜,平均数就会极具误导性,此时中位数更能体现数据情况,能更好地描述典型值。

分散性

是对一批数据宽度的度量,也是对变性的度量。
分布越宽,变异越大。
测量分散性,一个简单明了的办法是,算出全距:最大值与最小值的差值,然后分成四块,每块包含相同数目的数据点,中间的两块被称为四分位距(IQR)。
利用全剧可以了解整个样本的每一部分的变异性,尤其对于偏斜数据的调查研究特别有用。
分散性最常见度量方法是标准差(SD)。
范围较宽的数据具有较大的标准差。标准差越大,意味着变异越大。

1.5 - 怪异的错误

特别注意:通过统计永远不能彻底证明任何结论。
发掘两种变量之间的关系时,往往一个潜在变量会影响结论,甚至将结论搞得面目全非。
潜在变量会给各种统计分析带来麻烦。因此统计师的部分工作就是发现潜在变量。
如果不找出这种潜在变量,就会有“以假乱真”的风险。

1.6 - 样本到总体

最终目标是根据样本。对总体做出充满信心的描述。

将样本数据堆积起来之后,形成的堆积图形成为样本直方图,具有形状、背景、分散性等一些重要特性。
把总体堆积起来,所形成的图形称为总体分布,同样也具有形状,位置,分散性的特征。

样本的特性叫做“统计值”,是实际算出来的结果。
总体的特性叫做“参数”,是真正想知道的信息。

虽然无法直接观察参数,却可以利用统计值去发掘参数,尽管无法利用统计值得出确定的参数。

转载于:https://www.cnblogs.com/anliven/p/11148937.html

Data - 深入浅出学统计 - 上篇相关推荐

  1. Data - 深入浅出学统计 - 下篇

    本文是已读书籍的内容摘要,少部分有轻微改动,但不影响原文表达. :以漫画形式来讲解最基本的统计概念和方法. ISBN: 9787121299636 https://book.douban.com/su ...

  2. 热烈欢迎云南财经大学统计与数学学院院长石磊教授来芝诺数据视察指导工作

    11月30日下午,云南财经大学统计与数学学院院长.教育部长江学者特聘教授,国家百千万人才工程人选,国务院特殊津贴获得者,国家有突出贡献中青年专家,云南省云岭学者石磊教授莅临芝诺数据视察指导工作.芝诺数 ...

  3. 深入浅出学 Vue 开发

    课程介绍 前端技术日新月异,每一种新的思想出现,都代表了一种技术的跃进.架构的变化,那么对于目前的前端技术而言,MVVM 的思想已经可以代表当今前端领域的前沿思想理念,Angular.React.Vu ...

  4. 深入浅出学Vue开发:导读

    如果你看了这一篇文章,那么相信你对这次的课程是有兴趣的,同时作为撰写者的我,也感到非常的荣幸. 程序人生 程序人生,我们选择了这个行业,自然希望能够在这里走的更远.我相信没有任何一个人会甘于平庸,大家 ...

  5. Problem E: 深入浅出学算法019-求n的阶乘

    Problem E: 深入浅出学算法019-求n的阶乘 Time Limit: 1 Sec  Memory Limit: 64 MB Submit: 5077  Solved: 3148 Descri ...

  6. 深入浅出学算法007-统计求和

    4006: 深入浅出学算法007-统计求和 Time Limit: 1 Sec Memory Limit: 64 MB Submit: 4335 Solved: 2014 Description 求含 ...

  7. 1325: 深入浅出学算法020-阶乘和(sum)

    1325: 深入浅出学算法020-阶乘和(sum) 欢迎使用Markdown编辑器 #include<bits/stdc++.h> using namespace std; int b[3 ...

  8. 私塾在线《深入浅出学 Hadoop- 初级 部分》 —— 系列精品教程

    私塾在线<深入浅出学  Hadoop-  初级  部分>   --  系列精品教程 视频课程地址>>>  http://sishuok.com/product/481 整 ...

  9. 【数学】从零开始学统计

    从零开始学统计 研一在读,因为本科没有什么扎实的数学基础,现在学习专业课时举步维艰.虽然从前学过一些概率论与数理统计,但是掌握得并不到位,约等于没学过.开一个博客记录一下学习统计学时需要补充的一些前置 ...

最新文章

  1. 三星手机Android9和10的区别,三星Galaxy S10+ VS 小米9 拍照深度对比评测:神仙打架...
  2. Linux---cacti安装后不出图
  3. atan与atan2的区别
  4. python条件控制语句要注意什么_浅析Python 条件控制语句
  5. 一名靠谱的JavaScript程序员应备的素质
  6. servlet的四种响应
  7. 小米路由器mini WOL网络唤醒插件
  8. 思考的乐趣-Matrix67数学笔记
  9. 如何在Excel 2007中创建数据透视表
  10. 【20保研】厦门大学信息学院2019年全国优秀大学生暑期夏令营招生简章
  11. 2020年低压电工模拟考试题库及低压电工模拟考试系统
  12. 【C++】针对char 字符类型cout的三种输出情况(++ch 和 ch+1 和 ch++)难点加重点
  13. 2021支付宝五福活动 集五福攻略大全
  14. web安全防火墙介绍
  15. UE4/5 学习日记*Note2:动画K帧时间轴双击w冲刺,二段跳——2022/5/8
  16. vue项目中常用methods
  17. web前端开发经验总结
  18. Codeforces 题目合集+分类+代码 【Updating...】【361 in total】
  19. java除零异常_为什么Java除以0.0时不会抛出异常?
  20. 【Java架构师入门到精通】分布式架构原理解析

热门文章

  1. php中$_REQUEST、$_POST、$_GET的区别和联系小结
  2. sybase Invalid command line argument 'and'.
  3. linux启用日志记录功能,Linux下启用Open vSwitch的日志功能以便调试和排障
  4. android json转db,Android Room:将json结果转换为db对象的有效方法
  5. python计算四元素组合算法_python – 算法,列表元素之间的最近点
  6. linux vim6,VIM6:linux终端下的英文字典--SDCV
  7. linux 变量替换字符串,变量替换 字符串处理
  8. 360浏览器如何保存html文件夹下,在360浏览器中将书签保存的详细步骤
  9. 云服务器可以安装操作系统么,云服务器能装操作系统吗
  10. dht11温湿度传感器c语言程序_手把手教你DIY一款性价比爆棚的温湿度计!