吴喜之老师编写的《应用回归及分类》这本书,第一章谈到了传统统计出现的问题(比如以模型而不是数据为主导的研究方式(模型驱动的研究和教学模式)),以及许多统计相关的误区。

读完这部分,觉得自己学习统计学接近4年,确实没有认真的思考过这些问题,或者说批判性的去学习统计,在运用方法的时候有些生搬硬套。其实,随着学习的深入,我越发感受到统计学的博大精深,它并不是表面所理解的那么简单容易,涉及的知识面相当广泛,是一个交叉性学科。

书中提到,学习不要一味的按步就班,还是需要批判性的学习。

作为科学的统计

统计是科学,从实际出发,解决实际问题,是理学、工学、社会科学三学一体的学科,可以定义为“收集、分析、展示和解释数据的科学”,或称数据科学

数据科学要结合数学思维和统计思维、计算机科学以及领域知识(业务能力)

统计的思维方式是归纳,而数学的思维方式是演绎。

统计研究应该是问题驱动而不是数据驱动


大部分统计教材在具体“应用”时,通常是建立在假设基础上的,比如数据服从正态分布等,实际中,大部分数据真的服从这些规定的假设?

  • 中心极限定理有误区(中心极限定理:来自某总体的一个样本,无论该总体服从什么分布,只要样本容量足够大,其样本均值都近似服从正态分布。注意“样本均值“近似正态,而不是样本本身服从正态)
  • 均值的误区

假设检验的误区

不能拒绝就接受原假设

对假设检验统计结论,不能说“接受原假设”,只能说“目前没有足够的证据拒绝原假设”。

对于接受原假设的说法是非常荒谬的,书中,吴老师举了一个非常浅显易懂的例子,1-50或1-500的自然数来自正态分布吗?

还有一点是,Shapiro-Wilk正态性检验要比K-S正态性检验效率高。

P值得误区

p小于0.05就有意义?

通常,所学的课本中有P值小于显著性水平时,应拒绝原假设,但对于P值要多小才算小概率,或者说P值小于多少才能算显著的问题,往往具有主观性,也就是说,拒绝与否取决于显著性水平α的取值,α取0.05还是0.01…,需要从问题的性质出发,不能盲目判定。

置信区间的误区

通过区间估计得到的置信区间含义,不能理解为总体真值落入这个区间或者区间包含这个真值的概率!

可以理解为:
假设 显著性水平为α,对无穷多个不同样本可以得出无穷多个区间,大约有1-α比例的置信区间覆盖总体真值,或者包含总体真值

更简单的说,给定α=0.05,现独立重复的进行100次试验,可以得到100个区间,大约有95个置信区间包含总体真值,至于到底哪些区间包含,谁也不知道。

大样本误区

在接触的教材用,通常有 n>30 即视为大样本,实际上这种说法是错误的,甚至有些荒谬,样本量多大才算是大样本,这很难界定,就像书中老师所说,谁能够说清楚你的n与∞差多远呢?

大样本定理的结论对于样本量n趋于∞才有意义。

31省市自治区数据是总体还是样本?

书中提到的观点,确实值得反思

  • 31个省市自治区数据仅仅是一些汇总数据,根本不是样本,因此完全不满足任何适用于样本的统计推断方法

  • 31个省市自治区数据互相根本不独立.

  • 由于不是任何总体的样本,更谈不上分布及正态性

  • 对于31个省市自治区的数据,使用任何超出描述性统计方法的做法都值得怀疑

补:统计学常见误区

《应用回归及分类》学习笔记1相关推荐

  1. 软件管理沉思录读书笔记

    第一部分 管理你的项目 质量之所以重要,是因为软件可能会使用十年.组织极少会弃用软件,而是通过提升和重新利用不断使用它.因此,对于软件质量的关注必须贯穿其整个生命周期. 第一章 交付高质量的产品 &q ...

  2. 设计模式沉思录 - 读书笔记(XMind)

    注:后面会不定期,以XMind的方式发布一些读书笔记. 目标:书还要是越读越薄才行!

  3. 软件开发沉思录读书笔记

    软件开发中推崇敏捷,自动化测试,减少了成本加快了速度,加快了沟通和版本之间的关系,用好的沟通来换好的软件.关于多语言开发,应该根据业务领域的不同,采用适合不同领域的编程语言,同时也要注意编程语言的跨平 ...

  4. 《C++ 沉思录》学习笔记——上篇

    文章目录 1. 总结(31-32) 1.1 通过复杂性获取简单性(31) 1.1.1 类库和语言语义 1.1.2 抽象和接口 1.2 说了 Hello world 后再做什么(32) 2. 技术(27 ...

  5. 《C++沉思录》学习笔记1

    文章目录 前言 一.类 二.改进,实现关闭跟踪输出的功能 三.改进,实现跟踪输出到不同设备的功能 四.不用类来实现上述功能 C++优秀的面向对象的核心本质 参考资料 前言 作为高级语言,C已经很强大了 ...

  6. 《C++沉思录》读书笔记

    <C++沉思录>读书笔记 序幕 动机 第1章 为什么我用C++ 第2章 为什么用C++工作 第3章 生活在现实世界中 类与继承 第4章 类设计者的核查表 第5章 代理类 第6章 句柄:第一 ...

  7. Android学习笔记---22_访问通信录中的联系人和添加联系人,使用事物添加联系人...

    Android学习笔记---22_访问通信录中的联系人和添加联系

  8. FFmpeg基础到工程-多路H265监控录放开发学习笔记

    多路H265监控录放开发学习笔记 课程涉及:FFmpeg,WebRTC,SRS,Nginx,Darwin,Live555,等.包括:音视频.流媒体.直播.Android.视频监控28181.等. 具体 ...

  9. 【小猫爪】AUTOSAR学习笔记00-目录

    [小猫爪]AUTOSAR学习笔记00-目录   因为一个偶然的机会让我接触到了AUTOSAR,所以就花一点小小的时间来记录一下学习它的坎坷大道.这其中复制粘贴了很多,也包括了我的一些个人的小小见解和废 ...

  10. 读书笔记∣概率论沉思录 01

    概率的解释基础分为两种,一是物理世界本身存在的随机性(客观概率),二是是我们由于信息不足而对事件发生可能性的度量(主观概率).基于此,形成了概率论的两大学派:频率论学派(传统数理统计学)和贝叶斯统计学 ...

最新文章

  1. centos6.5下升级gnutls
  2. 数据结构——队列的C语言实现
  3. html里球是哪个单词,html tag是什么意思
  4. python高手养成_不要总抱怨它慢了 突破性能瓶颈 找到Python序列筛选数据的最优解...
  5. 论学习的重要性之 -- 影院售票系统
  6. Vue 电商管理系统
  7. 新建文件夹的快捷键大全
  8. java 模拟百度翻译
  9. 你可能需要的各个行业年度总结 ppt 模板
  10. java必备基础5(集合list、set、map)
  11. 同济大学高等数学第7版笔记和课后答案
  12. flow_from_directory返回值
  13. 了解一下 Technorati 的后台数据库架构
  14. 简述人工智能的研究目标
  15. Unity3D插件 Doozy UI 学习(一):打开一个面板
  16. 【量化交易基础】金融相关基础知识
  17. linux系统下刻录u盘制作启动盘
  18. 项目管理-1-忆往昔
  19. Feflow建模步骤及注意事项
  20. 对不起,我现在喜欢划船了,不喜欢爬山了

热门文章

  1. 流传甚少的seo排名爆破技术全解析
  2. nbu 7.5备份oracle,NBU7.5备份oracle
  3. 苹果iPhone/iPad不越狱怎么破解付费APP?
  4. 运行深度学习代码时报错RuntimeError: CUDA out of memory. Tried to allocate 482.00 MiB
  5. springfox.documentation.spi.service.contexts.ParameterExpansionContext.findAnnotation(Ljava/lang/Cla
  6. 常用电子面单接口API demo下载
  7. SqlMap免Python环境绿色版下载
  8. 华为交换机忘记密码怎么办
  9. euraka动态改变元数据无需重启服务
  10. 一套完整的网络视频监控系统设计方案