《应用回归及分类》学习笔记1
吴喜之老师编写的《应用回归及分类》这本书,第一章谈到了传统统计出现的问题(比如以模型而不是数据为主导的研究方式(模型驱动的研究和教学模式)),以及许多统计相关的误区。
读完这部分,觉得自己学习统计学接近4年,确实没有认真的思考过这些问题,或者说批判性的去学习统计,在运用方法的时候有些生搬硬套。其实,随着学习的深入,我越发感受到统计学的博大精深,它并不是表面所理解的那么简单容易,涉及的知识面相当广泛,是一个交叉性学科。
…
书中提到,学习不要一味的按步就班,还是需要批判性的学习。
作为科学的统计
统计是科学,从实际出发,解决实际问题,是理学、工学、社会科学三学一体的学科,可以定义为“收集、分析、展示和解释数据的科学”,或称数据科学。
数据科学要结合数学思维和统计思维、计算机科学以及领域知识(业务能力)
统计的思维方式是归纳,而数学的思维方式是演绎。
统计研究应该是问题驱动而不是数据驱动
大部分统计教材在具体“应用”时,通常是建立在假设基础上的,比如数据服从正态分布等,实际中,大部分数据真的服从这些规定的假设?
- 中心极限定理有误区(中心极限定理:来自某总体的一个样本,无论该总体服从什么分布,只要样本容量足够大,其样本均值都近似服从正态分布。注意“样本均值“近似正态,而不是样本本身服从正态)
- 均值的误区
假设检验的误区
不能拒绝就接受原假设
对假设检验统计结论,不能说“接受原假设”,只能说“目前没有足够的证据拒绝原假设”。
对于接受原假设的说法是非常荒谬的,书中,吴老师举了一个非常浅显易懂的例子,1-50或1-500的自然数来自正态分布吗?
还有一点是,Shapiro-Wilk正态性检验要比K-S正态性检验效率高。
P值得误区
p小于0.05就有意义?
通常,所学的课本中有P值小于显著性水平时,应拒绝原假设,但对于P值要多小才算小概率,或者说P值小于多少才能算显著的问题,往往具有主观性,也就是说,拒绝与否取决于显著性水平α的取值,α取0.05还是0.01…,需要从问题的性质出发,不能盲目判定。
置信区间的误区
通过区间估计得到的置信区间含义,不能理解为总体真值落入这个区间或者区间包含这个真值的概率!
可以理解为:
假设 显著性水平为α,对无穷多个不同样本可以得出无穷多个区间,大约有1-α比例的置信区间覆盖总体真值,或者包含总体真值
更简单的说,给定α=0.05,现独立重复的进行100次试验,可以得到100个区间,大约有95个置信区间包含总体真值,至于到底哪些区间包含,谁也不知道。
大样本误区
在接触的教材用,通常有 n>30 即视为大样本,实际上这种说法是错误的,甚至有些荒谬,样本量多大才算是大样本,这很难界定,就像书中老师所说,谁能够说清楚你的n与∞差多远呢?
大样本定理的结论对于样本量n趋于∞才有意义。
31省市自治区数据是总体还是样本?
书中提到的观点,确实值得反思
31个省市自治区数据仅仅是一些汇总数据,根本不是样本,因此完全不满足任何适用于样本的统计推断方法
31个省市自治区数据互相根本不独立.
由于不是任何总体的样本,更谈不上分布及正态性
对于31个省市自治区的数据,使用任何超出描述性统计方法的做法都值得怀疑
补:统计学常见误区
《应用回归及分类》学习笔记1相关推荐
- 软件管理沉思录读书笔记
第一部分 管理你的项目 质量之所以重要,是因为软件可能会使用十年.组织极少会弃用软件,而是通过提升和重新利用不断使用它.因此,对于软件质量的关注必须贯穿其整个生命周期. 第一章 交付高质量的产品 &q ...
- 设计模式沉思录 - 读书笔记(XMind)
注:后面会不定期,以XMind的方式发布一些读书笔记. 目标:书还要是越读越薄才行!
- 软件开发沉思录读书笔记
软件开发中推崇敏捷,自动化测试,减少了成本加快了速度,加快了沟通和版本之间的关系,用好的沟通来换好的软件.关于多语言开发,应该根据业务领域的不同,采用适合不同领域的编程语言,同时也要注意编程语言的跨平 ...
- 《C++ 沉思录》学习笔记——上篇
文章目录 1. 总结(31-32) 1.1 通过复杂性获取简单性(31) 1.1.1 类库和语言语义 1.1.2 抽象和接口 1.2 说了 Hello world 后再做什么(32) 2. 技术(27 ...
- 《C++沉思录》学习笔记1
文章目录 前言 一.类 二.改进,实现关闭跟踪输出的功能 三.改进,实现跟踪输出到不同设备的功能 四.不用类来实现上述功能 C++优秀的面向对象的核心本质 参考资料 前言 作为高级语言,C已经很强大了 ...
- 《C++沉思录》读书笔记
<C++沉思录>读书笔记 序幕 动机 第1章 为什么我用C++ 第2章 为什么用C++工作 第3章 生活在现实世界中 类与继承 第4章 类设计者的核查表 第5章 代理类 第6章 句柄:第一 ...
- Android学习笔记---22_访问通信录中的联系人和添加联系人,使用事物添加联系人...
Android学习笔记---22_访问通信录中的联系人和添加联系
- FFmpeg基础到工程-多路H265监控录放开发学习笔记
多路H265监控录放开发学习笔记 课程涉及:FFmpeg,WebRTC,SRS,Nginx,Darwin,Live555,等.包括:音视频.流媒体.直播.Android.视频监控28181.等. 具体 ...
- 【小猫爪】AUTOSAR学习笔记00-目录
[小猫爪]AUTOSAR学习笔记00-目录 因为一个偶然的机会让我接触到了AUTOSAR,所以就花一点小小的时间来记录一下学习它的坎坷大道.这其中复制粘贴了很多,也包括了我的一些个人的小小见解和废 ...
- 读书笔记∣概率论沉思录 01
概率的解释基础分为两种,一是物理世界本身存在的随机性(客观概率),二是是我们由于信息不足而对事件发生可能性的度量(主观概率).基于此,形成了概率论的两大学派:频率论学派(传统数理统计学)和贝叶斯统计学 ...
最新文章
- centos6.5下升级gnutls
- 数据结构——队列的C语言实现
- html里球是哪个单词,html tag是什么意思
- python高手养成_不要总抱怨它慢了 突破性能瓶颈 找到Python序列筛选数据的最优解...
- 论学习的重要性之 -- 影院售票系统
- Vue 电商管理系统
- 新建文件夹的快捷键大全
- java 模拟百度翻译
- 你可能需要的各个行业年度总结 ppt 模板
- java必备基础5(集合list、set、map)
- 同济大学高等数学第7版笔记和课后答案
- flow_from_directory返回值
- 了解一下 Technorati 的后台数据库架构
- 简述人工智能的研究目标
- Unity3D插件 Doozy UI 学习(一):打开一个面板
- 【量化交易基础】金融相关基础知识
- linux系统下刻录u盘制作启动盘
- 项目管理-1-忆往昔
- Feflow建模步骤及注意事项
- 对不起,我现在喜欢划船了,不喜欢爬山了
热门文章
- 流传甚少的seo排名爆破技术全解析
- nbu 7.5备份oracle,NBU7.5备份oracle
- 苹果iPhone/iPad不越狱怎么破解付费APP?
- 运行深度学习代码时报错RuntimeError: CUDA out of memory. Tried to allocate 482.00 MiB
- springfox.documentation.spi.service.contexts.ParameterExpansionContext.findAnnotation(Ljava/lang/Cla
- 常用电子面单接口API demo下载
- SqlMap免Python环境绿色版下载
- 华为交换机忘记密码怎么办
- euraka动态改变元数据无需重启服务
- 一套完整的网络视频监控系统设计方案