【学习笔记】Nake Statistics
Chapter1-统计学的意义
基尼系数: 用于衡量一个国家的财富(或收入)分配的公平程度,最小为0(分配最公平),最大为1(分配最不公平)。
引伸出统计学的意义:提供一种便捷的方法/手段去洞察社会中的问题
描述性数据
描述性统计学的目的在于简化,因此很可能会不可避免地丢失或者损失一些细节
抽样数据
抽样方法避免大规模地繁琐调查数据
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9ihPpW6Z-1645722161410)(https://ws2.sinaimg.cn/large/006tNc79gy1g2w5odwmooj31nl0u00z6.jpg)]
Chapter2-描述统计学
'绝对’值:eg:我考了60分
'相对’值:eg:我排名300名(有背景)
- 平均数与中位数的妙用
一个餐馆有10个人,比尔盖茨走进去成为第11个人,这群人中的人均收入瞬间拉高,倒是中位数却是变化不大,
引申出:异常者对平均数的影响,考察数据时不能但看平均数
标准差:用于衡量数据相对于平均值的分散程度
正太分布:数据分布一般都是对称的,以平均数为中轴。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rBCrnLCQ-1645722161412)(https://ws4.sinaimg.cn/large/006tNc79gy1g2walxeoebj31980t0nk6.jpg)]
标准差与方差
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-d4PP4528-1645722161413)(https://ws4.sinaimg.cn/large/006tNc79gy1g2ylasu3xbj31k807ejt8.jpg)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HPRTenwS-1645722161414)(https://ws3.sinaimg.cn/large/006tNc79gy1g2ym17putoj31nc03e754.jpg)]
Chapter3-统计数字会撒谎
中位数和平均数孰取孰舍,关键在于这个数据分布里的异常值对事实真相是起到扭曲的作用,还是重要的组成部分。
Chapter4-相关性与相关系数
相关系数的定义:
相关系数是一个在[-1,1]区间的常熟,1为正相关,-1为负相关,0为不相关,相关系数优点在于可以将不同单位的变量换算成相同的比较范围,然后确定他们的相关性。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NeMfWFQ9-1645722161415)(https://ws1.sinaimg.cn/large/006tNc79gy1g30utfak1rj31vq0k2dko.jpg)]
for instance:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XNbANWXf-1645722161416)(https://ws2.sinaimg.cn/large/006tNc79gy1g30uu6e9k0j31sq0qwwlj.jpg)]
Chapter5-概率与期望值
大数定律:随着实验次数的增加,结果的平均值会越来越接近期望值
期望值:每个发生的概率乘以其值
Chapter6-蒙提.霍尔悖论
简单的理解:更换选择后获胜的概率从1/3提升到2/3.
Chapter7-黑天鹅事件
尾部风险:位于分布曲线末尾的小概率事件
2008年金融危机:过于相信VaR模型,最容易被忽略的尾部风险往往才是致命的。
统计学常见的误区:
- 想当然地认为事件之间不存在联系
- 对两个事件的统计独立一无所知
- 成群病例的发生
- 检方谬误
- 回归平均数(或趋均数回归):例如某支球队在连续地获胜后登上体育杂志,之后其表现大多数会下滑,大部分原因很可能不是因为杂志带来的,而是这支球队在超常发挥过后,实力回归平均数。
- 统计性歧视
Chapter8-数据与偏见
数据的差异会导致分析结果差异,准确的数据是进行精确分析的前提
- 没有比代表性样本更有用的统计学工具
- 获得一个好样本很难
- 样本容量越大越好
- 选择性偏见:例如在街头向100人访问调查,愿意接受调查的60人和不愿意被调查的40人在某方面是存在巨大差异的
- 发表性偏见:肯定性研究要比否定性研究容易发表
- 记忆性偏见
- 幸存者偏差:如一所高中某一届学生,从高一到高四,成绩不断向上,也有可能是每一年不停的差生辍学导致的幸存者偏差
- 健康用户偏见
Chapter9-中心极限定理
要义:一个大型样本的正确抽样与其所代表的群体存在相似关系
- 任一群体的样本平均值都会围绕在该群体的整体平均值周围,并且呈现正态分布。
- 样本的平均值和标准差约等于所在群体的整体平均值和标准差
正态分布:有68%的数据位于一个标准差内,有95%的数据位于两个标准差内
对一个总体多次抽样,每次样本大小都为n,那么每个样本都有自己的平均值,这些平均值的标准差叫做标准误差。
标准误差就是所有样本平均值的标准差
标准误差=标准差/根号N(N为样本数)
Chapter10-统计推断与假设检验
统计推断中最常用的工具就是“假设验证”
零假设和对立假设(备择假设),零假设一般为否定类假设,如:A与B无关
研究人员推翻零假设的常用门槛之一就是5%(强调是常用,并不存在一个标准单一的统计学门槛),如果一个零假设想要为真,其支撑数据的结果必须至少达到0.05这个显著性水平,如果不足0.05,我们可将其推翻(注:就是2个标准差的范围外)
I型错误表示错误地推翻了一个零假设,也称之为“假阳性”
II型错误表示没有推翻一个零假设,也称之为“假阴性”
计算平均值差异的标准误差(来自不同样本)
分子为x和y的平均值之差,Sx为x的标准差,Sy为y的标准差,Nx为x的样本数量,Ny为y的样本数量。
##Chapter11-民意测验与误差幅度
###百分比读标准误差=根号(p(1-p)/N)(N为样本数,p代表某种回应者的比例,1-p则为另一观点回应着的比例)
一个小容量样本会使得标准误差变大,从而导致一个更大的置性区间(即:抽样误差范围)
当某个问题回答占所有受访者人数的比例接近50%时,(即1-p也约为50%),标准误差会达到最大。(因为50%的比例会放使标准误差放大,)
对于民意调查要考虑的问题:
- 这个样本能正确反映目标群体的真实观点吗?
- 采访过程中的问题设置能得出对研究课题有用的信息吗?
- 受访者说的一定是真的吗?
民意测试真正的挑战有两个:
- 设计并选取正确的样本
- 用恰当的方式从该样本中获得合适的信息
##Chapter12-回归分析与线性关系
最小二乘法(OLS):所有数据的残差平方和最小
残差:即每一个数据垂直距离回归线的高度差
OLS是两个变量线性关系的最佳描述
经验法则:当回归系数至少是标准误差的两倍或者以上时,该系数极有可能具有统计学意义
回归分析当有超过一个解释变量的时候,我们通常称其为多元回归分析或多元变量重复回归分析
随着自由度的增大,t分布逐渐向正太分布靠拢
自由度越低,相对应的t分布曲线的“尾巴”越“肥大”
###决定系数(coefficient of determination)
回归平方和:SSR(Sum of Squares for regression) = ESS (explained sum of squares)
残差平方和:SSE(Sum of Squares for Error) = RSS (residual sum of squares) =SSR(sum of squared residuals)
总离差平方和:SST(Sum of Squares for total) = TSS(total sum of squares)
SSE+SSR=SST
表达式:R2=SSR/SST
##Chapter13-致命的回归错误
7个常见的错误
- 用回归方程来分析非线性关系
- 相关关系并不等同于因果关系:回归分析只能证明两个变量之间存在关系,至于是不是其中一个变量发生变化就一定能导致另一个变量也发生变化,仅凭数据我们无法给出证明。
- 因果倒置
- 变量遗漏偏差
- 高度相关的解释变量(多元共线性):在一个回归方程中,假如两个或两个以上解释变量彼此之间高度相关,那么回归分析的结果将有可能无法分清每一个变量与因变量彼此之间的真实关系。
- 脱离数据进行推断
- 数据矿(变量过多)
设计一个回归方程要认真考虑收集那些变量、从哪里收集,这个方程可以通过方程式的评价和回归方程的具体化来实现。
##Chapter14-项目评估与“反现实”
随机控制实验:随机分配可以把其余无关变量随机分配到实验组和对照组
自然实验:自然创造的实验组和对照组,对其进行分析
非对等对照实验
差分类差分实验:可以通过两个步骤来明确某个介入因素的效果
不连续分析实验
在随机控制实验中,对照组就是“反现实”,但当对照实验不具有可行性或有违道德时,我们就需要寻求其他方式来模拟“反现实”。
【学习笔记】Nake Statistics相关推荐
- 贝叶斯统计学习笔记|Bayesian Statistics|Metropolis-Hastings与Gibbs Sampling
贝叶斯统计学习笔记|Bayesian Statistics|Metropolis-Hastings与Gibbs Sampling (一) Metropolis-Hastings(MH) 现要从目标分布 ...
- 影像组学视频学习笔记(37)-机器学习模型判断脑卒中发病时间(文献报告)、Li‘s have a solution and plan.
作者:北欧森林 链接:https://www.jianshu.com/p/3e7a2c84288e 来源:简书,已获授权转载 RadiomicsWorld.com "影像组学世界" ...
- 影像组学视频学习笔记(24)-文献导读:了解88种降维、分类器组合、Li‘s have a solution and plan.
本笔记来源于B站Up主: 有Li 的影像组学系列教学视频 本节(24)主要讲解: 解读一篇文献,了解不同的降维.分类器组合方法 这篇文献2018年发表在European Radiology上: Rad ...
- CUBRID学习笔记 1 简介 cubrid教程
CUBRID 是一个全面开源,且完全免费的关系数据库管理系统.CUBRID为高效执行Web应用进行了高度优化,特别是需要处理大数据量和高并发请求的复杂商务服务.通过提供独特的最优化特性,CUBRID可 ...
- TCP/IP协议学习笔记
TCP/IP详解学习笔记(1)-基本概念 为什么会有TCP/IP协议 在世界上各地,各种各样的电脑运行着各自不同的操作系统为大家服务,这些电脑在表达同一种信息的时候所使用的方法是千差万别.就好像圣经中 ...
- JProfiler学习笔记
JProfiler学习笔记 一.安装JProfiler 从http://www.ej-technologies.com/下载5.1.2并申请试用序列号 二.主要功能简介 1.内存 ...
- TCP/IP详解学习笔记-基本概念
为什么会有TCP/IP协议 在世界上各地,各种各样的电脑运行着各自不同的操作系统为大家服务,这些电脑在表达同一种信息的时候所使用的方法是千差万别.就好像圣经中上帝打乱了各地人的口音,让他们无法合作一样 ...
- oracle protocol=beq 不可用,学习笔记:Oracle数据库坏块 深入研究obj$坏块导致exp/expdp不能执行原因...
天萃荷净 深入研究Oracle坏块obj$导致exp/expdp不能执行导出的原因 上篇(案例:Oracle出现obj$坏块exp/expdp导出不能导出的解决办法ORA-01578 ORA-0111 ...
- oracle exacc,【学习笔记】Oracle 11GR2新特性Adaptive Cursor Sharing(ACS)
天萃荷净 Oracle研究中心学习笔记:分享一篇关于Oracle 11.2.0.1 11Gr2数据库最新版本中最新特性Adaptive Cursor Sharing(ACS)深入研究笔记. 本站文章除 ...
- Spring Cloud 学习笔记(2 / 3)
Spring Cloud 学习笔记(1 / 3) Spring Cloud 学习笔记(3 / 3) - - - 56_Hystrix之全局服务降级DefaultProperties 57_Hystri ...
最新文章
- com.mchange.v2.resourcepool.BasicResourcePool$AcquireTask@4e47db1f -- Acquisition Attempt Failed!!!
- Java中时间戳和Date类型以及字符串日期的相互转换
- Kotlin的Reified类型:怎样在函数内使用这一类型(KAD 14)
- Silverlight 布局控件
- 腾讯公开“区块链网络的信息处理方法”相关专利
- springcloud官方文档_springcloud-microservice 快速构建分布式系统
- 一机难求:折叠手机是未来趋势还是小众需求?
- 嵌入式语音识别系统是什么
- spring3: AOP 之 6.2 AOP的HelloWorld
- 服务器bios 虚拟化,hp服务器bios开启虚拟化(hp主板开启虚拟化)
- python随机种子
- 数据库系统和数据库管理系统的定义以及数据库管理系统的作用
- 电脑上的网站服务器在哪里能看到,怎么样查看windows电脑服务器IP地址
- windows挂起进程方法介绍
- linux系统弹出鼠标,Ubuntu14.04及以上操作系统鼠标闪烁问题
- 苹果外接屏幕鼠标移动方向问题
- 开发web、app应用实战中用到的资料汇总
- [bzoj4735] 你的生命已如风中残烛
- AliOS Things 网络适配框架 - SAL
- 电子协同办公系统,一体化移动办公平台
热门文章
- 数据挖掘:实用案例分析 下载_地下室防水施工技术及缺陷案例分析 | PPT下载
- r语言 html 变为ppt,如何用R来定制个性化PPT
- 京东移动端URL自动跳转PC端URL插件
- cisco链路聚合配置
- python 改变图片像素值
- 数字金额转化为中文大写
- python输出100以内奇数的几种输出方式
- wind python接口手册_接口手册 · wind- Client API 帮助中心 · 看云
- 网吧管理系统mysql_网吧管理系统数据库课程设计.doc
- 文字图片灰度化matlab,采用matlab将图像灰度化的方法