记得之前再写关于Python绘制统计图的时候就说过,准备写一篇关于数理统计的。

一直都在忙论文,忙完后也比较懒散。就一直拖到了现在。

虽然时隔的比较久远,但还是准备把这个总结出来了。

所需要的Python库:pandas、numpy、plotly(可选,便于绘图)、scipy。

所借助的平台依旧是Jupyter Notebook。

我也记不得哪些是标准库哪些是第三方库了。Em...所以还得各位自己解决一下了。

具体数据都是用我论文里的数据,因为老师的要求,数据是不能被公开的,所以就不发数据啦。


第一步:创建DataFrame

当然用DataFrame的数据类型不是必要的条件。用List以及Array的类型也都可以。但因为统计分析难免会涉及数据的清洗、整合这些管理工作,Pandas本身就很好的提供了这些管理的方法,所以比较推荐这么做。

将手头的数据转化成DataFrame的方法有很多。具体情况具体分析,可以去官网上查找一下资料。我比较喜欢的是直接从csv文件里读取出来。

df 

读取完数据之后,就要进行清洗整合了,这个我就不具体说明了。不同的数据,清洗整合的方法、要求都不一样。

第二步:先看看数据的基本统计量

简单的说,就是先看看平均值,方差,最小值、最大值、四分位数这些基本的统计量。

方法也很简单,直接用DataFrame对象的describe方法就可以了。

df

这时候,你会看到输出了一个表格。

最左边那栏第一个count表示的是数据的个数,其他的我就不解释了。

最上面那栏就是元数据的各个列名。

如果有时候数据很庞大,有很多列。而你只需要一小部分。那么可以直接先筛选完在用describe方法就可以了。

例如:

df

注意是两层中括号,不要弄错了

第三步:检验正态性(划重点)

为什么我会给这一步划重点呢,因为它非常重要。很多很多像我这样不是专门学数学的人,都会在分析数据之前,忘记做也懒得做这一步。

但是很多统计检定都是基于正态分布的情况下才进行的。比如T检定、ANOVA等等。

检验正态性的方法也很多,我就给大家总结两种。具体原理什么的别问我。我不是学数学的,数学也很差,我只是来负责总结的!

当样本容量比较小(大概N<=50)的时候,我们可以用shapiro

from 

当样本容量比较大(大概N>50)的时候,我们可以用normaltest

from 

返回结果都是差不多的,形式有点不一样而已。

NormaltestResult

前一个表示统计量,Em..其实可以不用管它是干什么的。

后一个是p值

可以看到我这里的结果是p<0.05的,所以H1假说成立。也就是该样本与正态分布存在的明显的差异,即认定该样本不服从正态分布。

第四步:开始统计检定

具体的检定方法视需求而定。我就介绍几种比较常见的检定方法。

T检定切记,T检定的样本一定要符合正态分布!

单样本的T检定:这种检定方法用于实验样本和理想模型进行的差异检定。这在我们的研究里是比较少见。

from 

双样本的T检定:这种检定方法是用于检测两个样本之间的差异的。由于我们这种做实验的一般都是设置对照组和实验组,所以会比较常用到。

from 

返回值一般也都是两个,前一个是统计量,后一个是p值

当p值>=0.05的时候,H0假说成立,即认为两个样本之间没有有意差。

当p值<0.05的时候,H1假说成立,即认为两个样本之间存在有意差。

方差分析(ANOVA)切记,ANOVA的样本也一定要符合正态分布!

因为单因素的ANOVA对我来说是最常见的,所以就只做这个介绍了。简单的说,就是因为一个因素的影响获取了3个样本,进行对比分析。比如pre-test、mid-test、post-test,这样三组的数据。就是test种类一种因素而取得的3个样本。

from 

返回的结果和前面T检定的结果是一样的,就不再重复赘述了。

如果你需要多因素的ANOVA,就会涉及到建立模型等等东西。可以参考:python数据统计分析

卡方检定:卡方检定的样本不一定需要符合正态分布。

卡方检定多用于检定一个样本某两个数据的比值是否存在差异(至少我是这么理解的)。我的论文是关于不同语料库中,两个词相对使用频率的差异。所以我就用了这种检定方法。

例如,现在有3个数据库。然后要通过卡方检定,判断每个语料库里you和we的相对使用情况是否有差异。

word_you 

返回结果

(

第一个是效果量,第二个是p值,第三个是自由度,第四个是校准值

像我这种统计初学者的话只用在意前两个结果就好。

效果量,顾名思义就是效果,越大说明效果越明显。

p值什么意思就不多说了。

总而言之,从这个结果来看,三个语料库中,两个单词的相对使用情况是存在显著的有意差的。

大功告成,写报告。

其实Python可以做的数理统计还有很多很多。因为我本身对这数学方面不是特别的熟悉,也不好深究。

所以各位有需求的话可以多去网上搜搜资料就好了,我这里只是最了一个最最最最简单基础的总结罢了。

博客链接:http://fishfishfish.top/p/8

python 卡方分布值_用Python进行最最最基础的统计检定相关推荐

  1. python 卡方分布值_重温统计学--抽样分布

    小文 | 公众号 小文的数据之旅 推断统计学的重要作用就是通过从总体中抽取样本构造适当的统计量,由样本性质去推断关于总体的性质.统计量是样本的函数,它不依赖于任何未知参数.常用的统计量包括样本均值.方 ...

  2. python进行各项统计检验_用Python进行最最最基础的统计检定

    记得之前再写关于Python绘制统计图的时候就说过,准备写一篇关于数理统计的. 一直都在忙论文,忙完后也比较懒散.就一直拖到了现在. 虽然时隔的比较久远,但还是准备把这个总结出来了. 所需要的Pyth ...

  3. python 卡方分布值_卡方新动力2020高校算法建模挑战赛

    [比赛名称]卡方新动力2020高校算法建模挑战赛 [主办单位]上海卡方信息科技有限公司.杭州华软新动力资产管理有限公司 上海卡方信息科技有限公司成立于2017年,已拥有近20项专利著作权.卡方科技主要 ...

  4. python 卡方分布值_饱和模型与偏差计算R方与p值

    引言:logistic回归中,我们了解到R2和P值的计算方法.但josh starmer老师指出,广义线性模型中R2更常见的计算方法还包括饱和模型(参考:Logistic回归:R2与P-value的计 ...

  5. python 时间序列预测_使用Python进行动手时间序列预测

    python 时间序列预测 Time series analysis is the endeavor of extracting meaningful summary and statistical ...

  6. python 概率分布模型_使用python的概率模型进行公司估值

    python 概率分布模型 Note from Towards Data Science's editors: While we allow independent authors to publis ...

  7. python 卡方分布函数_卡方检验2-python代码实现

    统计学,风控建模经常遇到卡方分箱算法ChiMerge.卡方分箱在金融信贷风控领域是逻辑回归评分卡的核心,让分箱具有统计学意义(单调性).卡方分箱在生物医药领域可以比较两种药物或两组病人是否具有显著区别 ...

  8. python中布尔型的值_在python中对于bool布尔值的取反操作

    背景 根据公司业务的需求,需要做一个对于mysql数据库的大批量更新.脚本嘛也是干干单单.使用了redis的队列做缓存,可以异步并发的多任务进行更新. 有点难受的地方在于,请求访问时,因为一些网速,速 ...

  9. python惰性求值_让Python中类的属性具有惰性求值的能力

    起步 我们希望将一个只读的属性定义为 property 属性方法,只有在访问它时才进行计算,但是,又希望把计算出的值缓存起来,不要每次访问它时都重新计算. 解决方案 定义一个惰性属性最有效的方法就是利 ...

最新文章

  1. STL学习系列九:Map和multimap容器
  2. 使用css实现点击切换效果
  3. OpenGL equirectangular等矩形环境图的实例
  4. Java-OpenCV(一)准备工作
  5. RT-Thread uart串口设备驱动代码结构剖析
  6. Java集合(三):Queue队列
  7. 消息队列面试 - 如何保证消息不被重复消费?或者说,如何保证消息消费的幂等性?
  8. vscode remote 第三方库_分钟将vscode撸成小霸王
  9. matlab数据类型single vs double
  10. 腾讯产品经理培训生笔试攻略,笔试题型详细解析(送历年笔试题库)!
  11. 解码mmo游戏服务器二:地图自动寻路
  12. 嵌入式硬件设计:电感
  13. CentOS 7 网络配置
  14. QDateTime时间
  15. Qt实现的注册码工具
  16. java pg数据库事务回滚_PostgreSQL事务特性之ROLLBACK
  17. Linux平台C++ 实现毫秒/微妙级时间获取或者延时
  18. git提交代码设置某些文件不可上传
  19. 概率论的学习和整理--番外11:10球里8红球2白球,抽俩次抽中白球的概率是多少呢? 一个例题的不同方法
  20. 女生学计算机好吗有辐射,电脑辐射会给女人带来的危害

热门文章

  1. PHP大型电商网站秒杀思路
  2. SAP 04-CONTAINER 使用DOCKING停靠容器示例<转载> cl_gui_docking_container
  3. Android调用密码锁屏校验
  4. 校园导游系统(课程设计)
  5. 圣杯布局双飞翼布局认识
  6. [转]另类营销: 折磨顾客--因为他们喜欢
  7. android8.0模拟器没有root权限不能成功启用monitor导出文件的解决方法
  8. 一个仿支付宝风格的密码输入框
  9. 微语录(2011-03-07---2011-03-13)
  10. 屏幕分辨率和屏幕尺寸之间的关系