Udacity数据分析(进阶)- 统计学:检验心理学现象
统计学:检验心理学现象
背景信息
在一个Stroop (斯特鲁普)任务中,参与者得到了一列文字,每个文字都用一种油墨颜色展示。参与者的任务是将文字的打印颜色大声说出来。这项任务有两个条件:一致文字条件,和不一致文字条件。在一致文字条件中,显示的文字是与它们的打印颜色匹配的颜色词,如“红色”、“蓝色”。在不一致文字条件中,显示的文字是与它们的打印颜色不匹配的颜色词,如“紫色”、“橙色”。在每个情况中,我们将计量说出同等大小的列表中的墨色名称的时间。每位参与者必须全部完成并记录每种条件下使用的时间。
调查问题
(1) 我们的自变量是什么?因变量是什么?
自变量:显示的文字与它们的打印颜色的颜色词是否匹配;因变量:参与者完成将文字的打印颜色说一遍所需的时间
(2) 此任务的适当假设集是什么?你需要以文字和数学符号方式对假设集中的零假设和对立假设加以说明,并对数学符号进行定义。你想执行什么类型的统计检验?为你的选择提供正当理由(比如,为何该实验满足你所选统计检验的前置条件)。
假设集:
μsame\mu_{same}μsame:表示一致文字条件情况下完成时间的总体均值
μdiff\mu_{diff}μdiff:表示不一致文字条件情况下完成时间的总体均值
零假设:
μsame\mu_{same}μsame=μdiff\mu_{diff}μdiff 即不同文字条件并不会影响完成任务时间
备择假设:
μsame\mu_{same}μsame≠μdiff\mu_{diff}μdiff 即不同文字条件会影响完成任务时间
本次检验使用t检验中的配对样本t检验,并构建双尾检验:
因为本次使用的试验数据集检验对象是同一样本数据进行两种不同条件的处理,属于配对样本t检验,且由于备择假设中包含不等号,我们需要找出参数的变化,而不是增减,所以选用双尾检验。
(3) 报告关于此数据集的一些描述性统计。包含至少一个集中趋势测量和至少一个变异测量。
import pandas as pd
import scipy.stats as stats
df=pd.read_csv('stroopdata.csv')
#计算汇总统计
df.describe()
#计算中位数
df.median()
Congruent 14.3565
Incongruent 21.0175
dtype: float64
#计算IQR
stats.iqr(df,axis=0)
array([4.3055 , 5.33475])
#计算极差
df.Congruent.ptp(),df.Incongruent.ptp()
(13.698000000000002, 19.568)
描述性统计(以下顺序均为Congruent,Incongruent)
集中趋势测量
1.平均数:14.051125,22.015917
2.中位数:14.3565,21.0175
3.众数:应为样本数量平均,不适合使用众数
变异测量
1.标准差:3.559358,4.797057
2.极差:13.698,19.568
3.IQR(四分位距):4.3055,5.33475
可视化分析
(4) 提供显示样本数据分布的一个或两个可视化。用一两句话说明你从图中观察到的结果。
import numpy as np
import matplotlib.pyplot as plt
df.index=range(0, len(df.Congruent))
bar_width = 0.7
x_pos = np.arange(len(df.Congruent) * 2, step=2)
plt.figure(figsize=[9,5])
plt.bar(x_pos, df['Congruent'], color='#FF7D40', width=bar_width)
plt.bar(x_pos + bar_width, df['Incongruent'], color='#33A1C9', width=bar_width)
plt.xticks(x_pos + bar_width / 2,df.index+1)
plt.title('Reading time under different conditions', fontsize=16)
plt.ylabel('Time')
plt.legend(df.columns)
plt.tight_layout()
plt.show()
data = [df.Congruent, df.Incongruent]
plt.title('Boxplot between Congruent and Incongruent', fontsize=12)
plt.boxplot(data,labels=df.columns)
plt.show()
结论
从图上我们可以看出,每一次Incongruent所用的阅读时间大于Congruent所用的阅读时间,箱线图中Incongruent存在两处异常值,除此之外可以明显看出Incongruent的中位数大于Congruent中75%的数据。
统计结果
(5) 现在,执行统计测试并报告你的结果。你的置信水平和关键统计值是多少?你是否成功拒绝零假设?对试验任务得出一个结论。结果是否与你的期望一致?
均值偏差 = 14.051125 - 22.015917 = -7.964792 (n = 24)
#标准偏差
np.std(df.Congruent-df.Incongruent,ddof=1)
4.864826910359056
使用以下方法计算t统计量
- 其中d bar是平均差,s²是样本方差,n是样本大小
计算t统计量 = -8.0207
自由度 = 24 - 1 = 23
使用α=0.05,查表可知ν=23,p=0.025时临界值t=2.069
95%的置信区间:-7.965±2.069(4.865/√24) 即 (-10.02,-5.91)
p-value 查表可知远小于0.0001
#使用stats的配对样本t检验计算p-value
stats.ttest_rel(df.Congruent,df.Incongruent,axis=0)
Ttest_relResult(statistic=-8.020706944109957, pvalue=4.103000585711178e-08)
使用stats自带的配对样本t检验计算得到了相同的结果
结论
我们选择95%的置信水平,即显著性水平α=0.05,从计算结果看p值远小于0.05,那么我们可以选择拒绝零假设,接受备择假设,即显示的文字与它们的打印颜色不匹配时对实验者的阅读时间会产生影响。
参考资料
1.为什么要使用配对 t 检验?http://support.minitab.com/zh-cn/minitab/17/topic-library/basic-statistics-and-graphs/hypothesis-tests/tests-of-means/why-use-paired-t/
2.有趣的心理学实验——斯特鲁普效应
https://blog.csdn.net/VucNdnrzk8iwX/article/details/79946964
3.spicy.stats官方文档
https://docs.scipy.org/doc/scipy-0.19.1/reference/generated/scipy.stats.ttest_rel.html
链接:https://pan.baidu.com/s/14YgycNkX5mti7DWAqlJQYg 密码:qwia
学习资源
Udacity推论统计学入门(这门课中除了已经学到的t检验外,还加入了方差分析、回归分析和卡方检验等进阶内容,适合已经通过项目的学员进行深入学习);
Coursera专项课程:R语言统计学(Duke大学教授主讲,和Udacity的课程可以互为补充,在某些理论方面探索会更加深入。虽然需要付费做作业,但仅看课程视频就可以学到很多,强烈推荐);
台湾大学顽想学概率(一)(二)(要进一步了解统计学原理,概率论是必不可少的。这门中文MOOC以通俗易懂的内容和讲师幽默随和的风格,自上线以来好评不断,习题也十分有挑战性);
概率论:不确定性的科学(MIT的经典MOOC,一直以来都是Edx上最热门的课程之一,难度和学习强度也相当之大,但授课水平确实无可挑剔,清晰明了。建议空余时间较多并且愿意挑战自己时选修);
陈希孺《概率论与数理统计》(国内比较少见的经典数理统计教材)。
Udacity数据分析(进阶)- 统计学:检验心理学现象相关推荐
- Udacity数据分析(进阶)-Prosper 贷款数据分析
Prosper 贷款数据分析 Prosper是美国的一家P2P(个人对个人)在线借贷平台网站,世界排名2万左右.网站撮合了一些有闲钱的人和一些急于用钱的人.用户若有贷款需求,可在网站上列出期望数额和可 ...
- 冰与火之歌-五王之战(优达数据分析进阶项目)
五王之战分析 - 冰与火之歌 简介 五王之战(War of the Five Kings)是著名严肃奇幻小说<冰与火之歌>中的著名内战.这是一场规模空前.波及七大王国的内乱.顾名思义,前后 ...
- 《从Excel到R 数据分析进阶指南》一3.4 更改数据格式
本节书摘来自异步社区<从Excel到R 数据分析进阶指南>一书中的第3章,第3.4节,作者 王彦平(蓝鲸),更多章节内容可以访问云栖社区"异步社区"公众号查看 3.4 ...
- 《从Excel到R 数据分析进阶指南》一第1章 生成数据表1.1 导入数据表
本节书摘来自异步社区<从Excel到R 数据分析进阶指南>一书中的第1章,第1.1节,作者 王彦平(蓝鲸),更多章节内容可以访问云栖社区"异步社区"公众号查看 第1章 ...
- 【数据分析进阶】DCIC竞赛-task2 数据可视化
[数据分析进阶]DCIC竞赛-task2 数据可视化 数据可视化介绍 常规可视化 可视化组成元素 可视化图标类型 地图可视化 赛题可视化 1. 24小时巡游成统计数量 2. 24小时巡游车平均GPS速 ...
- python用于财务数据分析_财务数据分析进阶之路
从一个人生故事说起 刚从学校毕业的年轻人,选定一个方向,开始探索. 几年以后,探索到了边界,用力推开一扇门,勇敢的跨进去,点亮了更大的世界. 又过了许久,再次来到世界尽头,再次努力突破天花板,又见到了 ...
- 互联网业务数据分析-数据分析进阶
本章主要介绍了四种数据分析进阶方法,主要是用户画像.归因查找.路径挖掘.行为序列,此外,还介绍了3种数据分析案例.
- 【数据分析进阶】DCIC竞赛-task1 数据读取
[数据分析进阶]DCIC竞赛-task1 数据读取 学习目标 赛题介绍 赛题思路 赛题数据 数据读取 pandas介绍 numpy介绍 读取代码 1.巡游车GPS数据读取 2.巡游车订单单个文件读取 ...
- 【数据分析进阶】DCIC竞赛-task56 订单调度分析
[数据分析进阶]DCIC竞赛-task5&6 订单调度分析 task5 订单调度分析 经纬度转换相关知识 经纬度编码 订单调度分析 思考 task 06 分析报告撰写 分析报告撰写 报告撰写建 ...
最新文章
- [译] ES6+ 中的 JavaScript 工厂函数(第八部分)
- 机器学习(MACHINE LEARNING)MATLAB蚁群算法解决TSP问题
- linux内核中kset是什么意思,Linux内核之设备驱动-底层数据结构kobject/kset
- Http协议的Delete和Put方法是做什么的?怎么用?
- 移除List中的元素,你的姿势对了吗?
- BootstrapTable分页(一)
- zookeeper专题:zookeeper的节点类型,数据持久化机制
- Rust中mut, , mut的区别
- 【gitbub遇到的问题】新建工程后,本地无法push代码?提示鉴权失败
- 六、银行会计核算(全是重点)
- 19年清北学堂冬令营游记
- qqlive播放器下载视频
- 用pigz来加速解压tar.gz
- win7识别到移动硬盘,但不显示盘符解决办法
- 福利:工作经常用到的Mac软件整理(全)
- 华硕笔记本电脑换电池
- brendan eich_编程领域的变革者:Brendan Eich
- 文通Android平台证件识别SDK
- 电大计算机试题及答案形成性,国开电大机械CAD/CAM形成性作业1答案
- jsp用户信息管理系统