统计学(检验、分布)的 python(numpy/pandas/scipy) 实现
- scipy 中统计相关的 api:https://docs.scipy.org/doc/scipy/reference/stats.html
- https://zhuanlan.zhihu.com/p/24635014
- https://blog.csdn.net/lanchunhui/article/details/52328380
1. t 检验:两个分布的差异
多维数据集的每一个属性列都可理解为一个特征的实例。两个分布的距离:每一个属性列代表的特征跟标签列之间的相关性。
t 检验用 t 分布理论来推论差异发生的概率,以比较两个分布的平均数之间的差异是否显著。主要用于样本含量小(n<30n<30n ),总体标准差 σσ\sigma 未知的正态分布。
独立样本 t 检验统计量如下计算:
t=\frac{\bar X_1-\bar X_2}{\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2 }}}, \quad S_x^2=\frac{\sum(x-\mu)^2}{n-1}
尤其注意,这里的方差是无偏估计(np.std(x, ddof=1))
# 通过字典构造 DataFrame
data = {'Category': ['cat2', 'cat1', 'cat2', 'cat1', 'cat2', 'cat1', 'cat2', 'cat1', 'cat1', 'cat1', 'cat2'],'values': [1, 2, 3, 1, 2, 3, 1, 2, 3, 5, 1]}data_df = DataFrame(data)
# 计算各自的均值
>> data_df.groupby('Category').mean()
cat1 2.666667
cat2 1.600000cat1 = data_df[data_df['Category'] == 'cat1']# data_df.Category == 'cat1'
cat2 = data_df[data_df['Category'] == 'cat2']from scipy.stats import ttest_ind
# 计算二者的 t 检验统计量,及对应的 p-value
>> ttest_ind(cat1['values'], cat2['values'])
Ttest_indResult(statistic=1.4927289925706944, pvalue=0.16970867501294376)
scipy 下的 t-test 计算方法
def t_test(x1, x2):n1, n2 = x1.size, x2.sizemu1, mu2 = np.mean(x1), np.mean(x2)s1, s2 = np.std(x1, ddof=1), np.std(x2, ddof=1)num = np.abs(mu1 - mu2)denom = np.sqrt((((n1-1)*s1**2 + (n2-1)*s2**2)/(n1+n2-2))*(1/n1+1/n2))with np.errstate(divide='ignore'):return num / denom
统计学(检验、分布)的 python(numpy/pandas/scipy) 实现相关推荐
- pythonspark集群模式运行_有关python numpy pandas scipy 等 能在YARN集群上 运行PySpark
有关这个问题,似乎这个在某些时候,用python写好,且spark没有响应的算法支持, 能否能在YARN集群上 运行PySpark方式, 将python分析程序提交上去? Spark Applicat ...
- Python numpy+pandas+matplotlib学习笔记
Python numpy+pandas+matplotlib 本文是根据b站路飞学城Python数据分析全套教程的学习视频整理归纳的学习文档,主要目的是方便自己进行查阅,详细的还得去b站看原视频.另外 ...
- python numpy pandas 书 全_夯基固本学Python—Numpy与Pandas
数据分析绝对绕不过的三个包是numpy.scipy和pandas.numpy是Python的数值计算扩展,专门用来处理矩阵,它的运算效率比列表更高效.scipy是基于numpy的科学计算包,包括统计. ...
- 深度对比Python(Numpy,Scipy)与Matlab的数值精度
Matlab一度被认为是最专业的数值计算工具之一,相信许多同学都或多或少用过这个工具.相比而言,Python作为一种胶水式的语言,其设计之初就不是为科学计算服务的.之前也看到许多人在吐槽说用Pytho ...
- matlab error函数_深度对比Python(Numpy,Scipy)与Matlab的数值精度
CSDN原文:https://blog.csdn.net/cauchy7203/article/details/107785295 Matlab一度被认为是最专业的数值计算工具之一,相信许多同学都或多 ...
- python numpy pandas 书 全_用Python做数据分析,Numpy,Pandas,matp
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 用Python做数据分析,Numpy,Pandas,matplotlib是怎么也绕不开的三个包,我最开始学习pandas是看的<利用Python进行 ...
- 安装numpy, pandas, scipy 和matplotlib
首先找到python的安装文件夹, 在pathon35/Script文件夹里新建一个bat文件(我安装的是3.5版本),通过文本编辑器在里面写上cmd,点击它就可以直接打开一个该路径下的命令行窗口. ...
- Matlab和Python(Numpy,Scipy)与Lapack的关系
说到数值计算,可能许多人都能立马想到Matlab.Matlab多年的持续影响力已经让它成为许多人心中科学计算的代名词.但它底层一个重要的库Lapack却很少有人知道. 而Python年龄比Matlab ...
- python apriori算法 sklearn_R 和 Python (numpy scipy pandas) 用于统计学分析,哪个更好?...
可以两个一起学,参见我的博文,可以做个索引. Python 和 R 数据分析/挖掘工具互查 写在前面 在此总结一些在数据分析/挖掘中可能用到的功能,方便大家索引或者从一种语言迁移到另一种.当然,这篇博 ...
最新文章
- 用C语言解“超速判断”题
- js-在url后面添加时间戳清除浏览器打开页面的缓存
- graphicsmagick 获取图片质量_第 72 期 水稻图片素材
- 四.MongoDB 概念解析
- ntp时间服务器配置
- 如何让神经网络把熊猫识别为秃鹫
- String是值传递还是引用传递
- fluorinefx (AMF3 for .NET)
- JavaScript 中,break , continue , return 的区别
- 基于 Layui 的富文本编辑器和封面的实现方案
- Android Studio 详细安装教程
- Visual C++ 中的ODBC编程
- P2651 添加括号III(python3实现)
- 《数值分析》学习笔记 ·003——数值计算中应该注意的几个问题
- 9102年,曝光这几个高质量的公众号,年薪7位数!
- docker-2 深入了解docker
- 16 计算二叉树叶子结点数目(耿 6.14)
- iphone怎么找本地音乐_为什么iPhone会发出蜂鸣声或振动? 这是找出方法
- Gentoo Linux+KDE Plasma桌面安装教程
- “杜拉拉升职记”电影看后感
热门文章
- python的get和post方式请求详解
- DXUT框架剖析(2)
- (转)Managed DirectX +C# 开发(入门篇)(二)
- python rsa加密解密 字符串_python_rsa加密解密
- 2 snippets vue 修改配置_教你发布vue+.netCore项目到服务器
- Doris之Routine Load
- Redis的复制(Master/Slave)
- java gc 例子_Java 中, 为什么一个对象的实例方法在执行完成之前其对象可以被 GC 回收?...
- php 日志增强,php 日志扩展
- redis和oracle同步方案,redis与oracle之间怎么实现数据同步?