• scipy 中统计相关的 api:https://docs.scipy.org/doc/scipy/reference/stats.html
  • https://zhuanlan.zhihu.com/p/24635014
  • https://blog.csdn.net/lanchunhui/article/details/52328380

1. t 检验:两个分布的差异

多维数据集的每一个属性列都可理解为一个特征的实例。两个分布的距离:每一个属性列代表的特征跟标签列之间的相关性。

t 检验用 t 分布理论来推论差异发生的概率,以比较两个分布的平均数之间的差异是否显著。主要用于样本含量小(n<30n<30n ),总体标准差 σσ\sigma 未知的正态分布。

独立样本 t 检验统计量如下计算:

t=X¯1−X¯2S21n1+S22n2−−−−−−−√,S2x=∑(x−μ)2n−1t=X¯1−X¯2S12n1+S22n2,Sx2=∑(x−μ)2n−1

t=\frac{\bar X_1-\bar X_2}{\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2 }}}, \quad S_x^2=\frac{\sum(x-\mu)^2}{n-1}

尤其注意,这里的方差是无偏估计(np.std(x, ddof=1)

# 通过字典构造 DataFrame
data = {'Category': ['cat2', 'cat1', 'cat2', 'cat1', 'cat2', 'cat1', 'cat2', 'cat1', 'cat1', 'cat1', 'cat2'],'values': [1, 2, 3, 1, 2, 3, 1, 2, 3, 5, 1]}data_df = DataFrame(data)
# 计算各自的均值
>> data_df.groupby('Category').mean()
cat1      2.666667
cat2      1.600000cat1 = data_df[data_df['Category'] == 'cat1']# data_df.Category == 'cat1'
cat2 = data_df[data_df['Category'] == 'cat2']from scipy.stats import ttest_ind
# 计算二者的 t 检验统计量,及对应的 p-value
>> ttest_ind(cat1['values'], cat2['values'])
Ttest_indResult(statistic=1.4927289925706944, pvalue=0.16970867501294376)
  • scipy 下的 t-test 计算方法

    def t_test(x1, x2):n1, n2 = x1.size, x2.sizemu1, mu2 = np.mean(x1), np.mean(x2)s1, s2 = np.std(x1, ddof=1), np.std(x2, ddof=1)num = np.abs(mu1 - mu2)denom = np.sqrt((((n1-1)*s1**2 + (n2-1)*s2**2)/(n1+n2-2))*(1/n1+1/n2))with np.errstate(divide='ignore'):return num / denom

统计学(检验、分布)的 python(numpy/pandas/scipy) 实现相关推荐

  1. pythonspark集群模式运行_有关python numpy pandas scipy 等 能在YARN集群上 运行PySpark

    有关这个问题,似乎这个在某些时候,用python写好,且spark没有响应的算法支持, 能否能在YARN集群上 运行PySpark方式, 将python分析程序提交上去? Spark Applicat ...

  2. Python numpy+pandas+matplotlib学习笔记

    Python numpy+pandas+matplotlib 本文是根据b站路飞学城Python数据分析全套教程的学习视频整理归纳的学习文档,主要目的是方便自己进行查阅,详细的还得去b站看原视频.另外 ...

  3. python numpy pandas 书 全_夯基固本学Python—Numpy与Pandas

    数据分析绝对绕不过的三个包是numpy.scipy和pandas.numpy是Python的数值计算扩展,专门用来处理矩阵,它的运算效率比列表更高效.scipy是基于numpy的科学计算包,包括统计. ...

  4. 深度对比Python(Numpy,Scipy)与Matlab的数值精度

    Matlab一度被认为是最专业的数值计算工具之一,相信许多同学都或多或少用过这个工具.相比而言,Python作为一种胶水式的语言,其设计之初就不是为科学计算服务的.之前也看到许多人在吐槽说用Pytho ...

  5. matlab error函数_深度对比Python(Numpy,Scipy)与Matlab的数值精度

    CSDN原文:https://blog.csdn.net/cauchy7203/article/details/107785295 Matlab一度被认为是最专业的数值计算工具之一,相信许多同学都或多 ...

  6. python numpy pandas 书 全_用Python做数据分析,Numpy,Pandas,matp

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 用Python做数据分析,Numpy,Pandas,matplotlib是怎么也绕不开的三个包,我最开始学习pandas是看的<利用Python进行 ...

  7. 安装numpy, pandas, scipy 和matplotlib

    首先找到python的安装文件夹, 在pathon35/Script文件夹里新建一个bat文件(我安装的是3.5版本),通过文本编辑器在里面写上cmd,点击它就可以直接打开一个该路径下的命令行窗口. ...

  8. Matlab和Python(Numpy,Scipy)与Lapack的关系

    说到数值计算,可能许多人都能立马想到Matlab.Matlab多年的持续影响力已经让它成为许多人心中科学计算的代名词.但它底层一个重要的库Lapack却很少有人知道. 而Python年龄比Matlab ...

  9. python apriori算法 sklearn_R 和 Python (numpy scipy pandas) 用于统计学分析,哪个更好?...

    可以两个一起学,参见我的博文,可以做个索引. Python 和 R 数据分析/挖掘工具互查 写在前面 在此总结一些在数据分析/挖掘中可能用到的功能,方便大家索引或者从一种语言迁移到另一种.当然,这篇博 ...

最新文章

  1. 用C语言解“超速判断”题
  2. js-在url后面添加时间戳清除浏览器打开页面的缓存
  3. graphicsmagick 获取图片质量_第 72 期 水稻图片素材
  4. 四.MongoDB 概念解析
  5. ntp时间服务器配置
  6. 如何让神经网络把熊猫识别为秃鹫
  7. String是值传递还是引用传递
  8. fluorinefx (AMF3 for .NET)
  9. JavaScript 中,break , continue , return 的区别
  10. 基于 Layui 的富文本编辑器和封面的实现方案
  11. Android Studio 详细安装教程
  12. Visual C++ 中的ODBC编程
  13. P2651 添加括号III(python3实现)
  14. 《数值分析》学习笔记 ·003——数值计算中应该注意的几个问题
  15. 9102年,曝光这几个高质量的公众号,年薪7位数!
  16. docker-2 深入了解docker
  17. 16 计算二叉树叶子结点数目(耿 6.14)
  18. iphone怎么找本地音乐_为什么iPhone会发出蜂鸣声或振动? 这是找出方法
  19. Gentoo Linux+KDE Plasma桌面安装教程
  20. “杜拉拉升职记”电影看后感

热门文章

  1. python的get和post方式请求详解
  2. DXUT框架剖析(2)
  3. (转)Managed DirectX +C# 开发(入门篇)(二)
  4. python rsa加密解密 字符串_python_rsa加密解密
  5. 2 snippets vue 修改配置_教你发布vue+.netCore项目到服务器
  6. Doris之Routine Load
  7. Redis的复制(Master/Slave)
  8. java gc 例子_Java 中, 为什么一个对象的实例方法在执行完成之前其对象可以被 GC 回收?...
  9. php 日志增强,php 日志扩展
  10. redis和oracle同步方案,redis与oracle之间怎么实现数据同步?