【K-S检验】检验两个数据集的分布是否一致

前言:在训练机器学习模型时,遇到了模型在数据集分割出来的test set上预测准确率高,但是在另一个test set数据集上预测准确率很低的情况。第一直觉是判断两个数据集的分布是否一致。

K-S检验方法

KS-test(Kolmogorov–Smirnov test)一般用来检验两个数据分布是否一致,KS检验不用假设数据的分布情况,算是一种非参数检验方法。
下图是两个数据的累积分布函数(CDF):

代码

from scipy.stats import ks_2sampdataset_a = ['123','456']
dataset_b= ['789','12321']
result = ks_2samp(dataset_a,dataset_b).pvalueprint("pvalue between 2 datasets: {}".format(result))

我们先生成两个数据集的list,使用ks_2samp检验两个list是否来自同一个样本,首先提出假设:dataset_a和dataset_b服从相同的分布。

最终返回的结果,p-value=6.060226485128174e-18,比指定的显著水平(假设为5%)小,则我们完全可以拒绝假设:dataset_a和dataset_b不服从同一分布

p_value越大,说明两者属于同一分布的可能性越大。
p_value越小(越接近0),说明两者属于同一分布的概率越小。一般来说小于5%,就能证明原假设不成立,即dataset_a和dataset_b不服从同一分布。

注:用来比较的两个数据集的长度(size)可以不相同。

参考文献

[1] 双样本KS检验与p-value推导(Kolmogorov–Smirnov test)
[2] 使用K-S检验一个数列是否服从正态分布、两个数列是否服从相同的分布
[3] 5种数据同分布的检测方法
[4] 训练集/测试集分布一致性检查

【K-S检验】检验两个数据集的分布是否一致相关推荐

  1. KS检验样本测试集和训练集分布问题

    最初引入KS检验的原因:用SVM 做分类问题时,发现在测试集上跑出来的准确率等参数比在训练集高许多,经过分析,推断可能是由于训练集和测试集上的数据分布情况不一致.所以想通过KS检验一下数据分布情况. ...

  2. 怎么用Q-Q图验证数据集的分布

    样本数据集在构建机器学习模型的过程中具有重要的作用,样本数据集包括训练集.验证集.测试集,其中训练集和验证集的作用是对学习模型进行参数择优,测试集是测试该模型的泛化能力. 正负样本数据集符合独立同分布 ...

  3. 实现KMO和Bartlett的球形度检验的两种方法

    文章目录 实现KMO和Bartlett的球形度检验的两种方法 SPSS 实现KMO和Bartlett的球形度检验 第一步:选择"因子分析" 第二步:选择变量 第三步:选择KMO和巴 ...

  4. spss数据分析(平均值检验、单样本的t检验、两独立样本的t检验、配对样本的t检验)

    统计方法分为描述统计和推断性统计,参数估计和假设性检验是推断性统计中的重要部分. 参数检验主要用于抽样研究方法,从总体中抽取一定的样本进行研究 非参数性检验:无法准确假设时 在用样本均值估计总体均值, ...

  5. R语言Kolmogorov-Smirnov检验比较两个样本是否来自同一个分布:ks.test函数执行Kolmogorov-Smirnov检验比较两个样本是否来自同一个分布

    R语言Kolmogorov-Smirnov检验比较两个样本是否来自同一个分布:ks.test函数执行Kolmogorov-Smirnov检验比较两个样本是否来自同一个分布 目录

  6. SAS学习笔记25 t检验(单个样本t检验、配对样本t检验、两个独立样本t检验及方差不齐时的t'检验)...

    根据研究设计和资料的性质有单个样本t检验.配对样本t检验.两个独立样本t检验以及在方差不齐时的t'检验 单样本t检验 单样本t检验(one-sample t-test)又称单样本均数t检验,适用于样本 ...

  7. t检验(独立样本t检验 配对样本t检验 非参检验 多余两组的比较 方差分析 非参检验)

    文章目录 独立样本t检验 配对样本t检验 非参检验 多余两组的比较 方差分析 非参检验 独立样本t检验 library(MASS)t.test(Prob~So, data = UScrime,var. ...

  8. R语言偏相关或者部分相关性系数计算实战:使用psych包计算(Partial Correlation)偏相关或者部分相关性系数并用建设检验检验相关性的显著性

    R语言偏相关或者部分相关性系数计算实战:使用psych包计算(Partial Correlation)偏相关或者部分相关性系数并用建设检验检验相关性的显著性 目录

  9. 两个数据集,本地可以关联,正式库关联不了

    具体情况: 两个数据集,通过uuid相关联,左右显示. 在本地环境,数据集关联成功,但是放到正式库应用里,左边有值右边空,关联不了. 搞了整整两天,发现关联的是数据列,改成单元格就可以关联上了.

最新文章

  1. SPOJ - SUBLEX Lexicographical Substring Search(后缀自动机)
  2. php调整表格样式,表格的创建以及样式修改
  3. cad2016中选择全图字体怎么操作_DNF手游快速升级攻略 DNF手游怎么快速升级
  4. Windows下Visual studio 2013 编译 Audacity
  5. P3891-[GDOI2014]采集资源【背包,dp】
  6. 白帽子讲web安全——访问控制
  7. 开方计算与浮点数的问题
  8. jQuery 仿写京东轮播广告图
  9. ToolStripContainer
  10. 上周的工作总结和下周的学习安排
  11. zabbix安装 监控mysql
  12. Apollo OpenDRIVE和ASAM OpenDRIVE的区别
  13. android电话记录仪,零费用变身记录仪 安卓手机探索改造
  14. 个人所得税计算器(简易)
  15. 2014美团校园招聘笔试(10.8北京)
  16. ORA-01017 ORA-02063: preceding 2 lines from SQLEMR
  17. 区块链ICO:互联网进化的驱动力
  18. 模电——三极管各个引脚之间的电压关系
  19. 企业微信没有50名员工如何扩容?如何突破企业微信50000客户数的限制?企业微信如何扩容10万客户?
  20. 华三h3c系列交换机ACL实践

热门文章

  1. 合资品牌车联网或率先尝到车联网技术的甜头?
  2. saiku 部署运行
  3. gunicorn配置文件
  4. Linux计划任务篇
  5. 达梦数据库常用函数——字符串函数
  6. python中,ttk.Combobox的background、foreground和font属性的设置问题
  7. 正交变换——来龙去脉
  8. 【Linux】WSL
  9. vr虚拟现实技术前景怎么样?虚拟展示技术应用介绍
  10. 老男孩-Python之路,Day2 - Python基础2