最初引入KS检验的原因:用SVM 做分类问题时,发现在测试集上跑出来的准确率等参数比在训练集高许多,经过分析,推断可能是由于训练集和测试集上的数据分布情况不一致。所以想通过KS检验一下数据分布情况。

KS检验是什么:Kolmogorov–Smirnov 检验,简称KS检验,是统计学中的一种非参数假设检验,用来检测单样本是否服从某一分布,或者两样本是否服从相同分布。

KS检验使用:

单样本:

两样本:

注意:data1、data2是一维数组array,不能是列表 。

列表转数组:np.array();多维数组转一维数组:.flatten()。

KS返回结果:ks检验一般返回两个值:第一个值表示两个分布之间的最大距离,值越小即这两个分布的差距越小,分布也就越一致。第二个值是p值,用来判定假设检验结果的一个参数,p值越大,越不能拒绝原假设(待检验的两个分布式同分布),即两个分布越是同分布。

例:

KS的另外一种应用--判断二分类模型能否将正负样本很好的分开

输出结果: 

KS检验样本测试集和训练集分布问题相关推荐

  1. 机器学习中,对于数据的预处理是否是测试集和训练集一起进行?

    转载自:https://www.zhihu.com/question/312639136 机器学习中,对于数据的预处理是否是测试集和训练集一起进行? 最近在尝试训练和应用模型,遇上一个问题,就是针对数 ...

  2. R语言构建随机森林模型randomForest分类模型并评估模型在测试集和训练集上的效果(accuray、F1、偏差Deviance):随机森林在Bagging算法的基础上加入了列采样(分枝特征随机)

    R语言构建随机森林模型randomForest分类模型并评估模型在测试集和训练集上的效果(accuray.F1.偏差Deviance):随机森林在Bagging算法的基础上加入了列采样(分枝特征随机) ...

  3. R语言基于Bagging算法(融合多个决策树)构建集成学习Bagging分类模型、并评估模型在测试集和训练集上的分类效果(accuray、F1、偏差Deviance):Bagging算法与随机森林对比

    R语言基于Bagging算法(融合多个决策树)构建集成学习Bagging分类模型.并评估模型在测试集和训练集上的分类效果(accuray.F1.偏差Deviance):Bagging算法与随机森林对比 ...

  4. python基于模型对测试集和训练集的预测概率结果文件可视化模型的校准曲线、多个模型的校准曲线(calibration curve)

    python基于模型对测试集和训练集的预测概率结果文件可视化模型的校准曲线.多个模型的校准曲线(calibration curve) 目录

  5. yolov3的训练(五)darknet的VOC测试集和训练集以及训练前准备

    VOC测试集和训练集     ################################## 同学们,这个系列的文件不要直接就跟着我操作了,因为这个是踩坑的记录,不是教程,我只是将整个流程记录下 ...

  6. 测试集和训练集8:2切分

    测试集和训练集8:2切分 最近接到个需求:测试集和训练集8:2切分,翻阅了很多资料封装了一个切分方法. 首先介绍下shuffle()函数 shuffle() 方法将序列的所有元素随机排序. impor ...

  7. 如何划分测试集和训练集

    机器学习划分训练集和测试集的方法 目前遇到如何划分机器学习中训练集和测试集的问题,找了各方面的资料,发现知乎大佬给出了详细解答,故转载如下(文末附参考链接): 机器学习常见步骤 1.对数据集进行划分, ...

  8. matlab pca 测试样本,matlab_PCA,训练集与测试集分开,原理和用法

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 PCA基本流程: 1.训练集矩阵算协方差矩阵A; 2.算协方差矩阵特征值与特征向量; 3.按特征值的大小排列特征矩阵,得B,对应的特征值(按从大到小排列) ...

  9. 【AI-1000问】训练为什么要分测试集和验证集?

    往期视频(前往有三AI公众号观看) 为什么要分训练集和测试集呢? 在很多的书以及一些公开数据集中,都会将数据集分为训练集,验证集和测试集,看起来验证集和测试集并没有区别,为什么要分这两个呢? 作者/编 ...

最新文章

  1. iOS Block总结
  2. SQL中 不等于时存在null的问题
  3. 白大脑比超级计算机还,和超级计算机相比,人类的大脑很弱吗
  4. 操作系统实验4—磁盘调度
  5. 虚拟机linux识别不了u盘_将Arch Linux安装到U盘
  6. SAP保存操作记录CDHDR和CDPOS表
  7. Linux中sudo、su和su -命令的区别
  8. mysql中的钱null_MySQL数据库中null的知识点总结
  9. python将学号与成绩匹配_用Python运维网络(1):基础知识
  10. iPhone 12系列重新上架苹果天猫旗舰店,5499元的iPhone 12今晚开订!
  11. k8s glusterfs mysql_k8s使用glusterfs实现动态持久化存储
  12. 虚拟机连不上网 Xshell连不上虚拟机
  13. susue linux防火墙,在64位的SUSUE下,g++编译的代码中,进入函数前的一段汇编让人费解,请高手解释一下?...
  14. ZooKeeper搭建实验
  15. 中国气候变暖绝对是事实
  16. [!] Gradle threw an error while downloading artifacts from the network. Retrying to download... Runn
  17. vue中使用 svg图片
  18. java取得对象占用的内存大小
  19. 【Java SE】第二话·第一个Java程序
  20. javascript 原生类 DOMParser 把 字符串格式的HTML文档源码 转换成 document DOM对象

热门文章

  1. Mysql 增加表注释
  2. linux打包解压命令
  3. 比较五种搜索Rapidshare的方法
  4. Iperf测试问题处理指南
  5. 从零开始之uboot、移植uboot2017.01(四、uboot的重定位)
  6. java中String.contains方法的使用详解
  7. matlab中将数据保存为txt文件_matlab中将数据输出保存为txt格式文件的方式
  8. 您的第一个工程项目 [原创iOS开发-Xcode教程]
  9. 企业工商四要素核验是对哪些信息进行验证?
  10. 学生评教html模板,关于学校教学计划范文模板