【推荐】样本/数据一致性检验的方法

写在前面：

一致性检验的目的在于比较不同方法得到的结果是否具有一致性。

比如采集的样本和真实样本是否一致，比如两种抽样方法得到的两个样本集是否一致，比如两种不同超参数设置下的聚类方法得到的聚类结果是否一致，等等

检验一致性，你用哪种方法？ - 知乎

检验一致性的方法有很多比如：Kappa检验、ICC组内相关系数、Kendall W协调系数等。每种方法的功能侧重，数据要求都略有不同：

Kappa系数检验，适用于两次数据（方法）之间比较一致性，比如两位医生的诊断是否一致，两位裁判的评分标准是否一致等。

ICC组内相关系数检验，用于分析多次数据的一致性情况，功能上与Kappa系数基本一致。ICC分析定量或定类数据均可；但是Kappa一致性系数通常要求数据是定类数据。

Kendall W协调系数，是分析多个数据之间关联性的方法，适用于定量数据，尤其是定序等级数据。

（1）Kappa检验

Kappa检验分为简单Kappa检验和加权Kappa检验，两者的区别主要在于：

如果研究数据是绝对的定类数据（比如阴性、阳性），此时使用简单Kappa系数；
如果数据为等级式定类数据（比如轻度，中度，重度；也或者不同意，中立，同意）；此时可使用加权（线性）Kappa系数。

应用举例

两个医生分别对于50个病例进行MRI检查（MRI检查诊断共分三个等级，分别是轻度，中度和重度），对比两名医生检查结果诊断的一致性水平。

（1表示轻度，2表示中度，3表示重度）

根据上表可知，两位医生对于MRI检查诊断结论具有较强的一致性（Kappa值=0.74）。

（2）ICC组内相关系数

ICC组内相关系数可用于研究评价一致性，评价信度，测量复测信度（重测信度）等。相对于Kappa系数，ICC组内相关系数的适用范围更广，适用于定量或者定类数据，而且可针对双样本或者多样本进行分析一致性。但ICC的分析相对较为复杂，通常需要从三个方面进行分析并且选择最优的ICC模型；分别是模型选择，计算类型和度量标准。

ICC六类细分

模型选择上，需要考虑是否将当前结论延伸推广到其它研究中，也或者考虑是否为研究数据的绝对相等程度。
计算类型上，如果不需要考虑系统误差则使用“一致性”，如果需要考虑系统误差则使用“绝对一致性”。
度量标准上，如果是原始数据则使用“单一度量”，如果是计算后的数据，则使用“平均度量”。

案例举例

3个医生对于10个术后病人进行术后恢复评分；现在希望通过分析研究3个医生的打分一致性水平情况，使用ICC组内相关系数进行研究。录入后的ICC数据格式如下：

本次使用的是原始数据非计算后数据，因而使用单一度量标准结果即ICC(C,1)，ICC组内相关系数=0.921，说明3位医生的评价具有高度一致性，也说明此次3名医生给出的打分有着非常高的可信性。

（3）Kendall协调系数

Kendall协调系数，也称作Kendall和谐系数，或Kendall一致性系数。通常用于比较多组数据的一致性程度。

案例举例

4个评委对于10个选手进行评分，最低为1分，最高为10分；现在希望通过分析研究4个评委的打分一致性情况。

从上表可以看出：协调系数为0.853（P<0.01），大于0.8，说明4个评委的评分结果具有很强的一致性。

其他说明

1、ICC的适用场景最多，包括定量或定类数据，同时可针对多相关样本进行一致性分析；而Kappa一致性系数主要针对2个相关数据且针对定类数据进行一致性分析；Kendall W协调系数适用于定量数据，且更多倾重于数据关联性研究。

2、分析前要注意数据的格式，每种方法录入的数据格式都不大一样，一定要整理成正确的数据格式再分析。

【推荐】样本/数据一致性检验的方法相关推荐

【数据挖掘】数据样本的归一化处理方法
1.为什么要进行数据样本归一化? 当我们对数据集进行处理和分析时,不同数据的比较需要进行包括量纲.量纲单位在内的各项内容进行数据统一标准化处理,以建立各类数据的可比性.量纲:物理量的基本属性. 2.数 ...
不会做特征工程的 AI 研究员不是好数据科学家！上篇 - 连续数据的处理方法本文作者：s5248 编辑：杨晓凡 2018-01-19 11:32 导语：即便现代机器学习模型已经很先进了，也别
不会做特征工程的 AI 研究员不是好数据科学家!上篇 - 连续数据的处理方法雷锋网(公众号:雷锋网) AI 科技评论按:眨眼间我们就从人工特征.专家系统来到了自动特征.深度学习的人工智能新时代,众多 ...
【工大SCIR笔记】自然语言处理领域的数据增广方法
点击上方,选择星标或置顶,每天给你送干货! 作者:李博涵来自:哈工大SCIR 1.摘要本文介绍自然语言处理领域的数据增广方法.数据增广(Data Augmentation,也有人将Data Aug ...
高维数据惩罚回归方法：主成分回归PCR、岭回归、lasso、弹性网络elastic net分析基因数据...
原文链接:http://tecdat.cn/?p=23378 1 介绍在本文中,我们将研究以下主题证明为什么低维预测模型在高维中会失败. 进行主成分回归(PCR). 使用glmnet()进行岭回归 ...
推荐：数据可视化专家的七个秘密
数据可视化的道路上充满了不可见的陷阱和迷宫,最近ClearStory Data的两位数据可视化开发人员分享了他们总结出来的数据可视化开发的7个不宣之秘,普通开发者了解这些方法能提升视野,少走弯路. 数 ...
【2017年第2期】大数据的价值发现方法
杜小勇1,陈跃国2 1. 数据工程与知识工程教育部重点实验室(中国人民大学),北京 100872:2. 中国人民大学信息学院,北京 100872 摘要:大数据的价值有不同的体现形式和发现价值的途径.总 ...
数据分析学习总结笔记03：数据降维经典方法
数据分析学习总结笔记03:数据降维经典方法 1. 数据降维概述 2. 数据降维的应用 3. 数据降维经典方法 3.1 主成分分析(PCA) 3.1.1 PCA概述 3.1.2 PCA原理 3.1.3 ...
工具推荐-Colab介绍与使用方法
工具推荐-Colab介绍与使用方法之所以能够接触到Colab,是由一位好朋友的推荐,首先得先感谢他安利了这么好的一个东西,哈哈哈!我先浅聊一下我目前对这个Colab的理解吧,我认为它就相当于一台云主 ...
curl代理ippost php_php使用curl通过代理获取数据的实现方法
本文实例讲述了php使用curl通过代理获取数据的实现方法.分享给大家供大家参考,具体如下: $curl=curl_init(); curl_setopt($curl, CURLOPT_URL, &q ...
机器学习数据倾斜的解决方法_机器学习并不总是解决数据问题的方法
机器学习数据倾斜的解决方法总览 (Overview) I was given a large dataset of files, what some would like to call big d ...

【推荐】样本/数据一致性检验的方法

其他说明

【推荐】样本/数据一致性检验的方法相关推荐

最新文章

热门文章