java 假设检验_Spark机器学习-Java版（二）-相关系数和假设检验

1、相关系数和假设校验概述

相关系数和假设检验是数理统计中的基本概念和统计工具,对于机器学习模型的设定和优化策略有很大帮助。

1.1 相关系数

相关系数是反映两变量间线性相关性关系的統计指标,是一种反映变量之间相关关系密切程度的统计指标,在现实中一般用于对于两组数据的拟合和相似程度进行定量化分析,第用的般是皮尔逊相关系数( pearson),MLlib中默认的相关系数求法也是皮尔逊相关系数法,另还支持斯皮尔曼等级相关系数( spearman)。皮尔逊相关系的值是一个1≤ρxy≤1的数,用以判定两个变量变化是同向还是反向,以便观察这两个变量是呈现正相关还是负相关,甚至为0时的”相互独立”,其数学公式为：

即两变量的协方差除以其标准差,极大程度上规避了单用协方差无法体现相关性的劣势。

斯皮尔曼等级相关系数的公式如下:

该相关系数没有皮尔逊那么严格。

皮尔逊相关系数代表随着数据量的増加,两组数据的差别将増大,而斯皮尔曼相关系数更注重两组数据的拟合程度,即两组数据随着数据量的増加而増长曲线不变。

1.2 假设校验

假设检验是一种依据一定假设条件计算样本某种并判断是否符合总体规律,或判断两个样本之间是否存在独立性的统计学理论。假设检验的基本思想是小概率反证法思想,小概率思想认为小概率事件在一次实验中基本不可能发生,因此在假设检验中,我们通常先假定一个假设Ho,然后选择它的相反项为螽择假设H1,通常以α=005作为小概率事件的界定线,称之为显著性水平,通过我们的样本数据计算出一个概率值p,如果p≤0.05,那么认为H0是会发生的,也就是说H0的发生是小概率事件，也就是认为当p ≤ 0.05时,否定原假设H0

常用的假设检验法有T检验,z检验,卡方检验和F检验。

卡方检验的一种常用的假设检验方法, Spark MLlib目前支持皮尔逊卡方检测,包括“适配度检定”( Goodness of fit)和“独立性检定"( independence)。其中适配度检定是指样本的发生次数(实际值)分配是否服从母体的次数分配(期望)，独立性检定偏向于两类变量之间的关系是否居于相关性。

适配度检定举例：全世界上千万人统计人类出生时男孩和女孩的几率是一样的，某医院对2018年100名新生婴儿的性别做了统计，男孩56个，女孩44个，以此判定这个样本是否符合母体的分配规律。

独立性检定举例:性别和习惯用左右手是否有关。

2、调用方式

2.1 相关系数

依据我们输入的类型不同,则其对应的输出类型也不同,如果我们输入的是两个 JavaRDD,则输出的是 double的值,这个值便是相关性系数;如果我们输入的是 RDD(需通过 JavaRDD.rdd()进行转换),则输出的结果是一个相关系数矩阵。相关系数矩阵是计算各列相关系数而生成的一个矩阵,相关系数矩阵第第列生成的值就是原数据中第列和第列生成的相关系数。API是 Statistics(org. apache. spark. mllib. stat. Statistics)的corr()方法。

生成pearson相关系数：

//输入的seriesX,seriesY是两组JavaRDD类型的数据，代表两个不同的变量

//输出的类型是double

Statistics.corr(seriesX, seriesY,”pearson”);

生成spearman相关系数：

//输入的seriesX,seriesY是两组JavaRDD类型的数据，代表两个不同的变量

//输出的类型是double

Statistics.corr(seriesX, seriesY,”spearman”);

生成pearson相关系数矩阵和spearman相关系数矩阵:

//输入的类型为RDDStatistics.corr(data,”pearson”);

Statistics.corr(data,” spearman”);

2.2 假设检验

做适配度检定和独立性检定时,需要输入的参数关型不同,适配度检定要求输入的是 Vector.独立性检定要求输入的是Matrix。调用的API是 Statistics.chiSqTest();

配度检定:这里依旧引用上例,新生婴儿的性别是否符合母体规律,(样本为2018年100名新生妥儿的性别做了统计,男孩56个,女孩44个)

Vector v = Vectors.dense(new double[]{56,44});

ChiSqTestResult result = Statistics.chiSqTest(v);

独立性检定

原始数据表达:

男

女

小计

右手

左手

小计

100

//这里要注意矩阵是按列优先填充的,故数据要以列的形式写入

Matrix matrix = Matrixs.dense(2,2,new double[]{43.0,9.0,44.0,4.0});

Statistics.chiSqTest(matrix);

3、 Spark中的实践应用

3.1 相关系数的应用

原始文件内容:(文件名为: correlations txt,存放在 src/main/resources),第一列是凝血酶浓度(单位升),第二列是凝血时间(秒),下面探究这两者之间的相性如何？

1.1 14

1.2 13

1.0 15

0.9 15

1.2 13

1.1 14

0.9 16

0.9 15

1.0 14

0.9 16

1.1 15

0.9 16

1.0 15

1.1 14

0.8 17

java 假设检验_Spark机器学习-Java版（二）-相关系数和假设检验相关推荐

c++向量和数组的区别_Spark机器学习-Java版（一）-向量和矩阵
1.概述 Spark早期版本时,MLlib是基于RDD来进行分析的,其使用的是 spark. mllib包.而言2.0版本后,由RDD这种抽象数据结构转换到了基于 dataframe上,其相关API也 ...
hive创建java函数_spark通过java的api创建hive的UDF用户自定义函数
public class UDF { public static void main(String[] args) { SparkConf conf = new SparkConf().setMast ...
java智能算法--机器学习包
参考:https://www.cnblogs.com/jpfss/p/9262907.html 一.科学计算或矩阵运算库科学计算包: JMathLib是一个用于计算复杂数学表达式并能够图形化显示计算 ...
《深入理解Java虚拟机》（第二版）学习3：垃圾收集器
垃圾收集器如果说收集算法是内存回收的方法论,那么垃圾收集器就是内存回收的具体实现. 我们这里讨论的收集器主要是基于JDK 1.7 Update 14之后的 Hotspot VM . Serial 收 ...
Java FAQ(slhynju 0.3版)
****** 版权声明 ******** * 在完整保留此版权声明并接受下列条款的前提下,你可以自由的获取.存储.使用.修改.分发本文. * 由于你可能自第三方获得本文,作者不保证本文的正确性和一致 ...
全新出击！《Java开发手册（嵩山版）》解读手册升级下载
简介:<〈Java开发手册(嵩山版)〉灵魂15问>重磅来袭!"一线大厂如何用Java"解读再升级,千万阅读量博主深究Java规约背后的原理.规范学好Java还不来看一看 ...
Java校招笔试题-Java基础部分(二)
导语 Java面试题集2021版 Java基础部分二 14.hashCode方法的作用? 15.写clone()方法时,通常都有一行代码,这行代码是什么? 16.静态变量和实例变量的区别? 17. ...
java数列的个位数求和_java二位数组相加
java入门暑假第一天 java所有的功能都是通过类来实现的 java源程序被解释为字节码来执行 java程序首先要编写一个类 windows平台的换行包括2个字节回车换行 UNIX ...
Java面试题大全(Android版)
疯狂Java面试题大全(Android版) Java核心技术部分 Java核心技术部分的面试题,可能覆盖Java基本语法.面向对象(包括类定义.方法.构造器.递归.继承.抽象类.接口.枚举以及fina ...

java 假设检验_Spark机器学习-Java版（二）-相关系数和假设检验

java 假设检验_Spark机器学习-Java版（二）-相关系数和假设检验相关推荐

最新文章

热门文章