spark mlib入门

MLlib 是 Spark 的机器学习（ML）库。其目标是使实用的机器学习变得可扩展且简单。在高级别上，它提供了各种工具：：

ML 算法：常见的学习算法，如分类、回归、聚类和协作筛选
实现：特征提取、变换、尺寸减小和选择
管道：用于构建、评估和调整 ML 管道的工具
持久性：保存和加载算法、模型和管道
实用工具：线性代数、统计、数据处理等。

相关

计算两个数据系列之间的相关性是统计学中的常见操作。

import org.apache.spark.ml.linalg.{Matrix, Vectors}
import org.apache.spark.ml.stat.Correlation
import org.apache.spark.sql.{DataFrame, Row, SparkSession}object MLTest {def main(args: Array[String]): Unit = {val spark: SparkSession = SparkSession.builder().master("local").getOrCreate()import spark.implicits._val data = Seq(//使用无序（索引，值）对创建稀疏向量。Vectors.sparse(4, Seq((0, 1.0), (3, -2.0))),//根据其值创建密集向量。Vectors.dense(4.0, 5.0, 0.0, 3.0),Vectors.dense(6.0, 7.0, 0.0, 8.0),Vectors.sparse(4, Seq((0, 9.0), (3, 1.0))))val df = data.map(Tuple1.apply).toDF("features")//计算向量输入数据集的皮尔逊相关矩阵。//Returns the first row.val Row(coeff1: Matrix) = Correlation.corr(df, "features").headprintln(s"Pearson correlation matrix:\n $coeff1")val Row(coeff2: Matrix) = Correlation.corr(df, "features", "spearman").headprintln(s"Spearman correlation matrix:\n $coeff2")}
}

Spearman correlation matrix:1.0                  0.10540925533894532  NaN  0.40000000000000174
0.10540925533894532  1.0                  NaN  0.9486832980505141
NaN                  NaN                  1.0  NaN
0.40000000000000174  0.9486832980505141   NaN  1.0

参考

Basic Statistics - Spark 3.0.1 Documentation

spark mlib入门相关推荐

[Spark]PySpark入门学习教程---介绍(1)
一安装指引 (91条消息) [Hadoop] mac搭建hadoop3.X 伪分布模式_小墨鱼的专栏-CSDN博客https://zengwenqi.blog.csdn.net/article/de ...
spark streaming 入门例子
spark streaming 入门例子: spark shell import org.apache.spark._ import org.apache.spark.streaming._sc.ge ...
Spark快速入门指南 – Spark安装与基础使用
本文转载自Spark快速入门指南 – Spark安装与基础使用 Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象.Spark 正如其名,最大的特点就是快(Lightni ...
fpgrowth算法实战 mlib_【spark】41.Spark Mlib：FPGrowth算法
简介 FP-Growth算法是韩嘉炜等人在2000年提出的关联分析算法,它采取如下分治策略:将提供频繁项集的数据库压缩到一棵频繁模式树(FP-tree),但仍保留项集关联信息. 在算法中使用了一种称为 ...
Spark Mlib TFIDF源码详读笔记
2019独角兽企业重金招聘Python工程师标准>>> 在提取文本特征时,经常用到TF-IDF算法.Spark Mlib实现了该算法.下面是Spark Mlib中,TF_IDF算法调 ...
Spark MLib 数据类型
Spark MLib 数据类型 1. MLlib Apache Spark's scalable machine learning library, with APIs in Java, Scala ...
利用Spark MLIB实现电影推荐
利用Spark MLIB实现电影推荐源码及数据集:https://github.com/luo948521848/BigData Spark 机器学习库MLLib MLlib是Spark的机器学习( ...
Spark SQL入门：创建SparkSession时import spark.implicits._ 报错： error: value implicits is not a member of...
Spark SQL入门:创建SparkSession时import spark.implicits._ 报错: error: value implicits is not a member of... ...
spark SQL入门指南《读书笔记》
文章目录 spark SQL入门指南第一章初识 spark mysql 1.1 Spark的诞生和SparkSQL是什么? 1.2 Spark SQL能做什么? 第2章 Spark安装.编程环境 ...

spark mlib入门

相关

参考

spark mlib入门相关推荐

最新文章

热门文章