MLlibSpark 的机器学习 (ML) 库。其目标是使实用的机器学习变得可扩展且简单。在高级别上,它提供了各种工具::

ML 算法:常见的学习算法,如分类、回归、聚类和协作筛选
实现:特征提取、变换、尺寸减小和选择
管道:用于构建、评估和调整 ML 管道的工具
持久性:保存和加载算法、模型和管道
实用工具:线性代数、统计、数据处理等。

相关

计算两个数据系列之间的相关性是统计学中的常见操作。

import org.apache.spark.ml.linalg.{Matrix, Vectors}
import org.apache.spark.ml.stat.Correlation
import org.apache.spark.sql.{DataFrame, Row, SparkSession}object MLTest {def main(args: Array[String]): Unit = {val spark: SparkSession = SparkSession.builder().master("local").getOrCreate()import spark.implicits._val data = Seq(//使用无序(索引,值)对创建稀疏向量。Vectors.sparse(4, Seq((0, 1.0), (3, -2.0))),//根据其值创建密集向量。Vectors.dense(4.0, 5.0, 0.0, 3.0),Vectors.dense(6.0, 7.0, 0.0, 8.0),Vectors.sparse(4, Seq((0, 9.0), (3, 1.0))))val df = data.map(Tuple1.apply).toDF("features")//计算向量输入数据集的皮尔逊相关矩阵。//Returns the first row.val Row(coeff1: Matrix) = Correlation.corr(df, "features").headprintln(s"Pearson correlation matrix:\n $coeff1")val Row(coeff2: Matrix) = Correlation.corr(df, "features", "spearman").headprintln(s"Spearman correlation matrix:\n $coeff2")}
}
Spearman correlation matrix:1.0                  0.10540925533894532  NaN  0.40000000000000174
0.10540925533894532  1.0                  NaN  0.9486832980505141
NaN                  NaN                  1.0  NaN
0.40000000000000174  0.9486832980505141   NaN  1.0

参考

Basic Statistics - Spark 3.0.1 Documentation

spark mlib入门相关推荐

  1. [Spark]PySpark入门学习教程---介绍(1)

    一 安装指引 (91条消息) [Hadoop] mac搭建hadoop3.X 伪分布模式_小墨鱼的专栏-CSDN博客https://zengwenqi.blog.csdn.net/article/de ...

  2. spark streaming 入门例子

    spark streaming 入门例子: spark shell import org.apache.spark._ import org.apache.spark.streaming._sc.ge ...

  3. Spark快速入门指南 – Spark安装与基础使用

    本文转载自Spark快速入门指南 – Spark安装与基础使用 Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象.Spark 正如其名,最大的特点就是快(Lightni ...

  4. fpgrowth算法实战 mlib_【spark】41.Spark Mlib:FPGrowth算法

    简介 FP-Growth算法是韩嘉炜等人在2000年提出的关联分析算法,它采取如下分治策略:将提供频繁项集的数据库压缩到一棵频繁模式树(FP-tree),但仍保留项集关联信息. 在算法中使用了一种称为 ...

  5. Spark Mlib TFIDF源码详读 笔记

    2019独角兽企业重金招聘Python工程师标准>>> 在提取文本特征时,经常用到TF-IDF算法.Spark Mlib实现了该算法.下面是Spark Mlib中,TF_IDF算法调 ...

  6. Spark MLib 数据类型

    Spark MLib 数据类型 1.  MLlib Apache Spark's scalable machine learning library, with APIs in Java, Scala ...

  7. 利用Spark MLIB实现电影推荐

    利用Spark MLIB实现电影推荐 源码及数据集:https://github.com/luo948521848/BigData Spark 机器学习库MLLib MLlib是Spark的机器学习( ...

  8. Spark SQL入门:创建SparkSession时import spark.implicits._ 报错: error: value implicits is not a member of...

    Spark SQL入门:创建SparkSession时import spark.implicits._ 报错: error: value implicits is not a member of... ...

  9. spark SQL入门指南《读书笔记》

    文章目录 spark SQL入门指南 第一章 初识 spark mysql 1.1 Spark的诞生 和SparkSQL是什么? 1.2 Spark SQL能做什么? 第2章 Spark安装.编程环境 ...

最新文章

  1. 【Python】/ 和 // 的区别
  2. 更便捷:阿里云DCDN离线日志转存全新升级
  3. 部署在SAP ABAP服务器上的SAP UI5应用的JavaScript文件,是如何被SAP UI5 repository handler处理的
  4. php有哪些开源社区,PHP开源社区
  5. linux如何查看jupyter日志_在Linux服务器上运行Jupyter notebook server教程
  6. 【转】单例模式(Singleton)
  7. c语言dp算法,C++动态规划dp算法题
  8. 【Vue】—解决页面图片加载抖动的问题
  9. 第三篇:C++ 中的几种初始化
  10. php数组排除某个键_PHP根据key删除数组中指定的元素
  11. TransE代码实践(很详细)
  12. android httpclient post 参数,Android HttpClient GET或者POST请求基本使用方法
  13. 使用pyquery爬取搜狗微信文章
  14. 关于购买域名的一些建议
  15. 学生用计算机数字键坏了,电脑键盘数字键失灵如何恢复
  16. 【渝粤教育】广东开放大学 经济法基础 形成性考核 (38)
  17. 萝卜内存对比工具使用说明
  18. 互联网协议 — DNS 域名系统
  19. java开发报错怎么处理_Java开发中常见报错及解决办法
  20. Android开发--实现Android引导页

热门文章

  1. Vue提示warn:”[vue-router] Named Route ‘home’ has a default child route…”
  2. ubuntu linux 系统搭建我的世界基岩版 私服我的世界服务器
  3. python 极速后台开发框架_基于FastAdmin快速搭建后台管理系统
  4. 万年历用c语言写,用C语言如何编写“万年历”
  5. layer 子页面提交 刷新父页面 table
  6. python职业发展规划书范文_职业生涯规划书范文 3篇
  7. Java实现穷举_LeetCode 28:实现strStr() Implement strStr()
  8. 服务器中W3SVC1文件夹的文件,完美解决IIS 服务器无法加载应用程序 '/LM/W3SVC/1/ROOT'。错误是 '没有注册类别...
  9. 怎样用java生成GUID与UUID
  10. spring boot 教程(一) 构建我的第一个Spring boot