spark mlib入门
MLlib
是 Spark
的机器学习 (ML) 库。其目标是使实用的机器学习变得可扩展且简单。在高级别上,它提供了各种工具::
ML 算法:常见的学习算法,如分类、回归、聚类和协作筛选
实现:特征提取、变换、尺寸减小和选择
管道:用于构建、评估和调整 ML 管道的工具
持久性:保存和加载算法、模型和管道
实用工具:线性代数、统计、数据处理等。
相关
计算两个数据系列之间的相关性
是统计学中的常见操作。
import org.apache.spark.ml.linalg.{Matrix, Vectors}
import org.apache.spark.ml.stat.Correlation
import org.apache.spark.sql.{DataFrame, Row, SparkSession}object MLTest {def main(args: Array[String]): Unit = {val spark: SparkSession = SparkSession.builder().master("local").getOrCreate()import spark.implicits._val data = Seq(//使用无序(索引,值)对创建稀疏向量。Vectors.sparse(4, Seq((0, 1.0), (3, -2.0))),//根据其值创建密集向量。Vectors.dense(4.0, 5.0, 0.0, 3.0),Vectors.dense(6.0, 7.0, 0.0, 8.0),Vectors.sparse(4, Seq((0, 9.0), (3, 1.0))))val df = data.map(Tuple1.apply).toDF("features")//计算向量输入数据集的皮尔逊相关矩阵。//Returns the first row.val Row(coeff1: Matrix) = Correlation.corr(df, "features").headprintln(s"Pearson correlation matrix:\n $coeff1")val Row(coeff2: Matrix) = Correlation.corr(df, "features", "spearman").headprintln(s"Spearman correlation matrix:\n $coeff2")}
}
Spearman correlation matrix:1.0 0.10540925533894532 NaN 0.40000000000000174
0.10540925533894532 1.0 NaN 0.9486832980505141
NaN NaN 1.0 NaN
0.40000000000000174 0.9486832980505141 NaN 1.0
参考
Basic Statistics - Spark 3.0.1 Documentation
spark mlib入门相关推荐
- [Spark]PySpark入门学习教程---介绍(1)
一 安装指引 (91条消息) [Hadoop] mac搭建hadoop3.X 伪分布模式_小墨鱼的专栏-CSDN博客https://zengwenqi.blog.csdn.net/article/de ...
- spark streaming 入门例子
spark streaming 入门例子: spark shell import org.apache.spark._ import org.apache.spark.streaming._sc.ge ...
- Spark快速入门指南 – Spark安装与基础使用
本文转载自Spark快速入门指南 – Spark安装与基础使用 Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象.Spark 正如其名,最大的特点就是快(Lightni ...
- fpgrowth算法实战 mlib_【spark】41.Spark Mlib:FPGrowth算法
简介 FP-Growth算法是韩嘉炜等人在2000年提出的关联分析算法,它采取如下分治策略:将提供频繁项集的数据库压缩到一棵频繁模式树(FP-tree),但仍保留项集关联信息. 在算法中使用了一种称为 ...
- Spark Mlib TFIDF源码详读 笔记
2019独角兽企业重金招聘Python工程师标准>>> 在提取文本特征时,经常用到TF-IDF算法.Spark Mlib实现了该算法.下面是Spark Mlib中,TF_IDF算法调 ...
- Spark MLib 数据类型
Spark MLib 数据类型 1. MLlib Apache Spark's scalable machine learning library, with APIs in Java, Scala ...
- 利用Spark MLIB实现电影推荐
利用Spark MLIB实现电影推荐 源码及数据集:https://github.com/luo948521848/BigData Spark 机器学习库MLLib MLlib是Spark的机器学习( ...
- Spark SQL入门:创建SparkSession时import spark.implicits._ 报错: error: value implicits is not a member of...
Spark SQL入门:创建SparkSession时import spark.implicits._ 报错: error: value implicits is not a member of... ...
- spark SQL入门指南《读书笔记》
文章目录 spark SQL入门指南 第一章 初识 spark mysql 1.1 Spark的诞生 和SparkSQL是什么? 1.2 Spark SQL能做什么? 第2章 Spark安装.编程环境 ...
最新文章
- 【Python】/ 和 // 的区别
- 更便捷:阿里云DCDN离线日志转存全新升级
- 部署在SAP ABAP服务器上的SAP UI5应用的JavaScript文件,是如何被SAP UI5 repository handler处理的
- php有哪些开源社区,PHP开源社区
- linux如何查看jupyter日志_在Linux服务器上运行Jupyter notebook server教程
- 【转】单例模式(Singleton)
- c语言dp算法,C++动态规划dp算法题
- 【Vue】—解决页面图片加载抖动的问题
- 第三篇:C++ 中的几种初始化
- php数组排除某个键_PHP根据key删除数组中指定的元素
- TransE代码实践(很详细)
- android httpclient post 参数,Android HttpClient GET或者POST请求基本使用方法
- 使用pyquery爬取搜狗微信文章
- 关于购买域名的一些建议
- 学生用计算机数字键坏了,电脑键盘数字键失灵如何恢复
- 【渝粤教育】广东开放大学 经济法基础 形成性考核 (38)
- 萝卜内存对比工具使用说明
- 互联网协议 — DNS 域名系统
- java开发报错怎么处理_Java开发中常见报错及解决办法
- Android开发--实现Android引导页
热门文章
- Vue提示warn:”[vue-router] Named Route ‘home’ has a default child route…”
- ubuntu linux 系统搭建我的世界基岩版 私服我的世界服务器
- python 极速后台开发框架_基于FastAdmin快速搭建后台管理系统
- 万年历用c语言写,用C语言如何编写“万年历”
- layer 子页面提交 刷新父页面 table
- python职业发展规划书范文_职业生涯规划书范文 3篇
- Java实现穷举_LeetCode 28:实现strStr() Implement strStr()
- 服务器中W3SVC1文件夹的文件,完美解决IIS 服务器无法加载应用程序 '/LM/W3SVC/1/ROOT'。错误是 '没有注册类别...
- 怎样用java生成GUID与UUID
- spring boot 教程(一) 构建我的第一个Spring boot