1 Spark机器学习 spark MLlib 入门
开始学习spark ml了,都知道spark是继hadoop后的大数据利器,很多人都在使用spark的分布式并行来处理大数据。spark中也提供了机器学习的包,就是MLlib。
MLlib中也包含了大部分常用的算法,分类、回归、聚类等等,借助于spark的分布式特性,机器学习在spark将能提高很多的速度。MLlib底层采用数值计算库Breeze和基础线性代数库BLAS。
还是从helloworld开始吧。
要用spark的话,最好还是使用scala语言。在idea的plugin里安装scala,然后可以去下载个scala的特定版本,不同的scala版本支持的spark版本是不同的。这个需要在你定下用哪个spark版本后,再去决定下载哪个版本的scala。
我这里就搞了两个scala版本。2.11和2.12能支持的spark版本大不相同。
具体scala和idea怎么配,网上多的是教程。
配好后,我们来新建一个project,然后选择sbt。
在scala这里选择一个scala版本。
然后创建完毕这个sbt项目。注意,你会经历比较漫长的等待,等待sbt的各种jar包下载完毕,然后你的项目才能创建成功。
sbt你可以理解为一种构建方式,和maven、gradle一样,通过sbt能管理你需要依赖的jar。
创建后的项目长这样,build.sbt里面就是配置项目的基本属性的,用过gradle的应该比较熟悉这种写法。因为我们要学习spark-ml,所以就把spark-core的包和mllib的包都添加依赖进来。
上面那种写法就和下面这种maven的写法起到一样的作用。
添加依赖后,又是漫长的等待,等待下载完依赖的jar包,等OK后,我们就可以使用spark-mllib来开发机器学习程序了。
可以找到该jar,看看里面的包结构。是支持Python的,用Python语言的一样能用spark,即pyspark。
可以看到,算法还是比较全的,常用的都有所涉及。
1 Spark机器学习 spark MLlib 入门相关推荐
- 【Spark】实验6 Spark机器学习库MLlib编程实践
Spark机器学习库MLlib编程实践 一.实验目的 通过实验掌握基本的MLLib编程方法: 掌握用MLLib解决一些常见的数据分析问题,包括数据导入.成分分析和分类和预测等. 二.实验平台 新工科智 ...
- 3 Spark机器学习 spark MLlib 矩阵向量、矩阵运算Breeze库-1
机器学习里矩阵是必不可少的,无论Python.Java能做机器学习的语言,都会提供比较优质的矩阵库. spark mllib中提供的矩阵库是Breeze,可以简单看看Breeze库的情况. Scala ...
- 3 Spark机器学习 spark MLlib 矩阵向量、矩阵运算Breeze库-2
上一篇是矩阵的创建.连接等相关操作. 这一篇主要是矩阵的数值计算. 1 基本运算 元素加法 a+b 元素乘法 *:* 元素除法 /:/ 元素比较 <:< 元素相等 :== 元素追加 :+= ...
- 手把手带你玩转Spark机器学习-使用Spark构建回归模型
系列文章目录 手把手带你玩转Spark机器学习-专栏介绍 手把手带你玩转Spark机器学习-问题汇总 手把手带你玩转Spark机器学习-Spark的安装及使用 手把手带你玩转Spark机器学习-使用S ...
- 手把手带你玩转Spark机器学习-使用Spark进行数据处理和数据转换
系列文章目录 手把手带你玩转Spark机器学习-专栏介绍 手把手带你玩转Spark机器学习-问题汇总 手把手带你玩转Spark机器学习-Spark的安装及使用 手把手带你玩转Spark机器学习-使用S ...
- 手把手带你玩转Spark机器学习-使用Spark进行数据降维
系列文章目录 手把手带你玩转Spark机器学习-专栏介绍 手把手带你玩转Spark机器学习-问题汇总 手把手带你玩转Spark机器学习-Spark的安装及使用 手把手带你玩转Spark机器学习-使用S ...
- Spark机器学习MLlib系列1(for python)--数据类型,向量,分布式矩阵,API
Spark机器学习MLlib系列1(for python)--数据类型,向量,分布式矩阵,API 关键词:Local vector,Labeled point,Local matrix,Distrib ...
- Spark机器学习库(MLlib)指南
spark-1.6.1 机器学习库(MLlib)指南 MLlib是Spark的机器学习(ML)库.旨在简化机器学习的工程实践工作,并方便扩展到更大规模.MLlib由一些通用的学习算法和工具组成,包括分 ...
- Spark 机器学习库【MLlib】编程指南
一.机器学习库 MLlib是Spark的机器学习库[ML].其目标是使实用的机器学习算法变得可扩展且容易使用.在较高级别,它提供了以下工具: 机器学习算法:常见的机器学习算法,例如分类,回归,聚类和协 ...
- Spark Streaming 编程新手入门指南
Spark Streaming 是核心Spark API的扩展,可实现实时数据流的可伸缩,高吞吐量,容错流处理.可以从许多数据源(例如Kafka,Flume,Kinesis或TCP sockets)中 ...
最新文章
- 宽度定死、按照行间距、字体算出label高度
- windows server 2008相关安装
- 服务器中文名图片上传后 显示不,更换服务器后无法显示上传得图片
- 转载:闲话权限设计三层境界
- [云计算] 001.云计算简介
- [转]使用.NET实现断点续传
- 关于 Backup Exec 中的介质
- BatchConfigTool批量配置工具
- Linux(二、三、四)简单命令、系统目录结构、文件类型、命令行管理文件学习
- 论文中的参考文献怎么写?
- Vue动态循环背景图片
- ❀❀❀Excel加载项开发及发布❀❀❀
- 红米NoteX和红米NoteXpro的区别
- 【LaTex】第二行作者居中(IEEEtran模板)
- 工具类(Excel)[一]
- 光环国际20周年庆六城联动峰会「北京场」圆满结束!
- 微信小程序开发04 性能优化:借助微信开发者工具提升小程序性能
- 自动化工具Pyautogui和Pywinauto详细介绍和使用
- 基于python的鲜花商城
- 【考研】915自控攻略
热门文章
- 插头DP/轮廓线DP
- Using Beyond Compare with Version Control Systems(ZZ)
- 社会工程学攻击选项是_什么是社会工程学,如何避免?
- html在线围棋对战,闲情奕趣(基于html5的围棋应用)
- C语言求解鸡兔同笼问题
- 测屏幕坏点 android,手机屏幕坏点检测方法有哪些【详细介绍】
- 常用数学符号大学(包含罗马字符)
- matlab meshlab,MeshLab(网格模型处理软件)下载-MeshLab官方版下载[电脑版]-PC下载网
- 阿里巴巴矢量图标库使用
- TPLink路由器登陆密码怎么破解