开始学习spark ml了,都知道spark是继hadoop后的大数据利器,很多人都在使用spark的分布式并行来处理大数据。spark中也提供了机器学习的包,就是MLlib。

MLlib中也包含了大部分常用的算法,分类、回归、聚类等等,借助于spark的分布式特性,机器学习在spark将能提高很多的速度。MLlib底层采用数值计算库Breeze和基础线性代数库BLAS。

还是从helloworld开始吧。

要用spark的话,最好还是使用scala语言。在idea的plugin里安装scala,然后可以去下载个scala的特定版本,不同的scala版本支持的spark版本是不同的。这个需要在你定下用哪个spark版本后,再去决定下载哪个版本的scala。

我这里就搞了两个scala版本。2.11和2.12能支持的spark版本大不相同。

具体scala和idea怎么配,网上多的是教程。

配好后,我们来新建一个project,然后选择sbt。

在scala这里选择一个scala版本。

然后创建完毕这个sbt项目。注意,你会经历比较漫长的等待,等待sbt的各种jar包下载完毕,然后你的项目才能创建成功。

sbt你可以理解为一种构建方式,和maven、gradle一样,通过sbt能管理你需要依赖的jar。

创建后的项目长这样,build.sbt里面就是配置项目的基本属性的,用过gradle的应该比较熟悉这种写法。因为我们要学习spark-ml,所以就把spark-core的包和mllib的包都添加依赖进来。

上面那种写法就和下面这种maven的写法起到一样的作用。

添加依赖后,又是漫长的等待,等待下载完依赖的jar包,等OK后,我们就可以使用spark-mllib来开发机器学习程序了。

可以找到该jar,看看里面的包结构。是支持Python的,用Python语言的一样能用spark,即pyspark。

可以看到,算法还是比较全的,常用的都有所涉及。

1 Spark机器学习 spark MLlib 入门相关推荐

  1. 【Spark】实验6 Spark机器学习库MLlib编程实践

    Spark机器学习库MLlib编程实践 一.实验目的 通过实验掌握基本的MLLib编程方法: 掌握用MLLib解决一些常见的数据分析问题,包括数据导入.成分分析和分类和预测等. 二.实验平台 新工科智 ...

  2. 3 Spark机器学习 spark MLlib 矩阵向量、矩阵运算Breeze库-1

    机器学习里矩阵是必不可少的,无论Python.Java能做机器学习的语言,都会提供比较优质的矩阵库. spark mllib中提供的矩阵库是Breeze,可以简单看看Breeze库的情况. Scala ...

  3. 3 Spark机器学习 spark MLlib 矩阵向量、矩阵运算Breeze库-2

    上一篇是矩阵的创建.连接等相关操作. 这一篇主要是矩阵的数值计算. 1 基本运算 元素加法 a+b 元素乘法 *:* 元素除法 /:/ 元素比较 <:< 元素相等 :== 元素追加 :+= ...

  4. 手把手带你玩转Spark机器学习-使用Spark构建回归模型

    系列文章目录 手把手带你玩转Spark机器学习-专栏介绍 手把手带你玩转Spark机器学习-问题汇总 手把手带你玩转Spark机器学习-Spark的安装及使用 手把手带你玩转Spark机器学习-使用S ...

  5. 手把手带你玩转Spark机器学习-使用Spark进行数据处理和数据转换

    系列文章目录 手把手带你玩转Spark机器学习-专栏介绍 手把手带你玩转Spark机器学习-问题汇总 手把手带你玩转Spark机器学习-Spark的安装及使用 手把手带你玩转Spark机器学习-使用S ...

  6. 手把手带你玩转Spark机器学习-使用Spark进行数据降维

    系列文章目录 手把手带你玩转Spark机器学习-专栏介绍 手把手带你玩转Spark机器学习-问题汇总 手把手带你玩转Spark机器学习-Spark的安装及使用 手把手带你玩转Spark机器学习-使用S ...

  7. Spark机器学习MLlib系列1(for python)--数据类型,向量,分布式矩阵,API

    Spark机器学习MLlib系列1(for python)--数据类型,向量,分布式矩阵,API 关键词:Local vector,Labeled point,Local matrix,Distrib ...

  8. Spark机器学习库(MLlib)指南

    spark-1.6.1 机器学习库(MLlib)指南 MLlib是Spark的机器学习(ML)库.旨在简化机器学习的工程实践工作,并方便扩展到更大规模.MLlib由一些通用的学习算法和工具组成,包括分 ...

  9. Spark 机器学习库【MLlib】编程指南

    一.机器学习库 MLlib是Spark的机器学习库[ML].其目标是使实用的机器学习算法变得可扩展且容易使用.在较高级别,它提供了以下工具: 机器学习算法:常见的机器学习算法,例如分类,回归,聚类和协 ...

  10. Spark Streaming 编程新手入门指南

    Spark Streaming 是核心Spark API的扩展,可实现实时数据流的可伸缩,高吞吐量,容错流处理.可以从许多数据源(例如Kafka,Flume,Kinesis或TCP sockets)中 ...

最新文章

  1. 宽度定死、按照行间距、字体算出label高度
  2. windows server 2008相关安装
  3. 服务器中文名图片上传后 显示不,更换服务器后无法显示上传得图片
  4. 转载:闲话权限设计三层境界
  5. [云计算] 001.云计算简介
  6. [转]使用.NET实现断点续传
  7. 关于 Backup Exec 中的介质
  8. BatchConfigTool批量配置工具
  9. Linux(二、三、四)简单命令、系统目录结构、文件类型、命令行管理文件学习
  10. 论文中的参考文献怎么写?
  11. Vue动态循环背景图片
  12. ❀❀❀Excel加载项开发及发布❀❀❀
  13. 红米NoteX和红米NoteXpro的区别
  14. 【LaTex】第二行作者居中(IEEEtran模板)
  15. 工具类(Excel)[一]
  16. 光环国际20周年庆六城联动峰会「北京场」圆满结束!
  17. 微信小程序开发04 性能优化:借助微信开发者工具提升小程序性能
  18. 自动化工具Pyautogui和Pywinauto详细介绍和使用
  19. 基于python的鲜花商城
  20. 【考研】915自控攻略

热门文章

  1. 插头DP/轮廓线DP
  2. Using Beyond Compare with Version Control Systems(ZZ)
  3. 社会工程学攻击选项是_什么是社会工程学,如何避免?
  4. html在线围棋对战,闲情奕趣(基于html5的围棋应用)
  5. C语言求解鸡兔同笼问题
  6. 测屏幕坏点 android,手机屏幕坏点检测方法有哪些【详细介绍】
  7. 常用数学符号大学(包含罗马字符)
  8. matlab meshlab,MeshLab(网格模型处理软件)下载-MeshLab官方版下载[电脑版]-PC下载网
  9. 阿里巴巴矢量图标库使用
  10. TPLink路由器登陆密码怎么破解