第3章 使用Spark和MLlib

上一章介绍了在全局数据驱动的企业架构中的什么地方以及如何利用统计和机器学习来处理知识,但接下来不会介绍Spark和MLlib的具体实现,MLlib是Spark顶层的机器学习库。Spark是大数据生态系统中相对较新的成员,它基于内存使用而不是磁盘来进行优化。数据仍然可以根据需要转储到磁盘上,但Spark只有在明确指示这样做或活动数据集不适合内存时才会执行转储。如果节点出现故障或由于某些原因从内存中擦除信息,Spark会利用存储的信息来重新计算活动数据集。这与传统的MapReduce方法不同,传统的MapReduce方法会将每个map或reduce的数据保留到磁盘上。
Spark特别适合于在分布式节点集上的迭代或统计机器学习算法,并且可以对其进行扩展。对于Spark,唯一的问题是节点中可用的总内存空间和磁盘空间,以及网络速度。本章将介绍Spark架构和实现的基础知识。
可简单修改配置参数来管理Spark在单个节点上或跨一组节点执行数据管道。当然,这种灵活性以稍微复杂的框架和更长的设置时间为代价,但框架的并行性非常好。由于目前大多数笔记本电脑已经是多线程且足够强大,因此这样的配置通常不会有大问题。
本章将介绍以下主题:
安装和配置Spark
Spark架构的基础知识,并解释为什么它会绑定Scala语言
为什么Spark是继顺序编程和Hadoop MapReduce之后的下一代技术
Spark组件
Scala和Spark中单词计数程序的实现
基于流的单词计数程序的实现
如何从分布式文件或分布式数据库中创建Spark的数据框(DataFrame)
Spark性能调整

《Scala机器学习》一一第3章 使用Spark和MLlib相关推荐

  1. 《Scala机器学习》一一3.3 应用

    本节书摘来自华章计算机<Scala机器学习>一书中的第3章,第3.3节,作者:[美] 亚历克斯·科兹洛夫(Alex Kozlov),更多章节内容可以访问云栖社区"华章计算机&qu ...

  2. 《Scala机器学习》一一

    本节书摘来自华章计算机<Scala机器学习>一书中的第3章,第3.1节,作者:[美] 亚历克斯·科兹洛夫(Alex Kozlov),更多章节内容可以访问云栖社区"华章计算机&qu ...

  3. 《Scala机器学习》一一1.1 Scala入门

    本节书摘来自华章计算机<Scala机器学习>一书中的第1章,第1.1节,作者:[美] 亚历克斯·科兹洛夫(Alex Kozlov),更多章节内容可以访问云栖社区"华章计算机&qu ...

  4. 学习笔记----周志华《机器学习》第五章(神经网络)(二)

    周志华<机器学习>第五章(神经网络)的学习笔记上篇连接在这里:<上篇>.上篇讲到了神经网络.常用的激活函数.感知机和多层前馈神经网络.局部极小和全局最小,今天继续补上昨天落下得 ...

  5. 机器学习coursera 第三章编程作业

    机器学习coursera 第三章编程作业 Multi-class Classification and Neural Networks lrCostFunction 整个题目给了两个数据集,一个是关于 ...

  6. 机器学习笔记第1章【机器学习导论】

    机器学习笔记第1章[机器学习导论] 一.监督学习 1.经验风险与期望风险 2.过学习与欠学习 3.模型评估与选择 4.结构风险最小(经验风险上加惩罚项或正则化项) 5.正则化与交叉验证 二.无监督学习 ...

  7. 李弘毅机器学习笔记:第二章

    李弘毅机器学习笔记:第二章 回归定义和应用例子 回归定义 应用举例 模型步骤 Step 1:模型假设 - 线性模型 一元线性模型(单个特征) 多元线性模型(多个特征) Step 2:模型评估 - 损失 ...

  8. 李弘毅机器学习:第四章—梯度下降法

    李弘毅机器学习:第四章-梯度下降法 什么是梯度下降法? Review: 梯度下降法 Tip1:调整学习速率 小心翼翼地调整学习率 自适应学习率 Adagrad 算法 Adagrad 是什么? Adag ...

  9. 李弘毅机器学习笔记:第九章—Hello world of dee

    李弘毅机器学习笔记:第九章-"Hello world" of dee keras 是什么 示例 步骤1:定义模型 步骤2:模型评估 步骤3:最佳模型 3.1 Configurati ...

最新文章

  1. wxWidgets:操作档案manipulate archives的示例应用程序
  2. 创建calico网络报错client response is invalid json
  3. 九、WebService中文件传输
  4. 【机器学习】粗糙集属性约简算法与mRMR算法的本质区别
  5. php 下载限制,php实现限制文件下载速度的代码实例
  6. 8-1 回溯法实验报告 (15 分)(思路+详解)
  7. 函数模板(参考《C++ Templates 英文版第二版》)
  8. 全面掌握ping命令(四)ping命令常用参数
  9. paip.执行shell cmd 命令uapi java php python总结
  10. 超级详细的Maven使用教程
  11. php使用ffmpeg将音乐wav格式转为mp3格式
  12. 2407 · 计算 a + aa + aaa + aaaa 的值(LintCode,Python,入门)
  13. 华为S5700交换机端口聚合
  14. HTML常见问题整理1
  15. 转载:一位顶级黑客编写的最强反编译器
  16. 二维动态规划降维误差一般为多少_数学建模常用算法模型
  17. QGroundControl连接数传(3DR)失败
  18. PHP信息PHPINFO
  19. 想要的资源百度搜不到?6个只有老师傅才知道的网站,悄悄领走
  20. something just like this

热门文章

  1. animiz动画制作软件_学习动画制作需要掌握的常用软件合集
  2. LeetCode 2 两数相加
  3. Android自定义水波纹动画Layout
  4. Swift 字典转数组
  5. uniapp动态设置style和class样式
  6. Redis高可用之集群配置(六)
  7. 批量启动关闭MS SQL 2005服务BAT
  8. 小程序异常监控及错误处理
  9. The import java.util cannot be resolved The import javax.servlet cannot be resolved
  10. 旅游自助系统可行性分析