系列文章目录

  1. 手把手带你玩转Spark机器学习-专栏介绍
  2. 手把手带你玩转Spark机器学习-问题汇总
  3. 手把手带你玩转Spark机器学习-Spark的安装及使用
  4. 手把手带你玩转Spark机器学习-使用Spark进行数据处理和数据转换
  5. 手把手带你玩转Spark机器学习-使用Spark构建分类模型
  6. 手把手带你玩转Spark机器学习-使用Spark构建回归模型
  7. 手把手带你玩转Spark机器学习-使用Spark构建聚类模型
  8. 手把手带你玩转Spark机器学习-使用Spark进行数据降维
  9. 手把手带你玩转Spark机器学习-使用Spark进行文本处理
  10. 手把手带你玩转Spark机器学习-深度学习在Spark上的应用

文章目录

  • 系列文章目录
  • 前言
  • 背景
  • 专栏内容
  • 预备知识
  • 其他

前言

目前国内关于Spark机器学习实战的优质资料比较欠缺,很多文章抄来抄去,写的不清不楚,随着Spark技术生态的成熟,很多公司都把它作为大数据处理的框架,但是在实际应用中,难免遇到很多的坑。作者从多年实际工作经验出发,参考多方面的资料,编写这个实战性质的专栏,希望能够给即将使用到或者正在使用Spark进行机器学习的同学一些帮助。

背景

近年来,大规模数据的存储、处理、分析和建模,已经越来越普及了,像Google、Facebook、Alibaba这样的大公司都搭建了一套自己的机器学习平台来面对处理海量数据的挑战。大部分这些机器学习平台都是通过在计算机集群上进行分布式数据存储和计算来简化大数据处理。

Apache hadoop是最广为人知的大数据技术,它极大地简化了海量数据的存储和计算,并极大地降低了相应的学习成本。但是Hadoop在启动任务时开销高及需要把中间数据和计算结果写入磁盘,这种使得Hadoop不适合迭代式或低延迟的任务。Apache Spark是一个新的分布式计算框架,在设计起初就针对Hadoop的缺点进行了优化,并通过内存实现中间数据和结果的读写。此外,Spark提供了简洁明了的函数式API可完全兼容Hadoop生态系统。

Spark提供了针对Scala、Java和Python语言的原生API,并且还自带一个分布式机器学习和数据挖掘工具包MLlib。

本专栏主要关注Spark机器学习的实际应用,会简要介绍机器学习算法的一些理论知识,并会把重心放在Spark机器学习的技术实践上来。考虑到目前学术界和工业界普遍使用Spark python进行编程,本专栏将通过示例程序和样例代码,举例说明如何借助Spark、MLlib以及一些开源的机器学习库来搭建一个有用的机器学习系统。

专栏内容

本专栏至少由8篇核心文章构成:

  • Spark介绍及安装与使用:介绍Spark的基础知识以及如何安装和搭建Spark框架的本地环境。并利用python语言创建一个简单的Spark应用
  • 使用Spark进行数据预处理及数据转换:详细介绍如何进行数据处理和清理并将数据转换成符合要求的数据,使之具备可用于机器学习的特征
  • 使用Spark构建分类模型:详细介绍如何创建一个二元分类模型,以及如何评估模型分类效果
  • 使用Spark构建回归模型:详细介绍如何创建一个回归模型,以及如何评估回归模型的效果
  • 使用Spark构建聚类模型:探索如何创建聚类模型以及相关评估方法的使用,并分析及可视化聚类结果
  • 使用Spark进行数据降维:通过多种方式从数据中提取期内在结构并降低其维度,学习一些常用的降维方法
  • 使用Spark进行文本处理:介绍处理大规模文本数据的方法:特征提取及文本数据处理
  • 深度学习在Spark上的应用:介绍深度学习在Spark上的具体应用

预备知识

本专栏假设读者已经有基本的python编程经验,以及机器学习、数据分析方面的基础知识。

其他

本专栏定期更新文章并上传,同时也会做好订阅用户的答疑工作,同时作者也会基于读者的阅读反馈,新增更多Spark的实战项目文章。

手把手带你玩转Spark机器学习-专栏介绍相关推荐

  1. 手把手带你玩转Spark机器学习-使用Spark构建回归模型

    系列文章目录 手把手带你玩转Spark机器学习-专栏介绍 手把手带你玩转Spark机器学习-问题汇总 手把手带你玩转Spark机器学习-Spark的安装及使用 手把手带你玩转Spark机器学习-使用S ...

  2. 手把手带你玩转Spark机器学习-使用Spark进行数据处理和数据转换

    系列文章目录 手把手带你玩转Spark机器学习-专栏介绍 手把手带你玩转Spark机器学习-问题汇总 手把手带你玩转Spark机器学习-Spark的安装及使用 手把手带你玩转Spark机器学习-使用S ...

  3. 手把手带你玩转Spark机器学习-使用Spark进行数据降维

    系列文章目录 手把手带你玩转Spark机器学习-专栏介绍 手把手带你玩转Spark机器学习-问题汇总 手把手带你玩转Spark机器学习-Spark的安装及使用 手把手带你玩转Spark机器学习-使用S ...

  4. 手把手带你玩转需求预测-需求预测方法介绍

    系列文章目录 手把手带你玩转需求预测 文章目录 系列文章目录 前言 时序预测算法类型 第一代:统计时序预测算法 第二代:经典机器学习方法 第三代:深度学习预测算法 总结 前言 预测算法的本质是从历史数 ...

  5. 【三万字保姆级教程】手把手带你玩转Midjourney AI绘画

    文章目录 前言 课程介绍 1.1 课程目标和学员对象 课程目标 学员对象 1.2 课程内容概述 1.3 AI绘画的概念和发展 总结 前言 如上图所示,想要学习创作美丽.复杂的艺术作品吗? Midjou ...

  6. 群晖nas介绍文档_手把手带你玩转NAS 篇八:NAS文档随身带——多终端文件同步介绍(群晖drive篇)...

    手把手带你玩转NAS 篇八:NAS文档随身带--多终端文件同步介绍(群晖drive篇) 2020-01-08 15:23:44 24点赞 214收藏 31评论 你是AMD Yes党?还是intel和N ...

  7. ac2100 反弹shell无法粘贴_手把手带你玩转NAS 篇二十一:小米Redmi AC2100路由器刷机padavan保姆级教程...

    手把手带你玩转NAS 篇二十一:小米Redmi AC2100路由器刷机padavan保姆级教程 2020-05-14 18:49:24 224点赞 1790收藏 241评论 你是AMD Yes党?还是 ...

  8. 威联通nas怎么更换大硬盘_手把手带你玩转NAS 篇一:无损转移硬盘数据(威联通篇)TS-453Bmini...

    手把手带你玩转NAS 篇一:无损转移硬盘数据(威联通篇)TS-453Bmini 2019-12-15 11:00:00 51点赞 694收藏 72评论 你是AMD Yes党?还是intel和NVIDI ...

  9. NumPy入门攻略:手把手带你玩转这款强大的数据分析和计算工具

    导读:NumPy(Numerical Python的简称)是高性能科学计算和数据分析的基础包,提供了矩阵运算的功能. 在处理自然语言过程中,需要将文字(中文或其他语言)转换为向量.即把对文本内容的处理 ...

  10. 肝了4.5万字,手把手带你玩转JavaScript(建议收藏)

    江哥手把带你玩转 JavaScript 分为 5 期,大概 15 万字,建议点赞,关注,收藏,防止失联. 本期为第一期入门篇,4.5 万字. 什么是JavaScript? JavaScript简称JS ...

最新文章

  1. Go 学习笔记(2)— 安装目录、工作区、源码文件和标准命令
  2. laravel 登录失效
  3. Forefront Client Security部署及配置
  4. c语言match,LeetCode第10题: isMatch(C语言)
  5. 前端学习(3171):react-hello-react之reduce
  6. Linux 安装Python37
  7. 关于进程资源限制的getrlimit和setrlimit函数(epoll、服务器经常用)
  8. MySQL SQL语句知识点总结
  9. 【clickhouse】clickhouse 分区表
  10. mysql+数据库主从原理_MySQL主从复制原理及实现
  11. python利用什么写模板_利用python自动生成verilog模块例化模板
  12. 关于大创项目的初期思考2020.11.14
  13. 【组合数学】多项式定理 ( 多项式系数 | 多重集全排列 | 对应放球子模型方案数 | 多项式系数相关恒等式 )
  14. 斯帅变阵只为讨好皇帝 36岁高龄大Z成热火首发
  15. 小武与SSD与pytorch-尝试手撕代码
  16. Android 反编译利器,jadx 的高级技巧
  17. 不规律的生活有什么危害
  18. JAVA SE (14)
  19. 初级Java学习笔记总结
  20. 产品需求文档写作:工友APP(PRD)

热门文章

  1. 如何完成一款游戏? | 独立游戏制作
  2. apex乱码_[请教]apex安装简体中文语言包的步骤
  3. 关于BOM的一些基本知识以及表格的操作
  4. zebradesginer zpl代码,如何从ZebraDesigner标签获取ZPL代码?
  5. 提交表单时,请求的资源[/222/getServlet]不可用(已解决)
  6. QPainter绘图基本使用
  7. Android获取半透明属性
  8. c语言编程学习宝典,C语言学习宝典
  9. AE duik插件运用-人物行走动画
  10. ajax上传form表单图片,php form表单ajax上传图片方法