Spark-2.x 中文文档
- Spark 概述
- 编程指南
- 快速入门
- Spark 编程指南
- 概述
- Spark 依赖
- Spark 的初始化
- Shell 的使用
- 弹性分布式数据集(RDDS)
- 并行集合
- 外部数据集
- RDD 操作
- RDD 持久化
- 共享变量
- Broadcast Variables (广播变量)
- Accumulators (累加器)
- 部署应用到集群中
- 使用 Java / Scala 运行 spark Jobs
- 单元测试
- Spark 1.0 版本前的应用程序迁移
- 下一步
- Spark Streaming
- Spark Streaming 概述
- 一个简单的示例
- 基本概念
- 依赖
- 初始化 StreamingContext
- Discretized Streams(DStreams)(离散化流)
- Input DStreams 和 Receivers
- DStreams 上的 Transformations(转换)
- DStreams 上的输出操作
- DataFrame 和 SQL 操作
- MLlib 操作
- 缓存 / 持久化
- CheckPointing
- 累加器和广播变量
- 应用程序部署
- 监控应用程序
- 性能优化
- 降低批处理的时间
- 设置合理的批处理间隔
- 内存优化
- 容错语义
- 迁移指南(从 0.9.1 或者更低版本至 1.x 版本)
- 快速跳转
- Kafka 集成指南
- DataFrames,Datasets 和 SQL
- Spark SQL 概述
- SQL
- Datasets 和 DataFrames
- Spark SQL 入门指南
- 起始点 : SparkSession
- 创建 DataFrame
- 无类型 Dataset 操作(aka DataFrame 操作)
- 以编程的方式运行 SQL 查询
- 创建 Dataset
- RDD 的互操作性
- 数据源
- 通用的 Load/Save 函数
- Parquet文件
- JSON Datasets
- Hive 表
- JDBC 连接其它数据库
- 故障排除
- 性能调优
- 缓存数据到内存
- 其它配置选项
- 分布式 SQL引擎
- 运行 Thrift JDBC/ODBC server
- 运行 Spark SQL CLI
- 迁移指南
- 从 Spark SQL 1.6 升级到 2.0
- 从 Spark SQL 1.5 升级到 1.6
- 从 Spark SQL 1.4 升级到 1.5
- 从 Spark SQL 1.3 升级到 1.4
- 从 Spark SQL 1.0~1.2 升级到 1.3
- 兼容 Apache Hive
- 参考
- 数据类型
- NaN 语义
- Spark SQL 概述
- Structured Streaming
- MLlib(机器学习)
- 机器学习库(MLlib)指南
- ML Pipelines(ML管道)
- Extracting, transforming and selecting features(特征的提取,转换和选择)
- Classification and regression(分类和回归)
- Clustering(聚类)
- Collaborative Filtering(协同过滤)
- ML Tuning: model selection and hyperparameter tuning(ML调优:模型选择和超参数调整)
- Advanced topics(高级主题)
- MLlib:基于RDD的API
- Data Types - RDD-based API(数据类型)
- Basic Statistics - RDD-based API(基本统计)
- Classification and Regression - RDD-based API(分类和回归)
- Collaborative Filtering - RDD-based API(协同过滤)
- Clustering - RDD-based API(聚类 - 基于RDD的API)
- Dimensionality Reduction - RDD-based API(降维)
- Feature Extraction and Transformation - RDD-based API(特征的提取和转换)
- Frequent Pattern Mining - RDD-based API(频繁模式挖掘)
- Evaluation metrics - RDD-based API(评估指标)
- PMML model export - RDD-based API(PMML模型导出)
- Optimization - RDD-based API(最优化)
- 机器学习库(MLlib)指南
- GraphX(图形处理)
- Spark R
- 部署
- 集群模式概述
- 提交应用
- Spark Standalone 模式
- Spark on Mesos
- Spark on YARN
- Spark on YARN 上运行
- 准备
- Spark on YARN 配置
- 调试应用
- Spark 属性
- 重要提示
- 在一个安全的集群中运行
- 用 Apache Oozie 来运行应用程序
- Kerberos 故障排查
- 更多
- Spark 配置
- Spark 监控
- 优化指南
- 作业调度
- Spark 安全
- 硬件配置
- 构建 Spark
http://cwiki.apachecn.org/pages/viewpage.action?pageId=2883613
Spark-2.x 中文文档相关推荐
- Apache Spark 2.2.0 中文文档 翻译活动
为什么80%的码农都做不了架构师?>>> Spark 2.2.0 已然发布(2017-07-11 发布) 5 天了,更新了一些新套路吧! 此版本从 Structured Str ...
- Spark 2.0.2 中文文档 | 片刻 ApacheCN(Apache中文网)
ApacheCN(Apache中文网)- 关于我们 : http://www.apache.wiki/pages/viewpage.action?pageId=2887249 ApacheCN(Apa ...
- lavaral中文手册_Laravel-mix 中文文档
概览 基本示例 larave-mix 是位于webpack顶层的一个简洁的配置层,在 80% 的情况下使用 laravel mix 会使操作变的非常简单.尽管 webpack 非常的强大,但大部分人都 ...
- Phoenix综述(史上最全Phoenix中文文档)
个人主页:http://www.linbingdong.com 简书地址:http://www.jianshu.com/users/6cb45a00b49c/latest_articles 网上关于P ...
- PyTorch官方中文文档:torch.optim 优化器参数
内容预览: step(closure) 进行单次优化 (参数更新). 参数: closure (callable) –...~ 参数: params (iterable) – 待优化参数的iterab ...
- golang中文文档_Golang 标准库 限流器 time/rate 设计与实现
限流器是后台服务中十分重要的组件,在实际的业务场景中使用居多,其设计在微服务.网关.和一些后台服务中会经常遇到.限流器的作用是用来限制其请求的速率,保护后台响应服务,以免服务过载导致服务不可用现象出现 ...
- springboot中文文档_登顶 Github 的 Spring Boot 仓库!艿艿写的最肝系列
源码精品专栏 中文详细注释的开源项目 RPC 框架 Dubbo 源码解析 网络应用框架 Netty 源码解析 消息中间件 RocketMQ 源码解析 数据库中间件 Sharding-JDBC 和 My ...
- Python爱好者周知:Scikit-Learn中文文档正式发布
整理 | 费棋 出品 | AI科技大本营(公众号ID:rgznai100) 近日,Scikit-Learn 中文文档已由开源组织 ApacheCN 完成校对.该中文文档依然包含了 Scikit-Lea ...
- GitHub 中文文档正式发布
点击上方"方志朋",选择"设为星标" 回复"666"获取新整理的面试资料 中国作为全球最大的人口大国,所属开发者在 GitHub 上的占比自 ...
- 推荐:Webpack2入门到深入的中文文档
2019独角兽企业重金招聘Python工程师标准>>> 最近看了一本不错的<<webpack2中文文档>>的PDF,对比于wepack2官网(https:// ...
最新文章
- linux C高手成长过程---书籍推荐
- windows环境下32位汇编语言程序设计 90盘_Python 0基础详细教程 环境安装01
- 统一建模语言UML整理之开篇
- BZOJ 2281 Luogu P2490 [SDOI2011]黑白棋 (博弈论、DP计数)
- MQ的引言|不同MQ的特点|RabbitMQ安装
- Python之路---------Python介绍
- Django复习:模型与管理网站
- python select网络编程详细介绍
- js中eval的用法
- ABAP 练习用航班数据
- 20200601每日一句
- java开发工程师面试自我介绍_java程序员面试自我介绍范文
- ajax速度axio速度,axio跨域请求,vue中的config的配置项。
- cesium 直接加载 geotiff 影像图
- 精仿小鸟云官网高大上模板,可做对接IDC站
- 科普:什么是ChatGPT?(文末有彩蛋)
- 浏览器如何显示页面(二)
- Qt调用海康威视SDK二次开发抓图,录像,停止录像
- 新能源汽车车载双向OBC,PFC,LLC,V2G 双向 充电 新能源汽车车载双向OBC
- Python 下载贴吧图片到指定地址
热门文章
- 优秀程序员值得借鉴的一些信息
- SpringBoot多数据源切换,AOP实现动态数据源切换
- Android 虚拟机:你需要掌握的基本知识
- QPS Qimera
- Python基于Django医药药品销售订单管理系统
- 用python求解:用户分别输入外援半径和内圆半径,计算圆环的面积;及用户分别输入圆柱的底面圆半径和高,输出圆柱和表面积。(附带源码)
- 【一】Donkey Car - 驴车-无人驾驶小车项目与硬件介绍(车身模块、运动模块)
- Tplink服务器停止响应,新买的tp-link变砖了,修复时候没有说按p停止
- 5g是多大一勺_5g盐到底是多少?一盘菜到底放多少?
- Matlab编写乐曲