• Spark 概述
  • 编程指南
    • 快速入门
    • Spark 编程指南
      • 概述
      • Spark 依赖
      • Spark 的初始化
        • Shell 的使用
      • 弹性分布式数据集(RDDS)
        • 并行集合
        • 外部数据集
        • RDD 操作
        • RDD 持久化
      • 共享变量
        • Broadcast Variables (广播变量)
        • Accumulators (累加器)
      • 部署应用到集群中
      • 使用 Java / Scala 运行 spark Jobs
      • 单元测试
      • Spark 1.0 版本前的应用程序迁移
      • 下一步
    • Spark Streaming
      • Spark Streaming 概述
      • 一个简单的示例
      • 基本概念
        • 依赖
        • 初始化 StreamingContext
        • Discretized Streams(DStreams)(离散化流)
        • Input DStreams 和 Receivers
        • DStreams 上的 Transformations(转换)
        • DStreams 上的输出操作
        • DataFrame 和 SQL 操作
        • MLlib 操作
        • 缓存 / 持久化
        • CheckPointing
        • 累加器和广播变量
        • 应用程序部署
        • 监控应用程序
      • 性能优化
        • 降低批处理的时间
        • 设置合理的批处理间隔
        • 内存优化
      • 容错语义
      • 迁移指南(从 0.9.1 或者更低版本至 1.x 版本)
      • 快速跳转
        • Kafka 集成指南
    • DataFrames,Datasets 和 SQL
      • Spark SQL 概述

        • SQL
        • Datasets 和 DataFrames
      • Spark SQL 入门指南
        • 起始点 : SparkSession
        • 创建 DataFrame
        • 无类型 Dataset 操作(aka DataFrame 操作)
        • 以编程的方式运行 SQL 查询
        • 创建 Dataset
        • RDD 的互操作性
      • 数据源
        • 通用的 Load/Save 函数
        • Parquet文件
        • JSON Datasets
        • Hive 表
        • JDBC 连接其它数据库
        • 故障排除
      • 性能调优
        • 缓存数据到内存
        • 其它配置选项
      • 分布式 SQL引擎
        • 运行 Thrift JDBC/ODBC server
        • 运行 Spark SQL CLI
      • 迁移指南
        • 从 Spark SQL 1.6 升级到 2.0
        • 从 Spark SQL 1.5 升级到 1.6
        • 从 Spark SQL 1.4 升级到 1.5
        • 从 Spark SQL 1.3 升级到 1.4
        • 从 Spark SQL 1.0~1.2 升级到 1.3
        • 兼容 Apache Hive
      • 参考
        • 数据类型
        • NaN 语义
    • Structured Streaming
    • MLlib(机器学习)
      • 机器学习库(MLlib)指南

        • ML Pipelines(ML管道)
        • Extracting, transforming and selecting features(特征的提取,转换和选择)
        • Classification and regression(分类和回归)
        • Clustering(聚类)
        • Collaborative Filtering(协同过滤)
        • ML Tuning: model selection and hyperparameter tuning(ML调优:模型选择和超参数调整)
        • Advanced topics(高级主题)
      • MLlib:基于RDD的API
        • Data Types - RDD-based API(数据类型)
        • Basic Statistics - RDD-based API(基本统计)
        • Classification and Regression - RDD-based API(分类和回归)
        • Collaborative Filtering - RDD-based API(协同过滤)
        • Clustering - RDD-based API(聚类 - 基于RDD的API)
        • Dimensionality Reduction - RDD-based API(降维)
        • Feature Extraction and Transformation - RDD-based API(特征的提取和转换)
        • Frequent Pattern Mining - RDD-based API(频繁模式挖掘)
        • Evaluation metrics - RDD-based API(评估指标)
        • PMML model export - RDD-based API(PMML模型导出)
        • Optimization - RDD-based API(最优化)
    • GraphX(图形处理)
    • Spark R
  • 部署
    • 集群模式概述
    • 提交应用
    • Spark Standalone 模式
    • Spark on Mesos
    • Spark on YARN
      • Spark on YARN 上运行
      • 准备
      • Spark on YARN 配置
      • 调试应用
      • Spark 属性
      • 重要提示
      • 在一个安全的集群中运行
      • 用 Apache Oozie 来运行应用程序
      • Kerberos 故障排查
  • 更多
    • Spark 配置
    • Spark 监控
    • 优化指南
    • 作业调度
    • Spark 安全
    • 硬件配置
    • 构建 Spark

http://cwiki.apachecn.org/pages/viewpage.action?pageId=2883613

Spark-2.x 中文文档相关推荐

  1. Apache Spark 2.2.0 中文文档 翻译活动

    为什么80%的码农都做不了架构师?>>>    Spark 2.2.0 已然发布(2017-07-11 发布) 5 天了,更新了一些新套路吧! 此版本从 Structured Str ...

  2. Spark 2.0.2 中文文档 | 片刻 ApacheCN(Apache中文网)

    ApacheCN(Apache中文网)- 关于我们 : http://www.apache.wiki/pages/viewpage.action?pageId=2887249 ApacheCN(Apa ...

  3. lavaral中文手册_Laravel-mix 中文文档

    概览 基本示例 larave-mix 是位于webpack顶层的一个简洁的配置层,在 80% 的情况下使用 laravel mix 会使操作变的非常简单.尽管 webpack 非常的强大,但大部分人都 ...

  4. Phoenix综述(史上最全Phoenix中文文档)

    个人主页:http://www.linbingdong.com 简书地址:http://www.jianshu.com/users/6cb45a00b49c/latest_articles 网上关于P ...

  5. PyTorch官方中文文档:torch.optim 优化器参数

    内容预览: step(closure) 进行单次优化 (参数更新). 参数: closure (callable) –...~ 参数: params (iterable) – 待优化参数的iterab ...

  6. golang中文文档_Golang 标准库 限流器 time/rate 设计与实现

    限流器是后台服务中十分重要的组件,在实际的业务场景中使用居多,其设计在微服务.网关.和一些后台服务中会经常遇到.限流器的作用是用来限制其请求的速率,保护后台响应服务,以免服务过载导致服务不可用现象出现 ...

  7. springboot中文文档_登顶 Github 的 Spring Boot 仓库!艿艿写的最肝系列

    源码精品专栏 中文详细注释的开源项目 RPC 框架 Dubbo 源码解析 网络应用框架 Netty 源码解析 消息中间件 RocketMQ 源码解析 数据库中间件 Sharding-JDBC 和 My ...

  8. Python爱好者周知:Scikit-Learn中文文档正式发布

    整理 | 费棋 出品 | AI科技大本营(公众号ID:rgznai100) 近日,Scikit-Learn 中文文档已由开源组织 ApacheCN 完成校对.该中文文档依然包含了 Scikit-Lea ...

  9. GitHub 中文文档正式发布

    点击上方"方志朋",选择"设为星标" 回复"666"获取新整理的面试资料 中国作为全球最大的人口大国,所属开发者在 GitHub 上的占比自 ...

  10. 推荐:Webpack2入门到深入的中文文档

    2019独角兽企业重金招聘Python工程师标准>>> 最近看了一本不错的<<webpack2中文文档>>的PDF,对比于wepack2官网(https:// ...

最新文章

  1. linux C高手成长过程---书籍推荐
  2. windows环境下32位汇编语言程序设计 90盘_Python 0基础详细教程 环境安装01
  3. 统一建模语言UML整理之开篇
  4. BZOJ 2281 Luogu P2490 [SDOI2011]黑白棋 (博弈论、DP计数)
  5. MQ的引言|不同MQ的特点|RabbitMQ安装
  6. Python之路---------Python介绍
  7. Django复习:模型与管理网站
  8. python select网络编程详细介绍
  9. js中eval的用法
  10. ABAP 练习用航班数据
  11. 20200601每日一句
  12. java开发工程师面试自我介绍_java程序员面试自我介绍范文
  13. ajax速度axio速度,axio跨域请求,vue中的config的配置项。
  14. cesium 直接加载 geotiff 影像图
  15. 精仿小鸟云官网高大上模板,可做对接IDC站
  16. 科普:什么是ChatGPT?(文末有彩蛋)
  17. 浏览器如何显示页面(二)
  18. Qt调用海康威视SDK二次开发抓图,录像,停止录像
  19. 新能源汽车车载双向OBC,PFC,LLC,V2G 双向 充电 新能源汽车车载双向OBC
  20. Python 下载贴吧图片到指定地址

热门文章

  1. 优秀程序员值得借鉴的一些信息
  2. SpringBoot多数据源切换,AOP实现动态数据源切换
  3. Android 虚拟机:你需要掌握的基本知识
  4. QPS Qimera
  5. Python基于Django医药药品销售订单管理系统
  6. 用python求解:用户分别输入外援半径和内圆半径,计算圆环的面积;及用户分别输入圆柱的底面圆半径和高,输出圆柱和表面积。(附带源码)
  7. 【一】Donkey Car - 驴车-无人驾驶小车项目与硬件介绍(车身模块、运动模块)
  8. Tplink服务器停止响应,新买的tp-link变砖了,修复时候没有说按p停止
  9. 5g是多大一勺_5g盐到底是多少?一盘菜到底放多少?
  10. Matlab编写乐曲