Apache Spark™是用于大规模数据处理的统一分析引擎。

  • 速度快
    运行工作负载的速度提高了100倍。

Apache Spark使用最新的DAG调度程序,查询优化器和物理执行引擎,为批处理数据和流数据提供了高性能。

  • 使用方便
    使用Java,Scala,Python,R和SQL快速编写应用程序。

Spark提供了80多个高级运算符,可轻松构建并行应用程序。您可以 从Scala,Python,R和SQL Shell交互地使用它。

  • Generality(通用性)
    Combine SQL, streaming, and complex analytics.

Spark powers a stack of libraries including SQL and DataFrames, MLlib for machine learning, GraphX, and Spark Streaming. You can combine these libraries seamlessly in the same application.

Runs Everywhere
Spark runs on Hadoop, Apache Mesos, Kubernetes, standalone, or in the cloud. It can access diverse data sources.

You can run Spark using its standalone cluster mode, on EC2, on Hadoop YARN, on Mesos, or on Kubernetes. Access data in HDFS, Alluxio, Apache Cassandra, Apache HBase, Apache Hive, and hundreds of other data sources.

spark core is RDD spark 的核心就是RDD(弹性分布式数据集)
具体可以去官网看看是怎么讲的rdd-programming-guide

spark 本地导入文本,RDD操作示例

下载Anaconda,从开始菜单,打开从开Anaconda Prompt,输入命令
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark 安装好pyspark
始菜单找到Jupter NoteBook 打开就能用了

官网入门案例

官网快速入门案例


统计单词最多的行

from pyspark.sql.functions import *
>>> textFile.select(size(split(textFile.value, "\s+")).name("numWords")).agg(max(col("numWords"))).collect()



spark01统计文本中单词的出现次数




spark sql案例

spark streaming 案例

hive 案例


Spark 学习笔记01相关推荐

  1. 尚硅谷大数据技术Spark教程-笔记01【Spark(概述、快速上手、运行环境、运行架构)】

    视频地址:尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili 尚硅谷大数据技术Spark教程-笔记01[Spark(概述.快速上手.运行环境.运行架构)] 尚硅谷大数据技术Spark教 ...

  2. JavaWeb黑马旅游网-学习笔记01【准备工作】

    Java后端 学习路线 笔记汇总表[黑马程序员] JavaWeb黑马旅游网-学习笔记01[准备工作] JavaWeb黑马旅游网-学习笔记02[注册功能] JavaWeb黑马旅游网-学习笔记03[登陆和 ...

  3. JavaWeb-综合案例(用户信息)-学习笔记01【列表查询】

    Java后端 学习路线 笔记汇总表[黑马程序员] JavaWeb-综合案例(用户信息)-学习笔记01[列表查询] JavaWeb-综合案例(用户信息)-学习笔记02[登录功能] JavaWeb-综合案 ...

  4. Servlet和HTTP请求协议-学习笔记01【Servlet_快速入门-生命周期方法、Servlet_3.0注解配置、IDEA与tomcat相关配置】

    Java后端 学习路线 笔记汇总表[黑马程序员] Servlet和HTTP请求协议-学习笔记01[Servlet_快速入门-生命周期方法.Servlet_3.0注解配置.IDEA与tomcat相关配置 ...

  5. Tomcat学习笔记01【Web相关概念、Tomcat基本操作】

    Java后端 学习路线 笔记汇总表[黑马程序员] Tomcat学习笔记01[Web相关概念.Tomcat基本操作][day01] Tomcat学习笔记02[Tomcat部署项目][day01] 目录 ...

  6. XML学习笔记01【xml_基础、xml_约束】

    Java后端 学习路线 笔记汇总表[黑马程序员] XML学习笔记01[xml_基础.xml_约束][day01] XML学习笔记02[xml_解析][day01] 目录 01 xml_基础 今日内容 ...

  7. Bootstrap学习笔记01【快速入门、栅格布局】

    Java后端 学习路线 笔记汇总表[黑马程序员] Bootstrap学习笔记01[快速入门.栅格布局][day01] Bootstrap学习笔记02[全局CSS样式.组件和插件.案例_黑马旅游网][d ...

  8. JavaScript学习笔记01【基础——简介、基础语法、运算符、特殊语法、流程控制语句】

    w3school 在线教程:https://www.w3school.com.cn JavaScript学习笔记01[基础--简介.基础语法.运算符.特殊语法.流程控制语句][day01] JavaS ...

  9. HTML/CSS学习笔记01【概念介绍、基本标签】

    w3cschool菜鸟教程.CHM(腾讯微云):https://share.weiyun.com/c1FaX6ZD HTML/CSS学习笔记01[概念介绍.基本标签.表单标签][day01] HTML ...

  10. JDBC学习笔记01【JDBC快速入门、JDBC各个类详解、JDBC之CRUD练习】

    黑马程序员-JDBC文档(腾讯微云)JDBC笔记.pdf:https://share.weiyun.com/Kxy7LmRm JDBC学习笔记01[JDBC快速入门.JDBC各个类详解.JDBC之CR ...

最新文章

  1. java8日期加本地,日期时间API(JDK8新增)
  2. 如何在Eclipse中构建APK文件?
  3. ECharts 图表导出
  4. Ubuntu使用mutt收、发、回复邮件(mutt+msmtp+fetchmail+procmail
  5. Etcd 架构与实现解析
  6. 洛谷P2884 [USACO07MAR]Monthly Expense S
  7. 数据倾斜?几招把你安排的板板正正的!
  8. 入门系列之使用fail2ban防御SSH服务器的暴力破解攻击 1
  9. 数据分析--优化模型
  10. matlab r2008a下载,Matlab+R2008a下载地址及安装教程
  11. 游戏的本质【转自网易】
  12. android 多渠道打包不同的包名、应用名、应用图标
  13. linux swap不可用,linux 禁用 swap
  14. facebook女程序员_Facebook正在悄悄地向其独立的事实检查员施加压力,要求他们改变裁决
  15. 详解OpenCV的椭圆绘制函数ellipse()
  16. 为什么要做小程序?90%的商家不知道的好处!
  17. 牛逼的python代码_几段牛逼的 Python 代码理解面向对象
  18. 企业邮箱发信数量是多少?
  19. Color类 设置字体颜色、背景颜色
  20. 如何淡化疤痕留下的黑色色素

热门文章

  1. 【tensorRT文档翻译】7. Working With Dynamic Shapes
  2. my04_Mysql复制数据一致性校验
  3. 详解百度地图API之地图操作
  4. 【安全牛学习笔记】初识sql注入漏洞原理
  5. UI_UISlider控件
  6. opengl (1) 基本API的熟悉
  7. pagefile.sys这个文件怎麽能删除
  8. Oracle 条件语句/循环语句
  9. UITextView的使用详解
  10. MariaDB链接超时优化