开源大数据社区 & 阿里云 EMR 系列直播 第十一期

主题:Spark 大数据处理最佳实践

讲师:简锋,阿里云 EMR 数据开发平台 负责人

内容框架:

  • 大数据概览
  • 如何摆脱技术小白
  • Spark SQL 学习框架
  • EMR Studio 上的大数据最佳实践

直播回放:进入链接https://developer.aliyun.com/live/247072

一、大数据概览

  • 大数据处理 ETL (Data  → Data)
  • 大数据分析 BI   (Data  →  Dashboard)
  • 机器学习    AI   (Data  →  Model)

二、如何摆脱技术小白

什么是技术小白?

  • 只懂表面,不懂本质

比如:只懂得参考别人的 Spark 代码,不懂得 Spark 的内在机制,不懂得如何调优       Spark Job

摆脱技术小白的药方

  • 懂得运行机制
  • 学会配置
  • 学会看 Log

懂得运行机制:Spark SQL Architecture

学会配置:如何配置 Spark App

  • 配置 Driver

• spark.driver.memory

• spark.driver.cores

  • 配置 Executor

• spark.executor.memory

• spark.executor.cores

  • 配置 Runtime

• spark.files

• spark.jars

  • 配置 DAE
  • …..........

 

 参考网址:https://spark.apache.org/docs/latest/configuration.html

学会看 Log:Spark Log

三、Spark SQL  学习框架

Spark SQL 学习框架( 结合图形/几何)

1. Select Rows

2. Select Columns

3. Transform Column

4. Group By / Aggregation

5. Join

Spark SQL 执行计划

1. Spark SQL - Where

2. Spark SQL - Group By

3. Spark SQL - Order by

四、EMR Studio 实践

EMR Studio 特性:

  • 兼容开源组件
  • 支持连接多个集群
  • 适配多个计算引擎
  • 交互式开发 + 作业调度无缝衔接
  • 适用多种大数据应用场景
  • 计算存储分离

1. 兼容开源组件

  • EMR Studio 在开源软件 Apache Zeppelin,Jupyter Notebook, Apache Airflow 的基础上优化了做了优化和增强。

2. 支持连接多个集群

  • 一个 EMR Studio 可以连接多个 EMR 计算集群,您可以很方便地切换计算集群,提交作业到不同的计算集群上运行。

3. 适配多个计算引擎

  • 自动适配 Hive、Spark、Flink、Presto、Impala 和 Shell 等多个计算引擎,无需复杂配置,多个计算引擎间协同工作

4. 交互式开发 + 作业调度无缝衔接

Notebook + Airflow : 无缝衔接开发环节和生产调度环节

  • 利用交互式开发模式可以快速验证作业的正确性.
  • 在 Airflow 里调度 Notebook 作业,最大程度得保证开发环境和生产环境的一致性,防止由于开发阶段和生产阶段环境不一致而导致的问题。

5. 适用多种大数据应用场景

  • 大数据处理 ETL
  • 交互式数据分析
  • 机器学习
  • 实时计算

6. 计算存储分离

  • 所有数据都保存在 OSS 上,包括:

• 用户 Notebook 代码

• 调度作业 Log

  • 即使集群销毁,也可以重建集群轻松恢复数据

EMR Studio  Demo 演示:

参考文档:https://help.aliyun.com/document_detail/208107.html?spm=a2c4g.11186623.6.845.6cfc24577t1RbI

原文链接

本文为阿里云原创内容,未经允许不得转载。

Spark 大数据处理最佳实践相关推荐

  1. 东网科技荣膺2016中国大数据最佳实践奖

    11月24日,由中国软件网主办的数据趴活动圆满落幕,活动现场隆重揭晓了大数据领域的重磅榜单,旨在对大数据领域中表现突出的企业.人物进行表彰.东网科技有限公司(以下简称"东网科技") ...

  2. 从WordCount看Spark大数据处理的核心机制(2)

    本文转自http://mp.weixin.qq.com/s?__biz=MzA5MTcxOTk5Mg==&mid=208059053&idx=3&sn=1157ab5db7bc ...

  3. Spark企业级开发最佳实践

    课程介绍   本课程是世界上第一Spark企业级最佳实践课程,课程包含: Spark的架构设计: Spark编程模型: Spark内核框架源码剖析: Spark的广播变量与累加器: Shark的原理和 ...

  4. 收藏 | 500页阿里、滴滴、快手等公司的大数据最佳实践!PDF限时下载

    大数据在阿里.百度.滴滴.快手等公司的最佳实践? Hadoop的核心竞争力? Spark or Flink? 离线平台与实时计算平台如何设计? 今天,2020 DataFunTalk 精选: < ...

  5. 大数据最佳实践-hbase

    目录 概述 架构 MemStore WAL HMaster 读流程 写流程 Memstore Flush Flush过程 StoreFile Compaction Region Split 优化 re ...

  6. 从WordCount看Spark大数据处理的核心机制(1)

    本文转自http://mp.weixin.qq.com/s?__biz=MzA5MTcxOTk5Mg==&mid=208059053&idx=2&sn=fc3a8d886630 ...

  7. 【Spark大数据处理】动手写WordCount

    本文转自http://mp.weixin.qq.com/s?__biz=MzA5MTcxOTk5Mg==&mid=207906066&idx=1&sn=f9cc48a55343 ...

  8. Spark与大数据处理技术实践

    一.实验环境 虚拟机操作系统: Ubuntu 18.04.6 虚拟机硬件配置: CPU:4 内存:4GB 磁盘:50GB 虚拟机主机名/IP: huyu/192.168.253.312 二.Spark ...

  9. 大数据最佳实践-基于Spark的ETL开发

    目录 数据同步 RDMBS to RDMBS 数据同步 Hive to Hive 数据同步 RDBMS to Hive 数据同步 hive to rdmbs HDFS 数据监控 数据同步 file t ...

最新文章

  1. 字节跳动:年前再招1万人!员工总数将突破10万
  2. golang内置接口error
  3. 【机器学习PAI实践二】人口普查统计
  4. 数据库显示日期时仅仅显示“年-月-日”的问题
  5. 学习xss的一些记录(一)
  6. java学习(81):静态代码块
  7. 第三课 SVM(2)
  8. sa是什么岗位_服务顾问SA在维修企业扮演的重要角色
  9. 一加7T系列配置细节看下,可以一战否?
  10. python库--tensorflow--数学函数
  11. pos机改造迷你打印机_小票打印机如何自动弹出钱箱
  12. 蓝桥杯——黑色星期五
  13. 中国农田生产潜力数据集
  14. vasp和ms_科学网—小谈CASTEP(Linux), MS-CASTEP, VASP软件区别 - 张召富的博文
  15. Matlab 几种画图方式总结
  16. 完全没有建站经验的人,怎么自己做网站
  17. 自定义锁屏图片 win7
  18. conda 虚拟环境生成对应不同的jupyter快捷方式
  19. hdu 6078 Wavel Sequence
  20. 产品分析报告——“京东到家”

热门文章

  1. go语言io reader_Go语言中的io.Reader和io.Writer以及它们的实现
  2. 字符串左侧补0_(48)C++面试之最长不含重复字符的子字符串(动态规划)
  3. 为什么说Java 程序员必须掌握 Spring Boot?
  4. 一个男的和计算机对话,父与子的对话:计算机算法
  5. es6删除数组某一项_精学手撕系列——数组扁平化
  6. php 多线程上传,PHP CURL 多线程操作代码实例
  7. 关卡 动画 蓝图 运行_UE4无缝过场动画
  8. ue4集合类型_UE4项目问题集合
  9. python爬虫的技能_关于 Python 爬虫可能涉及到的技能点
  10. c语言ATM机文件储存账号密码,C语言实现_ATM自动取款机系统