摘要:本文整理自阿里云高级产品专家何源(荆杭)在 阿里云EMR2.0线上发布会 的分享。本篇内容主要分为三个部分:

  1. 开源大数据的痛点及EMR产品历程
  2. EMR2.0 新特征
  3. 总结

一、开源大数据的痛点及EMR产品历程

开源大数据的痛点

  • 如何提升性能,降低资源成本

全面的性能优化需要大量的研发投入且门槛较高;大数据资源使用量大,广大用户都在不断探索降本方案。

  • 如何降低运维成本

开源大数据组件众多,开发上手相对容易,但是一旦业务规模和业务复杂度上升以后,所带来的运维难度和开销也随之急剧上升。

  • 如何保障数据和任务的可靠性

数据是公司的无形资产,数据的丢失往往是灾难性的,尽管有多副本,但是动辄几十台,甚至上百台、上千台的服务器在机器故障、集群升级、迁移过程中要保障数据的可靠性是一件不容易的事,而成千上万的任务实时或周期性的运行,也会消耗大量的运维投入。

  • 如何管理数据开发和治理

实现团队协同开发、安全合规的使用数据以及治理数据,也需要有方法论的支撑和产品支持。

EMR产品历程

如下图所示,自2016年阿里云推出EMR以来,阿里云EMR团队一直致力于解决以上痛点。

通过一系列的性能优化,阿里云在 CloudSort 和 TPC-DS 上取得了世界第一的成绩,推出了全托管的元数据和数据湖产品,大大降低了运维难度和运维成本。

通过 DataWorks on EMR 以及 EMR Studio 等产品,大大简化了数据开发以及数据治理的接入门槛。

二、EMR2.0 新特征

概述

基于云原生的理念和阿里云上日益成熟的设施,阿里云推出 EMR 2.0,构建新一代开源大数据的基础设施。

EMR 2.0的新特征包括:

全新平台体验

  • 集群创建速度2倍以上优化;
  • 集群扩容速度3倍以上提升;
  • 弹性规模支持千台以上;
  • 故障节点迁移;
  • 集群诊断工具;

全新数据开发

  • 全托管EMR Notebook (Jupyter);
  • Workflow (Dolphinscheduler);
  • 数据开发治理平台Dataworks on EMR;

全新资源形态

  • EMR on ECS,支持倚天g8,性价比提升超过40%;
  • EMR on ACK(K8s);
  • EMR Serverless;

全新分析场景

  • 新版数据湖
  • 数据分析
  • 数据服务
  • 实时数据流
  • 数据科学

EMR 2.0产品架构

如下图所示,EMR 2.0产品架构自下而上包括:

硬件资源

EMR 2.0支持ECS(Intel, AMD, 倚天)/神龙/ECI;

存储资源

在存储资源上,数据湖架构已经已经逐步成为业界的共识,阿里云在对象存储OSS 技术上升级为 OSS-HDFS 兼容 HDFS API;

调度资源

支持 EMR on ECS、EMR on ACK、EMR Serverless

管控平台

监控告警;

弹性调度;

集群诊断;

故障补偿;

权限&安全;

组件管理;

分析场景

新版数据湖 Datalake;

数据分析 OLAP;

实时数据流 Dataflow;

数据服务 DataServing;

数据科学 DataScience;

开发工具

开源解决方案 EMR Studio (Notebook, Workflow) ;

企业级开发平台 DataWorks on EMR

元数据管理和湖管理

在原有的数据湖构建DLF上 新增了权限生命周期管理、湖管理等新特性。

全新平台体验

阿里云EMR2.0 围绕弹性、稳定性、智能、效率四个方面对 EMR 进行了全面升级。

Elasticity 弹性

集群创建,弹性性能大幅提升;

异构实例,竞价实例满足个性化弹性需求;

Stability 稳定性

节点迁移,故障节点自动补偿;

组件状态巡检,事件通知;

Intelligence 智能

集群资源诊断;

风险预警;

实时检测;

Efficiency 效率

交互式数据开发;

一键任务提交;

配置导出&集群克隆。

全新数据开发

EMR 2.0提供两套解决方案供不同用户选择,分别是:基于 Jupyter 和 DolphinScheduler 的 EMR Studio 开源解决方案,和阿里云自研的企业级数据开发与治理 DataWorks on EMR。

EMR Studio (Notebook, Workflow)

  • 基于 Jupyter 的全托管SaaS化的 Notebook

    • 直接在EMR管控台页面创建一个 notebook 并快速与EMR集群进行关联,几分钟内就可以开始对数据进行分析,无需担心代码的保存以及计算资源维护;
    • 对 Jupyter Notebook 进行了优化:如支持 StarRocks 快速指定引擎类型;
  • 基于 Apache DolphinScheduler 的全托管SaaS化的 Workflow
    • 开箱即用,一键关联集群;

EMR Studio 提供了全新的开源数据开发体验,在EMR服务费之外,不收取额外费用。

DataWorks on EMR,企业级数据开发与治理

DataWorks 是一套在阿里内部历经几万用户十几年打磨的产品,能够满足企业一站式数据开发和数据治理的诉求。DataWorks 支持数据集成、数据开发调度、数据建模、数据质量、数据地图、数据安全、数据分析、数据服务以及开放的API等能力:

  • 数据集成:基于DataX,支持几十种数据源作为 source 和 sink 进行数据同步;
  • 数据开发:线上的 IDE,支持 Spark、Hive、Presto、ClickHouse 的开发;
  • 数据质量:根据任务配置的规则,对任务的产出结果进行正确性验证;
  • 数据地图:采集字段级粒度的数据血缘;
  • 数据安全:提供表和字段级别的权限管理;
  • 数据分析:提供快速交互式的分析和可视化分析能力;
  • 数据服务:简化数据查询服务的开发,通过写 SQL 就可以提供数据查询的接口;
  • 开发平台:提供一系列的 API 供用户进行二次开发。

全新资源形态

随着云原生技术越来越成熟,EMR 也提供了各种资源管理形态。

EMR on ECS

  • 支持组件最全,自定义能力最强;
  • 跟传统模式最接近,便于快速迁移;

EMR on ACK

  • 完全兼容 K8S,10秒级资源调度;
  • 支持 Spark, Flink, Presto, RSS 组件;
  • 配合 ECI,自动弹性,秒级扩容;
  • 完整的任务提交、管理、监控能力;

EMR Serverless

  • 首先推出的是 StarRocks;
  • 全托管,最小化的运维成本;
  • 高可用,SLA 99.99%;
  • 开箱即用,对接 EMR Notebook;
  • 成本低,按需扩容资源。

新硬件,倚天性价比提升40%以上

在2022年云栖大会上,阿里云推出了中国首个云上大规模应用自研CPU倚天710,EMR2.0 也将推出倚天机型。倚天采用最先进的ARM架构和生产工艺,在通用智能性能提升的基础上,降低了整体的资源成本:

  • 在ECS价格方面,倚天G8系列较X86的机器系列价格降低20%以上,计算型系列价格降低超过30%,大幅降低企业成本;
  • 在性能方面,物理核的倚天机型性能更高,CPU占用率更低;在EMR对倚天机型适配后,进行了 TPC-DS 的 Benchmark 测试,在G8Y与G7的对比中,同样采用了六台8core 32G的机型,倚天的TPC-DS耗时减少25%。

全新分析场景

EMR结合自身的技术优势和实践经验,对大数据场景进行了分类,方便用户快速构建适合业务的大数据集群:

数据湖

  • 数据湖集群包含 Spark、Hive、Yarn、Presto、Hudi、Deltalake、RSS、Kyuubi 等组件; 支持用户构建数据仓库,进行数据 ETL 以及数据湖分析;

实时数据流

  • 实时数据流包含 Flink、Kafka 等组件; 支持用户进行实时计算,构建在线决策、实时监控、实时计算等系统;

数据分析

  • 数据分析主要包含 StarRocks、Doris、ClickHouse 等组件; 广泛应用于用户画像分析,交互式分析,构建BI报表系统和对接业务系统;

数据服务

  • 数据服务主要包含 Hbase、Phoenix 组件; 支持时序数据分析、feeds流推送和用户行为收集;

数据科学

  • 数据科学主要包含 Tensorflow、PyTorch 组件;
  • 面向机器学习、数据挖掘、特征建模等场景;

对于部分客户出于成本控制的考虑,希望将多种业务混部在一个集群,EMR 还支持自定义集群,可以将多种场景下的组件混合部署在一起。

以用户使用最多的数据湖场景为例,EMR 在计算、存储和治理方面都做了大量的优化。

  • 在存储层面,EMR 推出 OSS-HDFS,可完全兼容 HDFS API,用户可以平滑的将 HDFS 迁移到 OSS 上;
  • 在计算层面,计算任务无需二次开发,可以直接运行在存算分离的数据湖架构上;
  • 在1PB的场景下测算,经过合理的冷热分层,可以节省40%的资源成本,同时计算资源也可以实现按需或者按负载弹性使用,大大降低了资源消耗;
  • 在计算引擎层面,EMR 对 Spark/Hive/Trino/StarRocks 等引擎进行优化,ETL 和分析场景下性能有明显提升;
  • 在数据湖管理层面,DLF湖管理实现湖数据生命周期管理,包括:元数管理与服务、权限控制与审计、数据质量控制、湖表管理与优化、存储管理与优化、全新数据迁移入湖。

总结

EMR2.0 从管控到引擎,从资源形态到应用场景都在积极创新,希望更好的解决用户在开源大数据遇到的痛点问题。

EMR2.0 的控制台入口也升级到了emr-next,欢迎前往使用新版EMR:https://emr-next.console.aliyun.com/

原文链接

本文为阿里云原创内容,未经允许不得转载。

阿里云EMR 2.0:重新定义新一代开源大数据平台相关推荐

  1. 阿里云EMR 2.0:兼容开源,贡献开源,超越开源

    摘要:本文整理自阿里云资深技术专家吴威(无谓)在 阿里云EMR2.0线上发布会 的分享.本篇内容主要分为三个部分: 1.兼容开源阶段 2.贡献开源阶段 3.超越开源阶段 兼容开源阶段 开源这个词在最近 ...

  2. 阿里云HBase全新发布X-Pack 赋能轻量级大数据平台

    2019独角兽企业重金招聘Python工程师标准>>> 一.八年双十一,造就国内最大最专业HBase技术团队 阿里巴巴集团早在2010开始研究并把HBase投入生产环境使用,从最初的 ...

  3. 从0到1,云服务助力全民直播快速构建大数据平台

    随着业务的快速发展,全民直播如何应对来自技术与运营方面的挑战?6月7日,在上海世博中心,2018云栖大会·上海峰会阿里云支持与服务专场上,全民直播大数据架构师朱益发表主题演讲,详细介绍了从0到1,云服 ...

  4. 开源大数据平台HBase对接OBS操作指南

    1      背景介绍 华为云对象存储服务可以与HBase大数据生态进行对接,为用户提供计算存储分离的大数据解决方案.该方案具备高性能.低成本的优势,且无扩容问题. 本操作指导书旨在帮助华为云用户在开 ...

  5. 五个篇章讲明白如何从0到1搭建大数据平台

    大家好,我是一哥,整理了一下之前写的搭建大数据平台的5个篇章,请大家收藏,文末可以获取完整PDF版本. 01 如何从0到1搭建大数据平台 大数据时代这个词被提出已有10年了吧,越来越多的企业已经完成了 ...

  6. 从0到1搭建大数据平台之数据计算

    文章目录 前言 一.传统的数据计算 二.Hadoop的崛起 三.离线计算 MapReduce Hive SparkSQL 四. 实时计算 Spark Streaming Flink 总结 前言 大家好 ...

  7. 从0到1搭建大数据平台之数据存储

    大家好,我是脚丫先生 (o^^o) 近日参加了集团大数据平台之流批一体的建设. 流批一体,从调研直至研发.日日夜夜,泪流满面. 作业以:sql.jar.组件拖拽三种方式去提交实时任务,终究还是攻克. ...

  8. 直播预告| 一次实用的“企业级开源大数据平台上层应用”指南

    本期 WeDataSphere开源社区推出关于 Qualitis.Prophecis.DataSphereStudio和Schedulis四个组件的内容,为大家介绍涵盖数据质量管理平台.机器学习平台. ...

  9. 开源大数据平台的安全实践

    开源大数据平台的安全实践 刘杰 百度(中国)有限公司,北京 100085 摘要:开源大数据平台的安全机制目前并不特别完善,特别是用户认证.日志审计等方案还存在不少问题.分析了开源大数据平台存在的安全隐 ...

最新文章

  1. 电脑退出全屏按哪个键_一款轻量级的电脑看图软件
  2. C语言实现最简单的2048小游戏
  3. Spring Boot实现一个天气预报系统(一)
  4. linux 进程间通信 dbus-glib【实例】详解二(上) 消息和消息总线(附代码)
  5. jQuery easyUI--下拉菜单的制作
  6. 常用的函数式接口_Predicate接口练习_集合信息筛选
  7. jzoj6065-[NOI2019模拟2019.3.18]One?One!【FFT】
  8. Spring MVC,Ajax和JSON第2部分–服务器端代码
  9. MYSQL 的集群
  10. 自动优化工具Black帮你写出规范漂亮的python代码
  11. websocket包解析
  12. 41.D3D数学库 GameProject7
  13. Open vSwitch实践——VLAN
  14. voices——最后的决赛
  15. 有什么软件可以把视频上下拼接在一起?
  16. Windbg(蓝屏分析工具)v10.0.18362.1版本更新
  17. php 如何查询数组,php
  18. 高效开发神器 | 合宙LuatIDE 1.1.0正式版本免费下载
  19. 快速制作Lion启动盘(DiskMaker X) v3.0.1
  20. 决定了,儿童节我们用python画这个...

热门文章

  1. mysql plugin filed_宝塔面板数据库启动不了:plugin 'InnoDB' failed. | 小朱笔记
  2. 【转载】如何高效地学习英语语法?
  3. java 操作 word 表格和样式,java读取word表格中的表格 java如何读取word中的excel表格数据...
  4. CNCF 2020 China Interesting Talks
  5. 计算机主板电源为啥不一样,不在主板上怎么测试台式电脑电源好坏
  6. 计算机2级怎么插u盘,从此不用U盘,教你怎么用普通网线连接2台电脑高速互传文件。...
  7. E - Polycarp and Snakes
  8. 三十条操盘手总结的操盘铁律经验
  9. 《Web前端工程师修炼之道(原书第4版)》——Web设计师是做什么的
  10. 2020全国普通高校大学生竞赛排行榜