阿里云 vs Azure-大数据
面向 Azure 专业人员的阿里云
本文讨论 Azure 和 Alibaba Cloud 在其各自的云环境中提供的大数据服务的主要区别和相似之处,本文主要讨论以下服务类型情况和它涵盖以产品:
1. 数据计算
2. 数据业务流程
以下表格列出了 Azure 大数据产品与 Alibaba Cloud 大数据产品的对比。
特性 | Azure | Alibaba Cloud |
---|---|---|
数据计算 | Azure HDInsight | Alibaba Cloud MaxCompute |
数据业务流程 |
Azure Data Factory Azure Data Catalog |
Alibaba Cloud DataWorks |
1. 数据计算
对数据进行转换,根据需要对数据进行过滤处理和计算。
1.1 服务对比
Azure HDInsight 与Alibaba Cloud MaxCompute 的特性和术语对应关系如下::
功能分类 | Alibaba Cloud MaxCompute | Azure HDInsight |
---|---|---|
数据通道 | Tunnel 批量上传下载/基于SDK开发的插件:DTS、Sqoop、Kettle、CLT | Kafka |
DataHub 实时传输/基于SDK开发的插件:OGG、Flume、LogStash、Flunted | ||
数据存储 | 文件压缩存储RaidFile机制 | 默认使用Azure存储中的Blob容器 |
计算及分析任务 | SQL(Hive-like SQL)、UDF | 支持 |
MapReduce | 支持 | |
图计算 | 不支持 | |
非结构化数据处理 | 支持 | |
Spark | 支持 | |
ElasticSearch | N/A | |
BigGraph | N/A | |
系统安全 |
权限管理模型: 项目空间的用户及授权管理 跨项目空间的资源分享 项目空间的数据保护 项目空间的安全配置 |
通过 Azure 虚拟网络、加密以及与 Azure Active Directory 集成保护企业数据资产 |
ACL授权 | ||
Policy授权 | ||
Package资源分享 | ||
LabelSecurity访问控制 | ||
开放性/开源生态 | API | 支持Hadoop、Spark、交互式查询(LLAP)、Kafka、Storm、HBase和ML Services。 |
SDK:Python、Java | ||
日志导入工具:Fluentd、Flume | ||
客户端:CLT、Studio | ||
开源代码:R、Sqoop、ogg、eclipse、JDBCDriver | ||
最大规模 | 单集群1W+、可多集群 | Hadoop/Hbase集群 |
弹性伸缩 | 支持 | 支持 |
热升级 | 支持 | N/A |
准实时 | 支持 | N/A |
高可用 | 存储、调度系统高可用,无单点故障 | HDInsight 群集提供两个头节点 |
1.2 产品对比概览
Azure HDInsight
Azure HDInsight是Hortonworks Data Platform (HDP)提供的Hadoop组件的云发行版,用于快速且经济有效地处理大量数据。支持Hadoop、Spark、Hive、LLAP、Kafka、Storm、R 等最常用的开源框架,并通过这些框架启用各种各样的方案,例如提取、转换和加载 (ETL)、数据仓库操作、机器学习、IoT。Azure HDInsight是适用于企业的分析服务,具有完全托管、全面且开源的特点。
Alibaba Cloud MaxCompute
Alibaba Cloud MaxCompute 是国内最大的大数据云服务平台,提供海量的数据存储,海量的数据计算,多组织间的数据交换。MaxCompute是Alibaba group自主研发的一套大型的分布式计算系统,MaxCompute支持多集群双活/灾备,用户不用关注基础设施稳定性,而是关注自己的业务内容,MaxCompute本身提供服务的一致性与连续性。Alibab Cloud MaxCompute 提供了一组丰富的大数据开发工具,改进了数据的导入和导出的解决方案,以及各种经典的分布式计算模型,能够更快速的解决海量数据计算问题,有效降低企业成本,并保障数据安全。
1.3 产品优劣势对比
Azure HDInsight产品优势
- 云原生:可以使用Azure HDInsight在Azure上为Hadoop、Spark、交互式查询 (LLAP)、Kafka、Storm、HBase和 ML Services 创建优化群集,并提供端到端的SLA。
- 支持弹性扩展:可以通过HDInsight弹性扩展。可以通过创建按需群集来降低成本,按需付费。
- 安全合规:HDInsight允许通过Azure虚拟网络、加密以及与Azure Active Directory集成来保护企业数据资产。 HDInsight满足常用的行业和政府符合性标准。
- 监控:Azure HDInsight集成Azure Log Analytics,可以通过单个界面来监视所有群集。
- 工作效率:Azure HDInsight 允许将各种适用于Hadoop和Spark的高效工具与首选的开发环境配合使用,包括Visual Studio、VSCode、Eclipse 和 IntelliJ,可以提供 Scala、Python、R、Java和.NET支持。
- 可扩展性:可以使用脚本操作通过安装的组件(Hue、Presto 等)来扩展 HDInsight 群集。
Azure HDInsight产品劣势
Azure HDInsight底层架构基于开源Hadoop、Spark等产品。MaxCompute通过高并发处理和执行计划优化,在CPU-IO 敏感性计算及大数据量Join计算等场景表现更优。在数据量及资源量同比放大情况下,MaxCompute 的计算时间更加稳定, 能够充分利用分配到的计算资源,计算和资源量呈线性关系增长。在相同数据量,相同资源下,相同测试集同等标准情况下,MaxCompute整体表现性能更优。此外,MaxCompute高度产品化,使用门槛低。
1.4 对比结论
综上所述,在数据计算领域,MaxCompute的优势在于:
- 计算快,性能优
- 超大规模计算及存储
- 集多种计算引擎与一身
- 支持多集群、跨集群计算
- 大数据集成开发环境
- 极大的降低企业使用成本
- 高稳定性和安全性
2. 数据业务流程
对数据进行数据传输、数据转换等相关操作,从不同的数据存储引入数据,对数据进行转化处理,最后将数据提取到其他数据系统,完成整个数据的采集、转换、开发、分析流程。
2.1 服务对比
Azure Data Factory、Azure Data Catalog 与 Alibaba Cloud DataWorks 的特性和术语对应关系如下:
功能分类 | 特性 | Azure Data Factory | Azure Data Catalog | Alibaba Cloud DataWorks |
---|---|---|---|---|
数据采集 | 实时采集 | 不支持 | N/A | 支持 |
批量采集 | 支持 | N/A | 支持 | |
客户端采集 | 不支持 | N/A | 支持 | |
本地数据 | 支持(部署代理网关) | N/A | 支持 | |
云数据 | 支持 | N/A | 支持 | |
异构数据源 | Azure存储、数据库、文件 | N/A | 支持20多种(RDBMS、NoSQL、MPP、非结构化存储、大数据存储等) | |
数据管理 | 搜索发现数据 | N/A | 支持 | 支持 |
捕获元数据 | N/A | 支持 | 支持 | |
版本管理 | N/A | 不支持 | 不支持 | |
捕获schema变化 | N/A | 不支持 | 不支持 | |
自动识别检测 | N/A | 不支持 | 不支持 | |
批注/阐述 | N/A | 支持 | 不支持 | |
收藏/结构化标签 | N/A | 支持 | 不支持 | |
数据血缘 | N/A | N/A | 支持 | |
数据转换开发 | 自动生成代码 | 不支持 | N/A | 不支持 |
在线编辑 | 不支持 | N/A | 支持 | |
版本管理 | 不支持 | N/A | 支持 | |
方式 | 基于计算引擎(HDInsight, Data Lake Analytices U-SQL, Machine Leaning,R) | N/A | 基于计算引擎(ODPS SQL, SHELL, PAI) | |
编排及任务调度 | 触发方式 | 周期 | N/A | 周期、API触发 |
serveless | 支持 | N/A | 支持 | |
自动重跑 | 支持 | N/A | 支持 | |
监控告警 | 监控仪表盘 | 支持 | N/A | 支持 |
告警 | 支持 | N/A | 支持 | |
数据质量 | 离线监控 | 不支持 | 不支持 | 支持 |
在线监控 | 不支持 | 不支持 | 支持 | |
自定义监控规则 | 不支持 | 不支持 | 支持 | |
开放性 | API | 支持 | 支持 | 支持 |
SDK | 支持 | 支持 | 不支持 |
2.2 产品对比概览
Azure Data Factory
Azure的数据集成开发工具Data Factory上线已久,集合了数据集成、数据开发、任务监控等功能。2017年下半年,Data Factory发布V2版本,重构了功能模型,新增了可视化拖拽编辑、复杂流程控制,加强了任务监控功能,在复杂场景的胜任能力以及用户体验方面有长足进步。
Azure Data Factory是基于云的数据集成服务,用于在云中创建数据驱动型工作流,以便协调和自动完成数据移动和数据转换。使用 Azure Data Factory可执行以下任务:
- 创建和计划数据驱动型工作流(称为管道),以便从不同的数据存储引入数据。
- 使用计算服务(例如 Azure HDInsight Hadoop、Spark、Azure Data Lake Analytics、Azure 机器学习)处理或转换数据。
- 将输出数据发布到数据存储(例如 Azure SQL 数据仓库),供商业智能 (BI) 应用程序使用。
Azure Data Catalog
Azure Data Catalog(数据目录)旨在帮助企业充分利用现有的信息资产。数据目录可帮助管理数据的用户更轻松地发现和理解数据源,数据目录提供基于云的服务,可在其中注册数据源:数据保留在现有位置,但其元数据的副本将连同数据源位置的引用一起添加到数据目录。此元数据还会编制索引,方便通过搜索功能轻松发现每个数据源,并让发现数据源的用户理解该数据源。
注册数据源之后,注册数据源的用户或企业中的其他用户可以充实其元数据。任何用户都可以提供描述、标记或其他元数据(例如请求数据源访问权限的文档和过程)来批注数据源。此描述性元数据可补充从数据源注册的结构化元数据(例如列名和数据类型)。
注册源的主要目的是发现和理解数据源及其用途。 企业用户可能需要用于商业智能、应用程序开发、数据科学或需要正确数据的任何其他任务的数据。 他们可以使用“数据目录发现”体验快速查找符合其需求的数据、了解数据以评估其适用性,并通过在其所选工具中打开数据源来使用数据。
与此同时,用户还可通过对已注册的数据源进行标记、记录和批注来参与目录。用户还可以注册新的数据源,随后目录用户的社区可以发现、了解和使用这些数据源。
DataWorks
- 产品定位:一站式大数据平台,覆盖数据集成、数据管理、数据开发、数据运维、数据服务共享、数据安全、数据质量等大数据生命周期中的各个阶段
- 方法论:Cloud Data Warehouse、流计算
- 目标用户:数据开发者(数据集成、数据开发、数据运维)、数据管理者(数据管理、数据安全、数据质量)、数据使用者(数据管理、数据服务、实时分析)
- 使用方式:Web端
- 部署方式:公有云Serverless、专有云
- 开发语言:SQL、Java(OpenMR)、Python、R等
- 服务等级:公测(数据集成已正式商业化)
- 底层引擎:MaxCompute、Blink。
2.3 产品优劣势对比
Azure Data Factory产品优势
- 严谨的概念模型。抽象了数据处理过程中所有可能的对象和行为,建立了一套自洽的体系和方法论,几乎没有歧义的可能,并易于未来的功能扩展。
- 丰富的生态体系。Data Factory将支持的数据源与处理引擎抽象为Linked Service对象,只是在不同的Activity中支持的Linked Service范围有所差异。根据官方文档,其支持68种不同的Movement数据源,支持8种不同的Transformation处理引擎。
- 统一的用户体验。Data Factory作为一个Azure的“窗口”,与Azure的其他产品在体验上是一致的,甚至不需要新建浏览器窗口或标签页(在一个页面内部可以有多个窗口)。
- 全面支持文本方式操作。所有对象的定义,都通过JSON进行;所有的界面操作,都由对应的Azure Powershell命令。用户完全可以脱离浏览器使用,并通过文本保存自己的劳动成果。
Azure Data Factory产品劣势
- 不支持Activity的在线编辑。没有提供在线编辑器,所有Activity(尤其是Transformation)类型,都需要上传脚本,或定义存储过程,用户体验较差。
- 只支持Pipeline层级的Trigger。也即在Pipeline内部,无法对Activity定义时间要求,只要满足dependOn属性,Activity就会执行。
- 监控能力羸弱。对Pipeline的监控完全依托Azure Monitor,也没有对数据质量的监控。
Azure Data Catalog产品优势
完整的元数据管理企业级方案
Data Catalog沉淀了Azure在企业级数据管理上的经验。Data Catalog与Azure AD集成,便于管理企业组织与人员权限,按照所有权、批注权、注册权、可见性来管理元数据权限,通过术语来规范对资产对象和资产属性的描述。以上这些特效,都适合企业级协作场景的功能,构成了较为完整的解决方案。数据知识共享与管理
Data Catalog不仅管理元数据,还管理元数据相关的知识:
- 针对资产对象可以设置友好名称,便于识别。
- 针对资产对象和资产属性,可以设置注释、Tag或术语。
- 针对资产对象可以设置专家,与人形成关联。
- 针对资产对象编写富文本格式的文档。
- 任何人(有批注权限)皆可编写注释、Tag和术语,形成知识众包。
- Data Profile是亮点功能
在资产对象注册的同时,Data Catalog会收集Data Profile,包含反映数据特征的统计信息,便于用户形成对数据内容的感性认识。
Azure Data Catalog产品劣势
- 在界面交互方面,Data Catalog脱离了Azure控制台,但仍保持了很好的用户体验。整个界面信息量充实,又对初次使用者较为友好,但有几方面限制了新用户的加入:
- 仅对企业或学校Azure账号开放。
- 必须订阅Azure即用即付套餐,虽然Data Catalog本身提供的免费版,但订阅该套餐会使用户失去其他产品的免费使用额度。
- 数据源导入工具必须在Windows 64位版操作系统下运行,MAC OS操作系统用户无法使用。
- Data Catalog相对于Azure其他产品较为独立。在功能上聚焦于数据目录和关联知识的管理,没有与Data Factory形成联动,应用场景较为受限。与其他产品联动的前提,是DataPipeline与其他产品无缝结合,数据传输的延迟足够小,发生兼容性问题的可能性足够低。
2.4 对比结论
综上所述,在数据仓库及数据业务流程领域,DataWorks的优势在于:
- 数据集成:支持流控,支持实时同步。
- 数据开发:强大的在线编辑功能,体验媲美离线IDE。
- 监控运维:支持业务基线监控。
- 数据管理:完整的数据管理功能,更提供分级分类与数据脱敏等独特功能。
- 数据质量:竞品中独有功能。
阿里云 vs Azure-大数据相关推荐
- 电视台成阿里云下一个大数据重塑目标
本文讲的是电视台成阿里云下一个大数据重塑目标,[IT168专稿]继空调之后,电视台成为阿里云计算的下一个大数据重塑目标.3月20日下午,阿里云宣布联手新奥特.华通云数据,打造中国最大的全媒体云计算平台 ...
- 峰哥教你如何在阿里云社区进阶大数据
点击上方 "大数据肌肉猿"关注, 星标一起成长 点击下方链接,进入高质量学习交流群 今日更新| 950个转型案例分享-大数据交流群 前言 我在之前的<峰哥教你如何在B站学大数 ...
- 阿里云MaxCompute(大数据)公开数据集---带你玩转人工智能
摘要: 目前阿里云大数据产品已经免费向全部用户开放了多种公用数据集.开放的数据类别包括:股票价格数据,房产信息,影视及其票房数据. 点此查看原文:http://click.aliyun.com/m/4 ...
- 揭秘阿里云EB级大数据计算引擎MaxCompute
日前,全球权威咨询与服务机构Forrester发布了<The Forrester WaveTM: Cloud Data Warehouse, Q4 2018>报告.这是Forrester ...
- 阿里云MaxCompute(大数据)公开数据集---带你玩转人工智能 1
摘要: 目前阿里云大数据产品已经免费向全部用户开放了多种公用数据集.开放的数据类别包括:股票价格数据,房产信息,影视及其票房数据. 点此查看原文:http://click.aliyun.com/m/4 ...
- 阿里云ACP大数据工程师认证,ACP,阿里云ACP认证,阿里云认证,大数据工程师认证
阿里云ACP大数据工程师认证 先放证书镇楼 ACP认证考试心得 阿里云ACP级专业工程师认证考试不难,只要系统性复习官方文档一次考过其实并不难.大家普遍给出的意见都是要着重复习<阿里云官方文档& ...
- 阿里云堪称贵州大数据产业“合伙人”
已连续举行三届的中国国际大数据博览会昨日在贵阳举行,也使得地处西部的贵州省有了新名片--大数据.这距贵州提出<关于加快信息产业跨越发展的意见>,投身大数据产业不过短短四年多的时间.在这四年 ...
- 一分钟了解阿里云产品:大数据计算服务MaxCompute概述
阿里云发布了许多产品,今天让我们来了解下大数据计算服务MaxCompute这款产品吧. 什么是MaxCompute呢? MaxCompute是由阿里云自主研发,是阿里巴巴自主研发的海量数据处理平台.提 ...
- 作为阿里云年薪500k大数据工程师必须掌握以下三种技能
阿里云 大数据在近几年的发展速度确实超出人们的预料,自2014年3月"大数据"首次出现在<政府工作报告>中以来,国务院常务会议一年内6次提及大数据运用,而且不管是在数博 ...
- odps传大文件到oss上_【大数据干货】数据进入阿里云数加-大数据计算服务MaxCompute(原ODPS)的N种方式...
原文链接:http://click.aliyun.com/m/13946/ 想用阿里云大数据计算服务(MaxCompute),对于大多数人首先碰到的问题就是数据如何迁移到MaxCompute中.按照数 ...
最新文章
- keras 的 example 文件 mnist_transfer_cnn.py 解析
- windows下 Source Monitor代码度量工具的使用
- 受益一生的15个学习习惯
- 43. Multiply Strings 字符串相乘
- php 修改css 不生效,HTML外部引用CSS文件不生效原因分析及解决办法
- 【spring data jpa】spring data jpa 中的update 更新字段,如果原字段值为null不处理,不为null则在原来的值上加一段字符串...
- cudaMemcpyToSymbol使用
- oracle字段去重查询,oracle怎么去重查询
- php与rest的关系,PHP与节点REST-API
- 9 内存模型和名称空间
- ARM指令集 mov指令,ldr=伪指令,地址访问指令ldr,str,位运算指令and,orr,eor,bic,逻辑位移指令lsl,lsr
- IPD解读--华为500强的研发第一名,除了钱还有IPD
- 自监督学习系列(一):基于 Pretext Task
- ppt模板如何更换表格颜色?
- 看了这篇Docker指令详解,网友直呼:我收藏了你呢?
- Java就业方向和自学提升方法总结黑马就业班资源分享
- 2008最强哲理网络语录
- win7 linux终端模拟器,SecureCRT(终端仿真器)
- 安卓系统管理软件_完美解锁版,软件爱好者的福利!
- 《PMBOK 指南第七版》初识