面向 Azure 专业人员的阿里云

本文讨论 Azure 和 Alibaba Cloud 在其各自的云环境中提供的大数据服务的主要区别和相似之处,本文主要讨论以下服务类型情况和它涵盖以产品:

1. 数据计算

2. 数据业务流程

以下表格列出了 Azure 大数据产品与 Alibaba Cloud 大数据产品的对比。

特性 Azure Alibaba Cloud
数据计算 Azure HDInsight Alibaba Cloud MaxCompute
数据业务流程 Azure Data Factory
Azure Data Catalog
Alibaba Cloud DataWorks

1. 数据计算

对数据进行转换,根据需要对数据进行过滤处理和计算。

1.1 服务对比

Azure HDInsight 与Alibaba Cloud MaxCompute 的特性和术语对应关系如下::

功能分类 Alibaba Cloud MaxCompute Azure HDInsight
数据通道 Tunnel 批量上传下载/基于SDK开发的插件:DTS、Sqoop、Kettle、CLT Kafka
DataHub 实时传输/基于SDK开发的插件:OGG、Flume、LogStash、Flunted
数据存储 文件压缩存储RaidFile机制 默认使用Azure存储中的Blob容器
计算及分析任务 SQL(Hive-like SQL)、UDF 支持
MapReduce 支持
图计算 不支持
非结构化数据处理 支持
Spark 支持
ElasticSearch N/A
BigGraph N/A
系统安全 权限管理模型:
项目空间的用户及授权管理
跨项目空间的资源分享
项目空间的数据保护
项目空间的安全配置
通过 Azure 虚拟网络、加密以及与 Azure Active Directory 集成保护企业数据资产
ACL授权
Policy授权
Package资源分享
LabelSecurity访问控制
开放性/开源生态 API 支持Hadoop、Spark、交互式查询(LLAP)、Kafka、Storm、HBase和ML Services。
SDK:Python、Java
日志导入工具:Fluentd、Flume
客户端:CLT、Studio
开源代码:R、Sqoop、ogg、eclipse、JDBCDriver
最大规模 单集群1W+、可多集群 Hadoop/Hbase集群
弹性伸缩 支持 支持
热升级 支持 N/A
准实时 支持 N/A
高可用 存储、调度系统高可用,无单点故障 HDInsight 群集提供两个头节点

1.2 产品对比概览

Azure HDInsight

Azure HDInsight是Hortonworks Data Platform (HDP)提供的Hadoop组件的云发行版,用于快速且经济有效地处理大量数据。支持Hadoop、Spark、Hive、LLAP、Kafka、Storm、R 等最常用的开源框架,并通过这些框架启用各种各样的方案,例如提取、转换和加载 (ETL)、数据仓库操作、机器学习、IoT。Azure HDInsight是适用于企业的分析服务,具有完全托管、全面且开源的特点。

Alibaba Cloud MaxCompute

Alibaba Cloud MaxCompute 是国内最大的大数据云服务平台,提供海量的数据存储,海量的数据计算,多组织间的数据交换。MaxCompute是Alibaba group自主研发的一套大型的分布式计算系统,MaxCompute支持多集群双活/灾备,用户不用关注基础设施稳定性,而是关注自己的业务内容,MaxCompute本身提供服务的一致性与连续性。Alibab Cloud MaxCompute 提供了一组丰富的大数据开发工具,改进了数据的导入和导出的解决方案,以及各种经典的分布式计算模型,能够更快速的解决海量数据计算问题,有效降低企业成本,并保障数据安全。

1.3 产品优劣势对比

Azure HDInsight产品优势

  • 云原生:可以使用Azure HDInsight在Azure上为Hadoop、Spark、交互式查询 (LLAP)、Kafka、Storm、HBase和  ML Services 创建优化群集,并提供端到端的SLA。
  • 支持弹性扩展:可以通过HDInsight弹性扩展。可以通过创建按需群集来降低成本,按需付费。
  • 安全合规:HDInsight允许通过Azure虚拟网络、加密以及与Azure Active Directory集成来保护企业数据资产。 HDInsight满足常用的行业和政府符合性标准。
  • 监控:Azure HDInsight集成Azure Log Analytics,可以通过单个界面来监视所有群集。
  • 工作效率:Azure HDInsight 允许将各种适用于Hadoop和Spark的高效工具与首选的开发环境配合使用,包括Visual Studio、VSCode、Eclipse 和 IntelliJ,可以提供 Scala、Python、R、Java和.NET支持。
  • 可扩展性:可以使用脚本操作通过安装的组件(Hue、Presto 等)来扩展 HDInsight 群集。

Azure HDInsight产品劣势

Azure HDInsight底层架构基于开源Hadoop、Spark等产品。MaxCompute通过高并发处理和执行计划优化,在CPU-IO 敏感性计算及大数据量Join计算等场景表现更优。在数据量及资源量同比放大情况下,MaxCompute 的计算时间更加稳定, 能够充分利用分配到的计算资源,计算和资源量呈线性关系增长。在相同数据量,相同资源下,相同测试集同等标准情况下,MaxCompute整体表现性能更优。此外,MaxCompute高度产品化,使用门槛低。

1.4 对比结论

综上所述,在数据计算领域,MaxCompute的优势在于:

  • 计算快,性能优
  • 超大规模计算及存储
  • 集多种计算引擎与一身
  • 支持多集群、跨集群计算
  • 大数据集成开发环境
  • 极大的降低企业使用成本
  • 高稳定性和安全性

2. 数据业务流程

对数据进行数据传输、数据转换等相关操作,从不同的数据存储引入数据,对数据进行转化处理,最后将数据提取到其他数据系统,完成整个数据的采集、转换、开发、分析流程。

2.1 服务对比

Azure Data Factory、Azure Data Catalog 与 Alibaba Cloud DataWorks 的特性和术语对应关系如下:

功能分类 特性 Azure Data Factory Azure Data Catalog Alibaba Cloud DataWorks
数据采集 实时采集 不支持 N/A 支持
批量采集 支持 N/A 支持
客户端采集 不支持 N/A 支持
本地数据 支持(部署代理网关) N/A 支持
云数据 支持 N/A 支持
异构数据源 Azure存储、数据库、文件 N/A 支持20多种(RDBMS、NoSQL、MPP、非结构化存储、大数据存储等)
数据管理 搜索发现数据 N/A 支持 支持
捕获元数据 N/A 支持 支持
版本管理 N/A 不支持 不支持
捕获schema变化 N/A 不支持 不支持
自动识别检测 N/A 不支持 不支持
批注/阐述 N/A 支持 不支持
收藏/结构化标签 N/A 支持 不支持
数据血缘 N/A N/A 支持
数据转换开发 自动生成代码 不支持 N/A 不支持
在线编辑 不支持 N/A 支持
版本管理 不支持 N/A 支持
方式 基于计算引擎(HDInsight, Data Lake Analytices U-SQL, Machine Leaning,R) N/A 基于计算引擎(ODPS SQL, SHELL, PAI)
编排及任务调度 触发方式 周期 N/A 周期、API触发
serveless 支持 N/A 支持
自动重跑 支持 N/A 支持
监控告警 监控仪表盘 支持 N/A 支持
告警 支持 N/A 支持
数据质量 离线监控 不支持 不支持 支持
在线监控 不支持 不支持 支持
自定义监控规则 不支持 不支持 支持
开放性 API 支持 支持 支持
SDK 支持 支持 不支持

2.2 产品对比概览

Azure Data Factory

Azure的数据集成开发工具Data Factory上线已久,集合了数据集成、数据开发、任务监控等功能。2017年下半年,Data Factory发布V2版本,重构了功能模型,新增了可视化拖拽编辑、复杂流程控制,加强了任务监控功能,在复杂场景的胜任能力以及用户体验方面有长足进步。
Azure Data Factory是基于云的数据集成服务,用于在云中创建数据驱动型工作流,以便协调和自动完成数据移动和数据转换。使用 Azure Data Factory可执行以下任务:

  • 创建和计划数据驱动型工作流(称为管道),以便从不同的数据存储引入数据。
  • 使用计算服务(例如 Azure HDInsight Hadoop、Spark、Azure Data Lake Analytics、Azure 机器学习)处理或转换数据。
  • 将输出数据发布到数据存储(例如 Azure SQL 数据仓库),供商业智能 (BI) 应用程序使用。

Azure Data Catalog

Azure Data Catalog(数据目录)旨在帮助企业充分利用现有的信息资产。数据目录可帮助管理数据的用户更轻松地发现和理解数据源,数据目录提供基于云的服务,可在其中注册数据源:数据保留在现有位置,但其元数据的副本将连同数据源位置的引用一起添加到数据目录。此元数据还会编制索引,方便通过搜索功能轻松发现每个数据源,并让发现数据源的用户理解该数据源。
注册数据源之后,注册数据源的用户或企业中的其他用户可以充实其元数据。任何用户都可以提供描述、标记或其他元数据(例如请求数据源访问权限的文档和过程)来批注数据源。此描述性元数据可补充从数据源注册的结构化元数据(例如列名和数据类型)。
注册源的主要目的是发现和理解数据源及其用途。 企业用户可能需要用于商业智能、应用程序开发、数据科学或需要正确数据的任何其他任务的数据。 他们可以使用“数据目录发现”体验快速查找符合其需求的数据、了解数据以评估其适用性,并通过在其所选工具中打开数据源来使用数据。
与此同时,用户还可通过对已注册的数据源进行标记、记录和批注来参与目录。用户还可以注册新的数据源,随后目录用户的社区可以发现、了解和使用这些数据源。

DataWorks

  • 产品定位:一站式大数据平台,覆盖数据集成、数据管理、数据开发、数据运维、数据服务共享、数据安全、数据质量等大数据生命周期中的各个阶段
  • 方法论:Cloud Data Warehouse、流计算
  • 目标用户:数据开发者(数据集成、数据开发、数据运维)、数据管理者(数据管理、数据安全、数据质量)、数据使用者(数据管理、数据服务、实时分析)
  • 使用方式:Web端
  • 部署方式:公有云Serverless、专有云
  • 开发语言:SQL、Java(OpenMR)、Python、R等
  • 服务等级:公测(数据集成已正式商业化)
  • 底层引擎:MaxCompute、Blink。

2.3 产品优劣势对比

Azure Data Factory产品优势

  • 严谨的概念模型。抽象了数据处理过程中所有可能的对象和行为,建立了一套自洽的体系和方法论,几乎没有歧义的可能,并易于未来的功能扩展。
  • 丰富的生态体系。Data Factory将支持的数据源与处理引擎抽象为Linked Service对象,只是在不同的Activity中支持的Linked Service范围有所差异。根据官方文档,其支持68种不同的Movement数据源,支持8种不同的Transformation处理引擎。
  • 统一的用户体验。Data Factory作为一个Azure的“窗口”,与Azure的其他产品在体验上是一致的,甚至不需要新建浏览器窗口或标签页(在一个页面内部可以有多个窗口)。
  • 全面支持文本方式操作。所有对象的定义,都通过JSON进行;所有的界面操作,都由对应的Azure Powershell命令。用户完全可以脱离浏览器使用,并通过文本保存自己的劳动成果。

Azure Data Factory产品劣势

  • 不支持Activity的在线编辑。没有提供在线编辑器,所有Activity(尤其是Transformation)类型,都需要上传脚本,或定义存储过程,用户体验较差。
  • 只支持Pipeline层级的Trigger。也即在Pipeline内部,无法对Activity定义时间要求,只要满足dependOn属性,Activity就会执行。
  • 监控能力羸弱。对Pipeline的监控完全依托Azure Monitor,也没有对数据质量的监控。

Azure Data Catalog产品优势

  • 完整的元数据管理企业级方案
    Data Catalog沉淀了Azure在企业级数据管理上的经验。Data Catalog与Azure AD集成,便于管理企业组织与人员权限,按照所有权、批注权、注册权、可见性来管理元数据权限,通过术语来规范对资产对象和资产属性的描述。以上这些特效,都适合企业级协作场景的功能,构成了较为完整的解决方案。

  • 数据知识共享与管理
    Data Catalog不仅管理元数据,还管理元数据相关的知识:

  1. 针对资产对象可以设置友好名称,便于识别。
  2. 针对资产对象和资产属性,可以设置注释、Tag或术语。
  3. 针对资产对象可以设置专家,与人形成关联。
  4. 针对资产对象编写富文本格式的文档。
  5. 任何人(有批注权限)皆可编写注释、Tag和术语,形成知识众包。
  • Data Profile是亮点功能
    在资产对象注册的同时,Data Catalog会收集Data Profile,包含反映数据特征的统计信息,便于用户形成对数据内容的感性认识。

Azure Data Catalog产品劣势

  • 在界面交互方面,Data Catalog脱离了Azure控制台,但仍保持了很好的用户体验。整个界面信息量充实,又对初次使用者较为友好,但有几方面限制了新用户的加入:
  1. 仅对企业或学校Azure账号开放。
  2. 必须订阅Azure即用即付套餐,虽然Data Catalog本身提供的免费版,但订阅该套餐会使用户失去其他产品的免费使用额度。
  3. 数据源导入工具必须在Windows 64位版操作系统下运行,MAC OS操作系统用户无法使用。
  • Data Catalog相对于Azure其他产品较为独立。在功能上聚焦于数据目录和关联知识的管理,没有与Data Factory形成联动,应用场景较为受限。与其他产品联动的前提,是DataPipeline与其他产品无缝结合,数据传输的延迟足够小,发生兼容性问题的可能性足够低。

2.4 对比结论

综上所述,在数据仓库及数据业务流程领域,DataWorks的优势在于:

  • 数据集成:支持流控,支持实时同步。
  • 数据开发:强大的在线编辑功能,体验媲美离线IDE。
  • 监控运维:支持业务基线监控。
  • 数据管理:完整的数据管理功能,更提供分级分类与数据脱敏等独特功能。
  • 数据质量:竞品中独有功能。

阿里云 vs Azure-大数据相关推荐

  1. 电视台成阿里云下一个大数据重塑目标

    本文讲的是电视台成阿里云下一个大数据重塑目标,[IT168专稿]继空调之后,电视台成为阿里云计算的下一个大数据重塑目标.3月20日下午,阿里云宣布联手新奥特.华通云数据,打造中国最大的全媒体云计算平台 ...

  2. 峰哥教你如何在阿里云社区进阶大数据

    点击上方 "大数据肌肉猿"关注, 星标一起成长 点击下方链接,进入高质量学习交流群 今日更新| 950个转型案例分享-大数据交流群 前言 我在之前的<峰哥教你如何在B站学大数 ...

  3. 阿里云MaxCompute(大数据)公开数据集---带你玩转人工智能

    摘要: 目前阿里云大数据产品已经免费向全部用户开放了多种公用数据集.开放的数据类别包括:股票价格数据,房产信息,影视及其票房数据. 点此查看原文:http://click.aliyun.com/m/4 ...

  4. 揭秘阿里云EB级大数据计算引擎MaxCompute

    日前,全球权威咨询与服务机构Forrester发布了<The Forrester WaveTM: Cloud Data Warehouse, Q4 2018>报告.这是Forrester ...

  5. 阿里云MaxCompute(大数据)公开数据集---带你玩转人工智能 1

    摘要: 目前阿里云大数据产品已经免费向全部用户开放了多种公用数据集.开放的数据类别包括:股票价格数据,房产信息,影视及其票房数据. 点此查看原文:http://click.aliyun.com/m/4 ...

  6. 阿里云ACP大数据工程师认证,ACP,阿里云ACP认证,阿里云认证,大数据工程师认证

    阿里云ACP大数据工程师认证 先放证书镇楼 ACP认证考试心得 阿里云ACP级专业工程师认证考试不难,只要系统性复习官方文档一次考过其实并不难.大家普遍给出的意见都是要着重复习<阿里云官方文档& ...

  7. 阿里云堪称贵州大数据产业“合伙人”

    已连续举行三届的中国国际大数据博览会昨日在贵阳举行,也使得地处西部的贵州省有了新名片--大数据.这距贵州提出<关于加快信息产业跨越发展的意见>,投身大数据产业不过短短四年多的时间.在这四年 ...

  8. 一分钟了解阿里云产品:大数据计算服务MaxCompute概述

    阿里云发布了许多产品,今天让我们来了解下大数据计算服务MaxCompute这款产品吧. 什么是MaxCompute呢? MaxCompute是由阿里云自主研发,是阿里巴巴自主研发的海量数据处理平台.提 ...

  9. 作为阿里云年薪500k大数据工程师必须掌握以下三种技能

    阿里云 大数据在近几年的发展速度确实超出人们的预料,自2014年3月"大数据"首次出现在<政府工作报告>中以来,国务院常务会议一年内6次提及大数据运用,而且不管是在数博 ...

  10. odps传大文件到oss上_【大数据干货】数据进入阿里云数加-大数据计算服务MaxCompute(原ODPS)的N种方式...

    原文链接:http://click.aliyun.com/m/13946/ 想用阿里云大数据计算服务(MaxCompute),对于大多数人首先碰到的问题就是数据如何迁移到MaxCompute中.按照数 ...

最新文章

  1. keras 的 example 文件 mnist_transfer_cnn.py 解析
  2. windows下 Source Monitor代码度量工具的使用
  3. 受益一生的15个学习习惯
  4. 43. Multiply Strings 字符串相乘
  5. php 修改css 不生效,HTML外部引用CSS文件不生效原因分析及解决办法
  6. 【spring data jpa】spring data jpa 中的update 更新字段,如果原字段值为null不处理,不为null则在原来的值上加一段字符串...
  7. cudaMemcpyToSymbol使用
  8. oracle字段去重查询,oracle怎么去重查询
  9. php与rest的关系,PHP与节点REST-API
  10. 9 内存模型和名称空间
  11. ARM指令集 mov指令,ldr=伪指令,地址访问指令ldr,str,位运算指令and,orr,eor,bic,逻辑位移指令lsl,lsr
  12. IPD解读--华为500强的研发第一名,除了钱还有IPD
  13. 自监督学习系列(一):基于 Pretext Task
  14. ppt模板如何更换表格颜色?
  15. 看了这篇Docker指令详解,网友直呼:我收藏了你呢?
  16. Java就业方向和自学提升方法总结黑马就业班资源分享
  17. 2008最强哲理网络语录
  18. win7 linux终端模拟器,SecureCRT(终端仿真器)
  19. 安卓系统管理软件_完美解锁版,软件爱好者的福利!
  20. 《PMBOK 指南第七版》初识

热门文章

  1. kuma相关istio
  2. 网络正常且开启了代理Chrome不能正常上网的解决方法
  3. 计算机设备管理cmd命令,打开设备管理器的命令,教你一分钟学会最简单
  4. 【原创】新韭菜日记20---在国内股市亏钱的最大原因就是杠杆和割肉
  5. java编写投票功能需求分析
  6. IT大学生成长周报 | 第 4 期
  7. Elasticsearch安全认证
  8. 预测股票涨跌看什么指标,如何预测明天股票走势
  9. 四级网络工程师笔记-计算机网络(下)
  10. Django前后端分离概念解析