阿里云 vs Azure-大数据

面向 Azure 专业人员的阿里云

本文讨论 Azure 和 Alibaba Cloud 在其各自的云环境中提供的大数据服务的主要区别和相似之处，本文主要讨论以下服务类型情况和它涵盖以产品:

1. 数据计算

2. 数据业务流程

以下表格列出了 Azure 大数据产品与 Alibaba Cloud 大数据产品的对比。

特性	Azure	Alibaba Cloud
数据计算	Azure HDInsight	Alibaba Cloud MaxCompute
数据业务流程	Azure Data Factory Azure Data Catalog	Alibaba Cloud DataWorks

1. 数据计算

对数据进行转换，根据需要对数据进行过滤处理和计算。

1.1 服务对比

Azure HDInsight 与Alibaba Cloud MaxCompute 的特性和术语对应关系如下：：

功能分类	Alibaba Cloud MaxCompute	Azure HDInsight
数据通道	Tunnel 批量上传下载/基于SDK开发的插件：DTS、Sqoop、Kettle、CLT	Kafka
数据通道	DataHub 实时传输/基于SDK开发的插件：OGG、Flume、LogStash、Flunted	Kafka
数据存储	文件压缩存储RaidFile机制	默认使用Azure存储中的Blob容器
计算及分析任务	SQL（Hive-like SQL）、UDF	支持
	MapReduce	支持
	图计算	不支持
	非结构化数据处理	支持
	Spark	支持
	ElasticSearch	N/A
	BigGraph	N/A
系统安全	权限管理模型：项目空间的用户及授权管理跨项目空间的资源分享项目空间的数据保护项目空间的安全配置	通过 Azure 虚拟网络、加密以及与 Azure Active Directory 集成保护企业数据资产
	ACL授权
	Policy授权
	Package资源分享
	LabelSecurity访问控制
开放性/开源生态	API	支持Hadoop、Spark、交互式查询(LLAP)、Kafka、Storm、HBase和ML Services。
	SDK：Python、Java
	日志导入工具：Fluentd、Flume
	客户端：CLT、Studio
	开源代码：R、Sqoop、ogg、eclipse、JDBCDriver
最大规模	单集群1W+、可多集群	Hadoop/Hbase集群
弹性伸缩	支持	支持
热升级	支持	N/A
准实时	支持	N/A
高可用	存储、调度系统高可用，无单点故障	HDInsight 群集提供两个头节点

1.2 产品对比概览

Azure HDInsight

Azure HDInsight是Hortonworks Data Platform (HDP)提供的Hadoop组件的云发行版,用于快速且经济有效地处理大量数据。支持Hadoop、Spark、Hive、LLAP、Kafka、Storm、R 等最常用的开源框架，并通过这些框架启用各种各样的方案，例如提取、转换和加载 (ETL)、数据仓库操作、机器学习、IoT。Azure HDInsight是适用于企业的分析服务，具有完全托管、全面且开源的特点。

Alibaba Cloud MaxCompute

Alibaba Cloud MaxCompute 是国内最大的大数据云服务平台，提供海量的数据存储，海量的数据计算，多组织间的数据交换。MaxCompute是Alibaba group自主研发的一套大型的分布式计算系统，MaxCompute支持多集群双活/灾备，用户不用关注基础设施稳定性，而是关注自己的业务内容，MaxCompute本身提供服务的一致性与连续性。Alibab Cloud MaxCompute 提供了一组丰富的大数据开发工具，改进了数据的导入和导出的解决方案，以及各种经典的分布式计算模型，能够更快速的解决海量数据计算问题，有效降低企业成本，并保障数据安全。

1.3 产品优劣势对比

Azure HDInsight产品优势

云原生：可以使用Azure HDInsight在Azure上为Hadoop、Spark、交互式查询 (LLAP)、Kafka、Storm、HBase和  ML Services 创建优化群集，并提供端到端的SLA。
支持弹性扩展：可以通过HDInsight弹性扩展。可以通过创建按需群集来降低成本，按需付费。
安全合规：HDInsight允许通过Azure虚拟网络、加密以及与Azure Active Directory集成来保护企业数据资产。 HDInsight满足常用的行业和政府符合性标准。
监控：Azure HDInsight集成Azure Log Analytics，可以通过单个界面来监视所有群集。
工作效率：Azure HDInsight 允许将各种适用于Hadoop和Spark的高效工具与首选的开发环境配合使用，包括Visual Studio、VSCode、Eclipse 和 IntelliJ，可以提供 Scala、Python、R、Java和.NET支持。
可扩展性：可以使用脚本操作通过安装的组件（Hue、Presto 等）来扩展 HDInsight 群集。

Azure HDInsight产品劣势

Azure HDInsight底层架构基于开源Hadoop、Spark等产品。MaxCompute通过高并发处理和执行计划优化，在CPU-IO 敏感性计算及大数据量Join计算等场景表现更优。在数据量及资源量同比放大情况下，MaxCompute 的计算时间更加稳定，能够充分利用分配到的计算资源，计算和资源量呈线性关系增长。在相同数据量，相同资源下，相同测试集同等标准情况下，MaxCompute整体表现性能更优。此外，MaxCompute高度产品化，使用门槛低。

1.4 对比结论

综上所述，在数据计算领域，MaxCompute的优势在于：

计算快，性能优
超大规模计算及存储
集多种计算引擎与一身
支持多集群、跨集群计算
大数据集成开发环境
极大的降低企业使用成本
高稳定性和安全性

2. 数据业务流程

对数据进行数据传输、数据转换等相关操作，从不同的数据存储引入数据，对数据进行转化处理，最后将数据提取到其他数据系统，完成整个数据的采集、转换、开发、分析流程。

2.1 服务对比

Azure Data Factory、Azure Data Catalog 与 Alibaba Cloud DataWorks 的特性和术语对应关系如下：

功能分类	特性	Azure Data Factory	Azure Data Catalog	Alibaba Cloud DataWorks
数据采集	实时采集	不支持	N/A	支持
	批量采集	支持	N/A	支持
	客户端采集	不支持	N/A	支持
	本地数据	支持(部署代理网关)	N/A	支持
	云数据	支持	N/A	支持
	异构数据源	Azure存储、数据库、文件	N/A	支持20多种（RDBMS、NoSQL、MPP、非结构化存储、大数据存储等）
数据管理	搜索发现数据	N/A	支持	支持
	捕获元数据	N/A	支持	支持
	版本管理	N/A	不支持	不支持
	捕获schema变化	N/A	不支持	不支持
	自动识别检测	N/A	不支持	不支持
	批注/阐述	N/A	支持	不支持
	收藏/结构化标签	N/A	支持	不支持
	数据血缘	N/A	N/A	支持
数据转换开发	自动生成代码	不支持	N/A	不支持
	在线编辑	不支持	N/A	支持
	版本管理	不支持	N/A	支持
	方式	基于计算引擎（HDInsight, Data Lake Analytices U-SQL, Machine Leaning,R）	N/A	基于计算引擎(ODPS SQL, SHELL, PAI)
编排及任务调度	触发方式	周期	N/A	周期、API触发
	serveless	支持	N/A	支持
	自动重跑	支持	N/A	支持
监控告警	监控仪表盘	支持	N/A	支持
监控告警	告警	支持	N/A	支持
数据质量	离线监控	不支持	不支持	支持
	在线监控	不支持	不支持	支持
	自定义监控规则	不支持	不支持	支持
开放性	API	支持	支持	支持
开放性	SDK	支持	支持	不支持

2.2 产品对比概览

Azure Data Factory

Azure的数据集成开发工具Data Factory上线已久，集合了数据集成、数据开发、任务监控等功能。2017年下半年，Data Factory发布V2版本，重构了功能模型，新增了可视化拖拽编辑、复杂流程控制，加强了任务监控功能，在复杂场景的胜任能力以及用户体验方面有长足进步。
Azure Data Factory是基于云的数据集成服务，用于在云中创建数据驱动型工作流，以便协调和自动完成数据移动和数据转换。使用 Azure Data Factory可执行以下任务：

创建和计划数据驱动型工作流（称为管道），以便从不同的数据存储引入数据。
使用计算服务（例如 Azure HDInsight Hadoop、Spark、Azure Data Lake Analytics、Azure 机器学习）处理或转换数据。
将输出数据发布到数据存储（例如 Azure SQL 数据仓库），供商业智能 (BI) 应用程序使用。

Azure Data Catalog

Azure Data Catalog（数据目录）旨在帮助企业充分利用现有的信息资产。数据目录可帮助管理数据的用户更轻松地发现和理解数据源，数据目录提供基于云的服务，可在其中注册数据源：数据保留在现有位置，但其元数据的副本将连同数据源位置的引用一起添加到数据目录。此元数据还会编制索引，方便通过搜索功能轻松发现每个数据源，并让发现数据源的用户理解该数据源。
注册数据源之后，注册数据源的用户或企业中的其他用户可以充实其元数据。任何用户都可以提供描述、标记或其他元数据（例如请求数据源访问权限的文档和过程）来批注数据源。此描述性元数据可补充从数据源注册的结构化元数据（例如列名和数据类型）。
注册源的主要目的是发现和理解数据源及其用途。企业用户可能需要用于商业智能、应用程序开发、数据科学或需要正确数据的任何其他任务的数据。他们可以使用“数据目录发现”体验快速查找符合其需求的数据、了解数据以评估其适用性，并通过在其所选工具中打开数据源来使用数据。
与此同时，用户还可通过对已注册的数据源进行标记、记录和批注来参与目录。用户还可以注册新的数据源，随后目录用户的社区可以发现、了解和使用这些数据源。

DataWorks

产品定位：一站式大数据平台，覆盖数据集成、数据管理、数据开发、数据运维、数据服务共享、数据安全、数据质量等大数据生命周期中的各个阶段
方法论：Cloud Data Warehouse、流计算
目标用户：数据开发者（数据集成、数据开发、数据运维）、数据管理者（数据管理、数据安全、数据质量）、数据使用者（数据管理、数据服务、实时分析）
使用方式：Web端
部署方式：公有云Serverless、专有云
开发语言：SQL、Java（OpenMR）、Python、R等
服务等级：公测（数据集成已正式商业化）
底层引擎：MaxCompute、Blink。

2.3 产品优劣势对比

Azure Data Factory产品优势

严谨的概念模型。抽象了数据处理过程中所有可能的对象和行为，建立了一套自洽的体系和方法论，几乎没有歧义的可能，并易于未来的功能扩展。
丰富的生态体系。Data Factory将支持的数据源与处理引擎抽象为Linked Service对象，只是在不同的Activity中支持的Linked Service范围有所差异。根据官方文档，其支持68种不同的Movement数据源，支持8种不同的Transformation处理引擎。
统一的用户体验。Data Factory作为一个Azure的“窗口”，与Azure的其他产品在体验上是一致的，甚至不需要新建浏览器窗口或标签页（在一个页面内部可以有多个窗口）。
全面支持文本方式操作。所有对象的定义，都通过JSON进行；所有的界面操作，都由对应的Azure Powershell命令。用户完全可以脱离浏览器使用，并通过文本保存自己的劳动成果。

Azure Data Factory产品劣势

不支持Activity的在线编辑。没有提供在线编辑器，所有Activity（尤其是Transformation）类型，都需要上传脚本，或定义存储过程，用户体验较差。
只支持Pipeline层级的Trigger。也即在Pipeline内部，无法对Activity定义时间要求，只要满足dependOn属性，Activity就会执行。
监控能力羸弱。对Pipeline的监控完全依托Azure Monitor，也没有对数据质量的监控。

Azure Data Catalog产品优势

完整的元数据管理企业级方案
Data Catalog沉淀了Azure在企业级数据管理上的经验。Data Catalog与Azure AD集成，便于管理企业组织与人员权限,按照所有权、批注权、注册权、可见性来管理元数据权限,通过术语来规范对资产对象和资产属性的描述。以上这些特效，都适合企业级协作场景的功能，构成了较为完整的解决方案。
数据知识共享与管理
Data Catalog不仅管理元数据，还管理元数据相关的知识：

针对资产对象可以设置友好名称，便于识别。
针对资产对象和资产属性，可以设置注释、Tag或术语。
针对资产对象可以设置专家，与人形成关联。
针对资产对象编写富文本格式的文档。
任何人（有批注权限）皆可编写注释、Tag和术语，形成知识众包。

Data Profile是亮点功能
在资产对象注册的同时，Data Catalog会收集Data Profile，包含反映数据特征的统计信息，便于用户形成对数据内容的感性认识。

Azure Data Catalog产品劣势

在界面交互方面，Data Catalog脱离了Azure控制台，但仍保持了很好的用户体验。整个界面信息量充实，又对初次使用者较为友好，但有几方面限制了新用户的加入：

仅对企业或学校Azure账号开放。
必须订阅Azure即用即付套餐，虽然Data Catalog本身提供的免费版，但订阅该套餐会使用户失去其他产品的免费使用额度。
数据源导入工具必须在Windows 64位版操作系统下运行，MAC OS操作系统用户无法使用。

Data Catalog相对于Azure其他产品较为独立。在功能上聚焦于数据目录和关联知识的管理，没有与Data Factory形成联动，应用场景较为受限。与其他产品联动的前提，是DataPipeline与其他产品无缝结合，数据传输的延迟足够小，发生兼容性问题的可能性足够低。

2.4 对比结论

综上所述，在数据仓库及数据业务流程领域，DataWorks的优势在于：

数据集成：支持流控，支持实时同步。
数据开发：强大的在线编辑功能，体验媲美离线IDE。
监控运维：支持业务基线监控。
数据管理：完整的数据管理功能，更提供分级分类与数据脱敏等独特功能。
数据质量：竞品中独有功能。