阿里云大数据计算产品包括MaxCompute、E-MapReduce和实时计算(Alibaba Cloud Realtime Compute)。

一、MaxCompute

1、MaxCompute概述

MaxCompute(大数据计算服务)是是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute主要用于实时性要求不高的、批量结构化数据的存储和计算。并可提供大数据分析建模服务。其特点如下:

  • 采用分布式架构高效处理海量数据
  • 基于表的数据存储
  • 于SQL的数据处理
  • 支持多用户协同分析数据,多种权限管理方式,具有灵活的数据访问控制策略
  • 兼容Hive

2、MaxCompute架构

MaxCompute产品整体逻辑结构图

3、MaxCompute功能

  • 数据存储

适用于TB以上规模的存储及计算需求,最大可达EB级别。数据分布式存储,多副本冗余,数据存储对外仅开放表的操作接口,不提供文件系统访问接口。

表数据列式存储,默认高度压缩,后续将提供兼容ORC的Ali-ORC存储格式。

支持外表,将存储在OSS对象存储、OTS表格存储的数据映射为二维表。

支持Partition、Bucket的分区、分桶存储。

底层是盘古文件系统(不是HDFS)。

使用时,存储与计算解耦,不需要仅仅为了存储而扩大不必要的计算资源。

  • 数据通道

TUNNEL:提供高并发的离线数据上传下载服务。支持每天TB/PB级别的数据导入导出。适合于全量数据或历史数据的批量导入。

DataHub:针对实时数据上传的场景,具有延迟低、使用方便的特点,适用于增量数据的导入。Datahub还支持多种数据传输插件,包括Logstash、Flume、Fluentd、Sqoop等。同时支持日志服务Log Service中的日志数据的一键投递至MaxCompute,进而利用大数据开发套件进行日志分析和挖掘。

  • 多种计算模型

SQL:以二维表的形式存储数据,支持多种数据类型,MaxCompute以二维表的形式存储数据,对外提供了SQL查询功能。不支持事务、索引及Update/Delete等操作,SQL语法与Oracle,MySQL等有一定差别。无法在毫秒级别返回结果。

MapReduce:支持MapReduce java编程接口(提供优化增强的MaxCompute MapReduce,也提供高度兼容Hadoop的MapReduce版本)。不暴露文件系统,输入输出都是表。通过MaxCompute客户端工具、Dataworks提交作业。

Graph:是一套面向迭代的图计算处理框架。图计算作业使用图进行建模,图由点(Vertex)和边(Edge)组成,点和边包含权值(Value)。通过迭代对图进行编辑、演化,最终求解出结果,典型应用:PageRank、单源最短距离算法 、K-均值聚类算法等。

  • PyODPS

PyODPS是MaxCompute 的 Python SDK,同时也提供 DataFrame 框架,提供类似 pandas 的语法,能利用 MaxCompute 强大的处理能力来处理超大规模数据。

  • Spark

MaxCompute提供了Spark on MaxCompute的解决方案,在统一的计算资源和数据集权限体系之上,提供Spark计算框架,支持用户以熟悉的开发使用方式提交运行Spark作业。

  • 交互式分析(Lightning)

MaxCompute产品的交互式查询服务。兼容PostgreSQL协议的JDBC/ODBC接口。支持主流BI及SQL客户端工具的连接访问,如Tableau、帆软BI、Navicat、SQL Workbench/J等。

  • 机器学习

MaxCompute内建支持的上百种机器学习算法,MaxCompute的机器学习能力由PAI产品进行统一提供服务,同时PAI提供了深度学习框架、Notebook开发环境、GPU计算资源、模型在线部署的弹性预测服务。PAI产品与MaxCompute在项目和数据方面无缝集成。

  • 安全

MaxCompute是一个多租户的计算平台。默认情况下,各租户间数据不共享,彼此隔离,但用户可以通过MaxCompute提供的授权机制将数据共享给项目组其他人。

二、E-MapReduce

E-MapReduce (EMR) 是构建在阿里云ECS上的开源Hadoop、Spark、HBase、Hive、Flink 生态大数据 PaaS 产品。为用户提供在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、即时查询、机器学习等场景下的大数据解决方案。

E-MapReduce 还可以方便的与阿里云其他的云数据存储系统和数据库系统(如阿里云 OSS、阿里云 RDS 等)进行数据传输。

E-MapReduce 集群基于 Hadoop 的生态环境来搭建,可以跟阿里云的对象存储服务(OSS)进行无缝数据交换。此外,E-MapReduce 集群也可以与云数据库(RDS)等云服务无缝对接,实现数据在多个系统之间的共享和传输,满足不同业务类型的访问需要。

三、实时计算

阿里云实时计算(Alibaba Cloud Realtime Compute,Powered by Ververica)是一套基于Apache Flink构建的一站式、高性能实时大数据处理平台,广泛适用于流式数据处理、离线数据处理、DataLake计算等场景。

  • 在 PB 级别的数据集上可以支持亚秒级别的处理延时;
  • 全链路流计算开发平台,涵盖从数据采集到数据生产,流计算开发严谨可靠;
  • 提供SQL语义的流式数据分析能力(Blink SQL),大幅降低流数据分析门槛;
  • Datalake功能,独享模式支持datalake场景下的数据清洗 、数据分析、数据同步、异构数据源计算等;
  • SQL语言,在线开发,全面支持UDX。

1、数据集采集

广义的实时数据采集指使用流式数据采集工具将数据实时地采集并传输到大数据Pub/Sub(发布订阅)系统。Pub/Sub系统将为下游实时计算提供源源不断的事件源触发流式计算作业的运行。阿里云大数据生态中提供了针对不同场景领域的流式数据Pub/Sub系统。

2、流式计算

流数据作为实时计算的触发源驱动实时计算运行。一个实时计算作业至少使用一个流数据作为数据源。对于复杂的业务场景,实时计算支持和静态数据存储进行关联查询。

3、实时集成

阿里云实时计算可以将计算的结果数据直接写入目的数据存储。阿里云实时计算天然集成了OLTP(RDS产品线等)、NoSQL(OTS等)、OLAP(ADB等)、MessageQueue(DataHub、ONS等)、MassiveStorage(OSS、MaxCompute等)等阿里云生态系统,从而最大程度的降低全链路数据的时延和数据链路的复杂度,保证数据加工的实时性。

4、数据消费

流式计算的结果数据进入各类数据存储后,可以运用个性化的应用操控结果数据。如使用数据存储系统访问数据,使用消息投递系统接收信息,或使用告警系统生成异常结果数据警报。

5、数据链路

部分阿里云生态外部数据存储不能和实时计算系统完全匹配,需使用其它类型流数据进行转换。

  • DataHub

DataHub提供了多类数据(如日志、数据库BinLog、IoT数据流等)上传到DataHub的工具、界面,以及开源、商业软件的集成。

  • LogService

LogService(日志服务)是针对日志类数据的一站式服务。LogService提供了诸多针对日志的采集、消费、投递、查询分析等功能。

  • IoTHub

阿里云物联网平台(IoTHub)是能够帮助开发者搭建安全的数据通道,方便终端(如传感器、执行器、嵌入式设备或智能家电等等)和云端的双向通信。 使用IoTHub规则引擎可以将IoT数据方便投递到DataHub,并利用实时计算和MaxCompute进行数据加工计算。

  • DTS

DTS(数据传输)支持以数据库为核心的结构化存储产品之间的数据传输。DTS是一种集数据迁移、数据订阅及数据实时同步于一体的数据传输服务。使用DTS的数据传输功能,可以方便将RDS等BinLog解析并投递到DataHub,并利用实时计算和MaxCompute进行数据加工计算。

  • MQ

阿里云MQ服务是一套完整的消息云服务。阿里云MQ服务基于高可用分布式集群技术,搭建了包括发布订阅、消息轨迹、资源统计、定时(延时)、监控报警等功能。

华为云大数据存储的冗余方式是三副本_阿里云大数据产品 | 大数据计算相关推荐

  1. 华为云大数据存储的冗余方式是三副本_华为TaurusDB技术解读(转载)

    近日,华为云自研关系型数据库 Taurus 公开亮相.作为华为云自研的最新一代云原生分布式数据库,Taurus 完全兼容 MySQL 8.0,采用计算与存储分离.日志即数据的架构设计,支持 1 写 1 ...

  2. 华为云大数据存储的冗余方式是三副本_揭秘!10+位DBA大神测评华为云DDS增强版实感...

    数据库.操作系统.中间件并称为核心基础软件,在 IT 软件堆栈中起到中流砥柱的作用.今天运行的绝大多数企业应用软件都离不开数据库的支持. 随着移动互联网.物联网.云计算.大数据等新技术爆发式发展,图片 ...

  3. 华为云大数据存储的冗余方式是三副本_大数据显示华为云DDS增强版实感卓越

    数据库.操作系统.中间件并称为核心基础软件,在 IT 软件堆栈中起到中流砥柱的作用.今天运行的绝大多数企业应用软件都离不开数据库的支持. 随着移动互联网.物联网.云计算.大数据等新技术爆发式发展,图片 ...

  4. 华为云大数据存储的冗余方式是三副本_大数据入门:HDFS数据副本存放策略

    大数据处理当中,数据储存始终是一个重要的环节,从现阶段的市场现状来说,以Hadoop为首的大数据技术框架,仍然占据主流地位,而Hadoop的HDFS,在数据存储方面,仍然得到重用.今天的大数据入门分享 ...

  5. 华为云大数据存储的冗余方式是三副本_华为OceanStor分布式存储,引领智能时代大数据创新...

    云+AI的智能时代已经到来,计算存储融合的大数据架构由于存在计算存储不能灵活扩展.不同大数据集群间资源利用率不均且数据无法共享.三副本存储利用率低且无法和AI应用高效联动等问题,已经无法满足云+AI时 ...

  6. 大数据时代时代舍恩伯格书资源_书籍推荐:《大数据时代:生活、工作与思维的大变革》...

    什么是大数据? 大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高 ...

  7. spi的dma方式前四个字节_前嗅教你大数据:常见几种编码介绍

    为什么要编码? 大家可以先思考个问题: 计算机是如何表示我们人类能够理解的符号的,也就是我们人类使用的语言. 人类的语言有太多了,因而表示这些语言的符号太多. 我们无法用计算机中一个基本的存储单元-- ...

  8. 大数据时代时代舍恩伯格书资源_科技翻译练习:大数据(整理了术语表)

    大数据(big data),IT 行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的海量.高增长率和多样化 ...

  9. 大数据之-Hadoop之HDFS的API操作_查看文件的详情---大数据之hadoop工作笔记0061

    recursive 递归的 然后我们再去写代码查看文件详情. 可以看到我们通过上面的代码就可以获取文件的名称权限长度. fs.listFiles(1,,2) 第二个参数true是递归的意思.就是获取所 ...

最新文章

  1. 常用的linux的命令行操作
  2. 论文笔记: Modeling Extreme Events in Time Series Prediction
  3. 如何修改SAP登录界面的文字
  4. jQuery编写插件
  5. Android 开发常见错误
  6. observer 观察者模式
  7. 用matlab画玫瑰花,网上收到的用matlab画玫瑰花的代码怎么不行啊,报告错误,求大神...
  8. Atitit vod click event design flow  视频点播系统点击事件文档
  9. XP框架管理器EdXposed v4.6.2 (46200)
  10. 【高速PCB电路设计】2.高速电路DDR原理图概述
  11. 第二重要极限公式推导过程_土木考研 土力学第八章公式推导
  12. MSN关闭前爆发盗号“高潮” 中国用户面临选择
  13. ICCV2021 | TOOD:任务对齐的单阶段目标检测
  14. UTF-8和utf8的区别
  15. eval函数和repr函数
  16. 图表控件TeeChart安装使用
  17. 过压过流保护芯片完整篇
  18. 常用eclipse快捷键
  19. FME助力新型基础测绘之存量测绘成果数据转换地理实体
  20. 计算机二级office高级应用试题,2016年计算机二级office高级应用练习题

热门文章

  1. 检测不到信号,是加点噪声?还是滤除噪声?
  2. 滑轨声源定向的理论模型与参数估计
  3. php框架全局自定义错误,[TP笔记]ThinkPHP自定义错误页面、成功页面及异常页面
  4. Java 二叉树 前序_java实现二叉树前序中序后序层次遍历
  5. 曲线拟合最小二乘法优缺点_最小二乘法的优缺点
  6. 二叉树层序遍历递归与非递归_总结归纳:二叉树遍历【递归 amp;amp; 非递归】...
  7. hadoop写文件 java_写文件 - Hadoop 学习手册_教程_Java开发社区
  8. 成绩查看_托福网考免费寄送成绩单,掌握这些知识能帮你省不少钱!
  9. 讯飞语音识别_赛诺语音输入法报告 搜狗、讯飞、百度AI语音输入哪家强
  10. 初识Tcl(二):Tcl 数据类型