文章目录

  • MaxCompute简介:
    • ODPS概念:
    • MaxCompute作用:
    • MaxCompute功能组成:
    • MaxCompute组件:
  • MaxCompute基本概念:
    • 项目空间:
    • 表:
      • 表格类型:
    • 分区:
      • 分区的作用:
    • 任务:
    • 资源:
    • 服务连接:
    • 大数据计算服务组成架构:
      • 客户端:
      • 接入层:
      • 逻辑层:

MaxCompute简介:

ODPS概念:

大数据计算服务是一种快速,完全托管TB/PB级数据仓库解决方案。

MaxCompute作用:

  • 批量结构化数据的存储和计算
  • 提供海量数据仓库和大数据分析建模解决方案

MaxCompute功能组成:

MaxCompute组件:

【数据通道】:

  • Tunnel:

提供高并发的离线数据上传下载服务

用户可以使用Tunnel服务向MaxCompute批量上传或下载数据。

【计算及分析任务】:

  • SQL:

MaxCompute以表的形式存储数据,并对外提供SQL查询

PS: MaxCompute SQL 不支持事务,索引及Update/Delete 等操作

  • MapReduce:

Google 提出的分布式数据处理模型

MaxCompute MapReduce 为 用户提供 Java 编程接口。

  • Graph:

MaxCompute 提供的 Graph 功能是一套面向迭代的图计算处理框架。

图计算作业 使用图进行建模,图由点(Vertex)和边(Edge)组成,点和边包含权值(Value)。通过迭代对图进行编辑、演化,最终求解出结果。

**典型应用:**PageRank,单源最短距离算法 ,K-均值聚类算法 等等。

MaxCompute基本概念:

项目空间:

Project是MaxCompute的基本组织单元,类似传统RDBMS的database,是进行多用户隔离和访问控制的主要边界。

  • 用户可以拥有多个Project
  • 可以在一个project中访问另外一个project的对象
use my_project --进入某个项目空间

表:

MaxCompute的存储单元

表格类型:

  • 内部表:

    所有数据都被存储在MaxCompute中

  • 外部表:

    MaxCompute并不真正持有数据,表数据存在OSS中,MC紧急炉元数据信息。

    处理外部表数据流程

    1. 将数据上传至OSS
    2. 在RAM产品中授予MaxCompute服务OSS数据权限
    3. 自定义Extractor:用于读取OSS上的特殊格式数据。默认csv
    4. 创建外部表
    5. 执行SQL作业分析数据

    PS:MC仅支持读外部表,不支持写外部表

分区:

创建表时指定分区空间–指定表内某几个字段作为分区列。

分区的作用:

  • 避免全表扫描,提高处理效率
create table src(keystring,value bigint
)
partitionedby(ptstring);
-- 目前,MaxCompute 仅承诺 String类型分区

任务:

MaxCompute的基本计算单元

对于用户提交的大多数任务,特别是计算型任务,例如:SQL DML语句,MapReduce等, MaxCompute 会对其进行解析,得出任务的执行计划。执行计划是由具有依赖关系的多个执行阶段(Stage)构成的。

部分MaxCompute任务并不是计算型任务,如SQL中的DDL语句,这些任务本质上仅需要读取,修改MaxCompute中元数据信息,这些任务无法解析出执行计划。

资源:

MaxCompute特有概念。

用户如果想使用 MaxCompute的 自定义函数(UDF)MapReduce 功能需要依赖资源来完成

MaxCompute 资源类型包括:

  1. File类型:
  2. Table类型:MaxCompute中的表
  3. Jar类型:编译好的java jar包
  4. Archive类型:通过资源名称中的后缀识别压缩类型.zip/.tgz/tar.gz/.tar/jar

服务连接:

在公网条件下,不同Region的用户均可以通过如两个连接访问MaxCompute:

service.odps.aliyun.com----MaxCompute服务连接地址

dt.odps.aliyun.com----Tunnel服务连接地址

在经典网络及VPC环境下,不同Region的用户通过如下连接访问服务:

odps-ext.aliyun-inc.com----MaxCompute服务连接地址

dt-ext.nu16.odps.aliyun-inc.com 在华北2区访问 Tunnel的连接地址

dt-ext.eu13.odps.aliyun-inc.com 在华东2区访问 Tunnel的连接地址

大数据计算服务组成架构:

客户端—接入层—逻辑层—计算层

客户端:

ODPS以RESTful API 方式对外提供服务,用户可以通过不同的方式来使用ODPS的服务,直接通过RESTful API–请求访问,ODPS SDK ODPS CLTJAVA集成开发环境管理控制台R语言集成开发环境,是的用户可以基于自己的IDE开发。

接入层:

逻辑层:

请求处理器:Worker

  • 处理所有的RESTful请求
  • 本地处理一些作业
  • 提交分布式作业给调度器

本地能处理的作业:

​ – 用户空间,表,资源,任务等管理

需要提交给调度器的作业:

​ – SQL,MR等分布式计算的任务

调度器:Scheduler

  • 负责Instance调度
  • 查询计算集群的资源情况

Instance调度处理:

  • 维护一个Instance列表
  • 把Instance分解成Task
  • 生成Task的工作流(DAG图)
  • 把可运行Task放到TaskPool中
  • 定时对该优先级队列进行排序

作业执行管理器:Executor

  • 向TaskPool申请Task
  • 生成任务描述文件提交给计算层
  • 监控并反馈状态给调度器

作业执行器的运行细节:

  • 判断自身资源是否充足
  • 主动轮询TaskPool,请求下一个Task
  • 生成计算层的分布式作业描述文件,提交给计算层
  • 监控这些任务的运行状态
  • 定时把状态汇报给调度器

阿里云产品 系列(一)MaxCompute简介与使用--上相关推荐

  1. 阿里云产品头条(2017年12月刊)

    摘要: 一.新产品发布1.云防火墙 商业化 发布云防火墙是一款云环境下的防火墙产品,首创了基于业务可视的结果,实现业务梳理和业务隔离的技术.适用于互联网/通用/游戏/金融/新零售/专用云等行业客户.产 ...

  2. 秒懂云通信:短信也能玩出新花样?听阿里云产品运营畅聊“智能消息”服务

    简介:为了帮助用户更好地了解和使用云通信的产品,秒懂云通信系列直播开课啦!第二期的首节课程中,阿里云产品运营胡超分享了<畅聊阿里云通信智能消息服务>议题,手把手教你玩转阿里云通信短信服务的 ...

  3. 【云计算】阿里云产品全景图

    2016阿里云93款产品全向图(6月制) 身行  2016-06-07 11:20:37 浏览8964 评论3 阿里云 全向图 摘要: 为了能一目了然知道阿里云产品和服务,并可以依照IT系统发展脉络理 ...

  4. 阿里云产品汇总及解释

    阿里云产品汇总及解释 1. 场景描述 最近博客更新的少,跟朋友一起做些事情,最近主要给朋友做些售前工作,阿里云的产品线是真多,好多英文缩写,需要做沟通,系统汇总了一下,记录下,有需要的朋友拿走不谢. ...

  5. 短信也能玩出新花样?听阿里云产品运营畅聊“智能消息”服务

    为了帮助用户更好地了解和使用云通信的产品,秒懂云通信系列直播开课啦!第二期的首节课程中,阿里云产品运营胡超分享了<畅聊阿里云通信智能消息服务>议题,手把手教你玩转阿里云通信短信服务的创新业 ...

  6. 一分钟了解阿里云产品:高性能计算HPC

    2019独角兽企业重金招聘Python工程师标准>>> 概述 阿里云发布了许许许多多的产品,今天就让我们一起来了解下高性能计算 HPC (AliCloud HPC)吧. 关于阿里云高 ...

  7. 【阿里云产品公测】高大上的搜索服务OpenSearch, 你值得拥有!

    2019独角兽企业重金招聘Python工程师标准>>> [阿里云产品公测]高大上的搜索服务OpenSearch, 你值得拥有! 作者:阿里云用户trcher 一.前言:  在Open ...

  8. 阿里巴巴副总裁陈丽娟:我对阿里云产品生态的思考 | 云原生加速器观点

    3 月 3 日 - 4 日,由阿里云云原生应用平台.阿里云加速器.阿里巴巴战略投资共同举办的云原生加速器第一期路演在杭州举行.阿里云云原生加速器是国内云原生领域赋能加速组织,自 2021 年 11 月 ...

  9. 【阿里云产品公测】大数据下精确快速搜索OpenSearch

    2019独角兽企业重金招聘Python工程师标准>>> [阿里云产品公测]大数据下精确快速搜索OpenSearch 作者:阿里云用户小柒2012 相信做过一两个项目的人都会遇到上级要 ...

最新文章

  1. mysql数据库唯一性_mysql表的字段怎么设置唯一性
  2. Exchange安装
  3. vb.net2019- 串口serial port通信
  4. 2019蓝桥杯省赛b组
  5. 无监督学习和监督学习的区别
  6. Reducing the Dimensionality of Data with Neural Networks:神经网络用于降维
  7. vue seo关键词设置_SEO关键词优化排名的几个技巧
  8. 算法题:输入一个表示整数的字符串,把该字符串转换成整数并输出。例如输入字符串“12345”,则输出整数“12345”
  9. 互联网晚报 | 12月11日 星期六 | 极兔正式入股百世快递;全球首颗云原生卫星诞生;紫光集团重组战略投资者确定...
  10. php __call实现多继承,php如何使用_call实现多继承(代码示例)
  11. Power BI 与企业数据安全
  12. 最方便的办法下载bilibili视频
  13. C语言中的数组(4)---二维数组的定义
  14. dell服务器分区表修复,如何修复被Partition Magic损坏的分区表
  15. 关于生成树的一些小东西
  16. 百度技术沙龙:如何设计优良的日志分析系统
  17. 软件魔方制作系统启动盘并安装win7系统
  18. 圆柱体积怎么算立方公式_立方计算公式,圆形怎么算立方。
  19. HeadFirst 设计模式 橡皮鸭子例子心得体会
  20. 零基础Python完全自学教程15:Python中的列表

热门文章

  1. 如何找出1-100之间的质数
  2. 禁止Android安装某些apk应用
  3. HM下载、配置、运行
  4. 特征工程与自动特征工程
  5. python生成器与迭代器_python 生成器与迭代器(yield 用法)
  6. python+selenium安装,自动化测试环境搭建
  7. win10搜索功能不能用解决方案
  8. 逾20万人“云围观”,第八届全球云计算大会乘风破浪而来
  9. 期望、方差、标准差、协方差、相关系数、协方差矩阵、残差、残差平方和(SSE)、标准化残差,残差分析
  10. 【机器学习之向量求导】分子布局 分母布局