什么是MaxCompute

大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的GB/TB/PB级数据仓库解决方案。MaxCompute为您提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决海量数据计算问题,有效降低企业成本,并保障数据安全。

同时,DataWorks和MaxCompute关系紧密,DataWorks为MaxCompute提供了一站式的数据同步、任务开发、数据工作流开发、数据管理和数据运维等功能,详情请参见DataWorks(原大数据开发套件)。

功能概述

1、数据通道

支持批量、历史数据通道。Tunnel。

实时、增量数据通道。

2、计算及分析任务

支持多种计算模型:MaxCompute SQL(查询功能)

UDF:用户自定义函数(注意用了分区,就无法使用此功能)

3、MapReduce

MaxCompute MapReduce是MaxCompute提供的Java MapReduce编程模型,它可以简化开发流程,更为高效。与分布式计算概念有关系。

4、Graph

一套面向迭代的图计算处理框架。

5、SDK

SDK是MaxCompute提供给开发者的工具包。

6、安全

MaxCompute提供了功能强大的安全服务,为数据安全提供保护。

基本概念

Table

数据存储单元(内部表和外部表)

Console

客户端工具,通过Console可以提交命令完成Project管理、DDL、DML等操作

Partition(分区)

如果表没有分区,数据是直接放在表所在的目录下。如果表有分区,每个分区对应表下的一个目录,数据是分别存储在不同的分区目录下

fuxi

MaxCompute底层任务调度模块即fuxi的调度模块。

MapReduce

处理数据的一种编程模型,通常用于大规模数据集的并行运算,先分片,Map(映射)后Reduce(规约,合并)

Project

基本组织单元

Resource

MaxCompute中特有的概念,MaxCompute的自定义函数(UDF)或MapReduce功能,都需要依赖资源来完成。

生命周期  LIFECYCLE

数据从最后一次更新的时间算起,在经过指定的时间后没有变动,则此表(分区)将被MaxCompute自动回收

函数

SQL计算功能,可用内建函数完成,也可自定义。

任务

基本计算单元,SQL及MapReduce功能都是通过任务完成的。一个任务会被划分成多个进程Worker共同完成执行阶段的计算工作。

DDL语句不是计算型的任务,不会被转化成task。例如项目空间(Project)、资源(Resource)、自定义函数(UDF)及实例(Instance)的操作均不需要通过MaxCompute的任务来完成

分区:

指定表内的某几个字段作为分区列。目前MaxCompute支持Tinyint、Smallint、Int、Bigint、Varchar和String分区类型。

资源(Resource)

传Jar包的过程就是在MaxCompute上创建资源的过程。

资源类型:File类型,Table类型,Jar类型,Archive类型。

与其它服务的集成

MaxCompute与DataWorks

DataWorks控制台即为MaxCompute控制台,DataWorks是基于MaxCompute计算和存储,提供工作流可视化开发、调度运维托管的一站式海量数据离线加工分析平台。DataWorks理解成MaxCompute的web客户端。

MaxCompute与数据集成

MaxCompute可以通过数据集成加载不同数据源数据。数据集成已经集成到DataWorks作为数据同步任务进行配置、运行,您可直接在DataWorks上配置MaxCompute数据源,再配置读取MaxCompute表或者写入MaxCompute。

MaxCompute与机器学习

可通过机器学习平台的算法组件对MaxCompute数据进行模型训练等操作。

MaxCompute与QuickBI

数据在MaxCompute进行加工处理后,将Project添加为QuickBI数据源,即可在QuickBI页面对MaxCompute表数据进行报表制作,实现数据可视化分析。

MaxCompute与OSS

对象存储OSS 是海量、安全、低成本、高可靠的云存储服务,MaxCompute2.0支持直接通过外部表方式访问表格存储中的表数据并进行处理,详情请参见访问OSS非结构化数据。

使用

客户端:推荐使用MaxCompute Studio工具。

或 使用阿里云IDE:也可以通过DataWorks使用MaxCompute。直接单击项目列表下对应项目的进入工作区进行操作。

导入数据的方式

1、客户端使用Tunnel命令

2、通过MaxCompute Studio工具可视化方式导入导出。

3、通过Tunnel提供的SDK自行编写java工具。

4、通过Flume及Fluentd插件方式导入。

分析方式,可参考此篇文章:点我。

sql

修改生命周期

ALTER TABLE table_name SET lifecycle days;单位为天

禁止生命周期

ALTER TABLE trans PARTITION(dt='20141111') DISABLE LIFECYCLE;

数据类型

1.0版本:Bigint、Double、Boolean、Datetime、Decimal和String

MapReduce

分布式数据处理模型

处理流程:

分片(并行工作)→Map→Reduce(合并操作)。

功能:

1、作业提交

2、基本概念

3、输入和输出

4、资源使用

5、本地运行

数据迁移

致力于提供复杂网络环境下、丰富的异构数据源之间数据高速稳定的数据移动及同步能力。

DataWorks(MaxCompute开发套件)为MaxCompute提供了一站式的数据同步、任务开发、数据工作流开发、数据管理和数据运维等功能。

参考资料:官网

【大数据】MaxCompute概述相关推荐

  1. 大数据算法—大数据算法概述

    大数据--当下人人津津乐道的话题.然而对于大数据的公认定义以及完美体系还没有完全诞生,但大街小巷已遍布云计算.大数据,这些领域的经典案例更是层出不穷.由于认知的有限,就不继续发表拙见了.只是因为很喜欢 ...

  2. 互联网金融大数据架构概述与应用 - 大数据应用案例

    如果需转载,请注明:乐投网-互联网金融大数据架构概述与应用 IBM分析事业部 IBM分析事业部是在过去一两年间逐步成型的,成立后分成了若干个小部门,如AnalyticsPlatform.CLOUDDA ...

  3. 大数据技术概述复习(一)

    大数据技术概述复习(一) 本文整理复习自用,仅供参考 引用: 1<大数据技术原理与应用(第3版)> 2 https://blog.csdn.net/weixin_45207388/arti ...

  4. 大数据Flink概述

    目录 1 Flink概述 1.1 框架版本 1.2 编程语言 2 实时即未来 3 富二代Flink 4 Flink官方介绍 5 Flink组件栈 6 Flink基石 7 Flink用武之地 7.1 E ...

  5. 大数据技术概述与入门

    一.大数据概述 大数据概念最初来自于2009年的<自然>杂志, Ginsberg采用大数据搜索引擎查询数据并对流行性流感活动进行检测,之后在2011年2月<科学>杂志通过社会调 ...

  6. 大数据入门-大数据技术概述(一)

    目录 大数据入门系列文章 1.大数据入门-大数据是什么 一.概念 二.技术详解 1.基础架构:Hadoop 2.分布式文件系统:HDFS 3.数据仓库:Hive 4.存储引擎:Kudu 5.分布式数据 ...

  7. 云计算与大数据——云计算概述

    云计算与大数据 什么是云计算 云计算在日常生活中的应用 在线办公 个人网盘 云游戏 物联网 什么是云计算 云计算(cloud computing)是分布式计算的一种,指的是通过网络"云&qu ...

  8. 第二章大数据技术概述

    大数据技术的产生 海量数据的产生: 来自大人群互联网 来自大量传感器机械 科学研究及行业多结构专业数据 大数据的基本概念 大数据的定义:无法在一定时间内用常规软件工具对其内容进行抓捕.管理和处理的数据 ...

  9. 大数据技术概述__大数据最全面的技术栈总结及分类

    大数据不是一门专门的技术,而是很多技术的综合应用.可以通过一些列大数据技术对海量数据进行分析,挖掘出数据背后的价值. 虽然大数据与Hadoop密切相关,但Hadoop并不等同于大数据,大数据也不是指H ...

  10. 大数据学习02:大数据课程概述与大数据背景知识

    Hadoop2.X管理与开发 每日关注 2019年3月21日 星期四1. 阿里AI labs成立方言保护专项小组,投入1亿元保护汉语方言2. 小红书上线"品牌号",并进行五大模块升 ...

最新文章

  1. zabbix 源码编译安装
  2. HighCharts基本使用
  3. 百度VS谷歌?搜索质量评判也要讲基本法
  4. tensorflow随笔-tf.while_loop
  5. 朴素贝叶斯法---朴素贝叶斯法的参数估计
  6. js-权威指南学习笔记7
  7. IntelliJ IDEA for Mac如何使用单元测试Junit
  8. PAT 1090 危险品装箱(25 分)- 乙级
  9. 科学研究设计一:什么是科学
  10. php中的递归调用函数返回值,深入理解php递归函数返回值的正确用法
  11. 个人博客系统PHP源码 DouPHP轻博客
  12. DSP 6678 多核CACHE一致性操作
  13. 云队友丨任正非内部演讲:星光不问赶路人
  14. Conv2d函数详解(Pytorch)
  15. 【Python】爬取理想论坛单帖爬虫
  16. adb remount失败的一种解决办法
  17. 强烈给大家推荐一款简单好用免费的甘特图项目进度管理工具-进度猫
  18. 高德地图小程序步行路线显示_微信小程序----map路线规划
  19. 多元融合 浪潮G7系列超融合一体机重磅发布
  20. Mybatis深入浅出系列

热门文章

  1. Win 8预览版将上市 首批应用名单出炉
  2. 仿coco点餐系统的微信小程序
  3. 第七章 中子----中子源、应用、能量分类、探测四个基本过程
  4. CSS gradient渐变之webkit核心浏览器下的使用
  5. cannot find implementation for com.xx.xx.xxDatabase. XXDatabase_Impl does not exist
  6. python入门——python基础语法
  7. tesseract::tesseractAPI::setVariable()参数列表
  8. 如何安装第三方站点下载的Matlab工具箱或硬件支持包,亲测有效。
  9. 推荐这三款软件让你实现图片去雾化?
  10. OpenMARI 开源指标体系和效能提升指南之GQM从入门到精通