1. 背景调研

1.1 ODPS源与目的集群

调研项 内容
ODPS源集群版本
ODPS目的集群版本
ODPS源与目的是否在一个集群/可使用相同账号
ODPS源集群AccessKeyId
ODPS源集群AccessKeySecret
ODPS目的集群AccessKeyId
ODPS目的集群AccessKeyIdSecret

1.2 预迁移数据统计

所属Project 表名 大小 是否要迁移增量
Project1 Table1 Desc查看表大小

2. 工具选择与方案确定

目前有四种方式可用于ODPS的数据迁移。

  1. 如果源与目的ODPS在一个集群,或可使用相同账号,则推荐使用ODPS COPY TASK的方式进行迁移;
  2. 如果表的数量少,可通过手动建立CDP任务的方式进行迁移;
  3. 如果表的数量多,可通过调用Base CDP API接口的方式批量建立CDP任务,但目前此API接口还不成熟,和页面有较多关联;
  4. 如果是不同集群,不同账号体系下的ODPS数据迁移,则采用使用Datax工具进行迁移,迁移所需的配置文件,可用脚本批量生成;

3. 具体实施

3.1 表(分区)结构迁移

本部分操作,可通过调用ODPS的SQL来完成。具体可编写程序,调用ODPS SDK或ODPS cmd工具来进行。
对预迁移的表,在源ODPS中获取表结构,根据表结构,在目标ODPS中批量运行组装好的建表语句,即可完成。

3.1.1 要迁移的表名梳理

  1. 根据1.2中调研结果,梳理出表名列表;
  2. 此步骤,也可使用show tables语句获取表名,然后将临时表等不需要迁移的表名去除;

3.1.2 生成DDL建表(分区)语句

此步骤操作,在ODPS源端进行,可使用ODPS CMD工具。其配置文件位于config/odps_config.ini,配置项如下:

project_name=
access_id=<accessid>
access_key=<accesskey>
end_point=http://service.odps.aliyun.com/api

这里注意,专有云环境下的end_point需要联系专有云管理人员获取。

在Bash环境下,执行如下示例语句,导出表结构。请根据实际情况改写shell语句,例如读取表名列表文件等。这里的odps_config.ini.src是源端ODPS的配置文件。

for table in tab1 tab2 tab3
do
odpscmd --config=odps_config.ini.src -e "export table $table "|awk -F ':' '{print $2}' >>tab.ddl
done

3.1.3 建立对应表(分区)

将ODPS CMD的配置文件配置成目的ODPS,然后执行如下实例语句。这里的odps_config.ini.dst是目的端ODPS的配置文件。

odpscmd --config=odps_config.ini.dst -f tab.ddl

3.2 数据迁移

3.2.1 使用ODPS TASK COPY

注意使用该工具的前提是在同一ODPS集群,或具有相同的账号。示例语句如下所示,请按照实际情况进行修改。

for table in tab1 tab2 tab3
do
odpscmd --config=odps_config.ini.dst -e "copy -d import -t proj_i.$table -url=http://src_odps_tunnel_endpoint/proj_p/$table -a" &
done

src_odps_tunnel_endpoint指源ODPS的tunnel endpoint,专有云环境下,请联系云管理人员获取。odps_config.ini.dst同上只目的端odps 的配置。
Copy命令的解释如下,有助于帮助使用和理解该命令。

copy [-a 或-o] -d [import 或 export] -url [TUNNEL 服务的 url 地址] -t [本地 ODPS 表名] -p [本地 ODPS 分区名] -e [远端 ODPS];
-a (追加模式)把数据附加到目标表已有数据之后
-o (覆盖模式)目标表已有数据被删除,新数据进入目标表
-d IMPORT或EXPORT。IMPORT表示数据从远端集群导入本地集群,EXPORT 表示数据从本地集群导入远端 集群
-url TUNNEL 服务的url地址,其中包含 Project 名,表名和分区名(如果是分区表的话)
-t 本地ODPS集群的表名
-p 本地ODPS集群的分区名,如果该表没有分区,该选项被省略
-e 远端ODPS的访问点(end point)
  • append(-a)和overwrite(-o)的语义很明确,不过tunnel其实是只支持append操作的,所以-o 命令只不过是帮你执行了一下alter table drop partition然后add partition的操作。
  • -url 指定的是tunnel地址,分区表的写法http://odps_endpoint_tunnel/prj_name/table_name/month=1,day=1,不需要写引号,多级分区用逗号分隔。
  • -t 可以写成project_name.table_name的名字
  • -p 分区名称不需要写引号,多级分区逗号分隔
  • -e 当前tunnel支持路由功能,copy task将使用-e指定的远端odps endpoint路由到对应的tunnel endpoint

以下举个例子。从源ODPS的 project_a.table_a,分区是ds='ds1'/pt=‘pt1’,导入到目的生产的project_b.table_b,分区是ds='ds2'/pt='pt2',在目的生产的ODPS CMD上运行:

copy -o -d import -url http://dt-all.ext.odps.aliyun-inc.com/project_a/table_a/ds=ds1,pt=pt1 -t project_b.table_b -p ds=ds2,pt=pt2 -e http://service-all.ext.odps.aliyun-inc.com/api;

3.2.2 使用DataX工具

本步骤利用DataX工具进行数据迁移,DataX是阿里巴巴集团内被广泛使用的离线数据同步工具。
利用datax批量配置工具来生成对应的脚本和json文件。
本步骤流程如下:

  1. 进行环境的准备,本步骤需要在迁移机上安装odpscmd与datax工具,其中datax工具和datax批量工具需要python2.6及以上的运行环境;
  2. 在datax批量工具的config.ini中进行相关配置,包括源与目的ODPS的accessID与key、odps及tunnel的endpoint、odpscmd与datax的路径等信息;
  3. 在tables.ini中填写调试用到的表列表;
  4. 运行python datax_tools.py生成对应的脚本和json配置文件;
  5. 检查脚本与json配置文件;
  6. 运行run_datax.py脚本,批量顺序执行datax任务;
  7. 运行check_datax.py脚本,进行条数的检查;

3.2.2.1 批量配置工具

批量配置工具的流程如下:

  1. 配置源与目的端的基础信息;
  2. 读取并校验源与目的端的表结构和分区信息;
  3. 根据校验结果,生成DataX所需的json文件;
  4. 生成顺序运行Datax迁移命令的脚本文件;
  5. 利用select count(*)的方式进行条数检查;

代码示例详见Datax批量工具,可自行修改优化。

3.2.2.2 DataX使用与调优

本部分详见Datax的使用文档。

ODPS数据迁移指南相关推荐

  1. ODPS到ODPS数据迁移指南

    1. 工具选择与方案确定 目前,有两种方式可用于专有云环境下的从MaxCompute到MaxCompute整体数据迁移. (1)使用DataX工具进行迁移,迁移所需的作业配置文件及运行脚本,可用Dat ...

  2. iOS Core Data 数据迁移 指南 144 作者 一缕殇流化隐半边冰霜 关注 2016.05.09 00:35* 字数 4718 阅读 2931评论 17喜欢 327 前言 Core

    iOS Core Data 数据迁移 指南 作者 一缕殇流化隐半边冰霜 关注 2016.05.09 00:35* 字数 4718 阅读 2931评论 17喜欢 327 前言 Core Data是iOS ...

  3. ODPS到ADS数据迁移指南

    数据同步节点任务是阿里云大数据平台对外提供的稳定高效.弹性伸缩的数据同步云服务.ODPS到ADS数据迁移采用CDP的方式同步数据. 1.     创建源和目标库表结构 初次在同步数据前需要在源 ...

  4. sql oltp_内存中的OLTP系列– SQL Server 2014上的数据迁移指南过程

    sql oltp In this article we will review migration from disk-based tables to in-memory optimized tabl ...

  5. Gogs生产环境搭建和数据迁移指南

    说明 说明下gogs的搭建和迁移,搭建过程比较简单,资料也很多,不作为本文的重点.重点是说明一下如何迁移gogs,可以解决一下几个业务场景的迁移工作 相同系统间的迁移 linux-liunx wind ...

  6. java 迁移数据_Java 9迁移指南:七个最常见的挑战

    java 迁移数据 我敢肯定,您已经听说过更新到Java 9并不是一件容易的事,甚至可能是不兼容的更新,而且对于大型代码库而言,迁移毫无意义. 这样做之后,我迁移了一个相当大的旧代码库,我可以告诉你, ...

  7. 一份非常详尽的 Objective-C 到 Swift 的迁移指南

    原文在我的博客:一份非常详尽的 Objective-C 到 Swift 的迁移指南 国际友人可以看这里:A guidebook for migrating from Objective-C to Sw ...

  8. DataX在数据迁移中的应用

    简介:DataX在数据迁移中的应用 1. DataX定义 首先简单介绍下datax是什么. DataX是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL.Oracle.SqlSe ...

  9. flyway数据迁移_使用Flyway在Java EE中进行数据库迁移

    flyway数据迁移 任何Java EE应用程序的数据库模式都会随着业务逻辑一起发展. 这使得数据库迁移对于任何Java EE应用程序都很重要. 您是否还在执行应用程序时手动执行它们? 它仍然是一个锁 ...

最新文章

  1. SpringCloud eureka服务状态监听
  2. 贪吃蛇小游戏(C语言)
  3. Django 从0开始创建一个项目
  4. 小米MAX Root,第三方REC,XP框架刷入
  5. gaussian软件linux版本,Gaussian 09的版本与平台。
  6. access课程均不及格_Access 应用基础—查询设计
  7. 云优CMS批量翻译插件
  8. php shopex,shopex官网 用PHP为SHOPEX增加日志功能代码
  9. 【论文阅读】PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection
  10. python英文分词库_Python中文分词库jieba,pkusegwg性能准确度比较
  11. 计算机实战项目 之 含文档+PPT+源码等]精品基于Uniapp实现的美食餐厅订餐点餐APP
  12. 数据猿·金猿榜丨2017工业大数据领域最具潜力创业公司
  13. 自然底数e究竟“自然”在哪?
  14. Glyphs 3 for mac(字体设计软件)
  15. Android零基础入门第1节:Android的前世今生
  16. 学习java需要的软件
  17. 十六进制转十进制数算法
  18. 从零搭建韦东山老师一期的Ubuntu环境
  19. 工作感悟之Android系统开发入门
  20. 春季出游将至 Bingdata大数据详解春季踏青游趋势

热门文章

  1. 雷军:目前一半精力投入小米汽车 争取15到20年进入世界前五
  2. textarea属性设置
  3. 第一片真正用于微型计算机的cpu名称是,LCSE初级2015-计算机硬件基础试题.xls
  4. 电动汽车市场的减速,正在让小鹏汽车付出代价
  5. matlab分散度求周长,神经突方向分散度和密度成像在帕金森病早期诊断中的研究进展...
  6. matlab编写fie滤波器,使用Matlab和CCS设计FIR滤波器
  7. [Mapbox GL]点的动画效果
  8. Windows Azure 解决方案系列: 开发拓展搜索-救援应用程序,拯救更多溺水者
  9. Python 自动化办公应用大全(ChatGPT 版)
  10. UBports压力测试stress