简介

最近搞了一个好玩的项目,客户的数据库从SQL Server 2000迁移到 Azure SQL 。数据库数据迁移并不是难事,关键客户环境好玩的是使用了50多个DTS包,DTS包是比较古老的产品。很多人估计都没见过了,DTS其实是 SSIS的前生,DTS功能就是实现ETL的过程。

客户的50多个包实现各种数据的复制、转换和集成。

Azure Data Factory 介绍

Azure 数据工厂是 Azure 的云 ETL 服务,用于横向扩展无服务器数据集成和数据转换。 它提供了无代码的 UI,以用于直观创作和集中式监视与管理。 还可以将现有 SSIS 包直接迁移到 Azure,并在 ADF 中运行它们(二者完全兼容)。 SSIS Integration Runtime 提供完全托管的服务,因此无需担心基础结构管理。

一直以为Azure Data Factory 没啥好玩的,直到最近搞这个项目,才发现 Azure Data Factory 也还是有点意思。

但是 Azure Data Factory 与想象中也有点不一样,从实战中有点感悟,总结总结。

目前的Azure Data Factory 有几大组件:

  • 管道

  • 活动

  • 数据集

  • 链接服务

  • 数据流

  • 集成运行时

这几大组件中最难搞的是 :集成运行时 ,其他理解起来都还是很顺,一会详解

项目 说明
管道 管道是执行任务单元的活动的逻辑分组。 管道中的活动可以共同执行一项任务; 管道理解为了实现一个功能或者一项活动的分组。每个管道可以包含无数的活动,每个活动一般具备流程关系,一步步进行。
活动 活动是具体的每个步骤,某个需要进行的功能的实现。
数据集 数据集代表数据存储中的数据结构,这些结构直接指向需要在活动中使用的数据,或者将其作为输入或输出引用。
链接服务 链接服务十分类似于连接字符串,用于定义数据工厂连接到外部资源时所需的连接信息。 不妨这样考虑:链接服务定义到数据源的连接,而数据集则代表数据的结构。 例如,Azure 存储链接服务指定连接到 Azure 存储帐户所需的连接字符串。 另外,Azure Blob 数据集指定 Blob 容器以及包含数据的文件夹。
集成运行时 集成运行时(IR)是由 数据工厂 使用的计算基础结构,用来跨不同网络环境提供数据集成功能。 Azure Integration Runtime 可用于通过可公开访问终结点连接到公用网络中的数据存储和计算服务。 对专用网络/本地网络使用自承载集成运行时。

项目步骤

这次项目中是迁移SQL Server2000 的DTS 。

第一步:是将SQL 2000数据库 迁移到 SQL 2008 R2

第二步:然后迁移到了Azure SQL Database

第三步:将SQL 2000 的DTS迁移到 Azure Data Factory

由于 SQL 2000的DTS 是很古老的东西,然后又很复杂,比如可能是这样的

这个包共有8个步骤,而最复杂的包有17个步骤,由于DTS是可以嵌套包,也就是17个步骤里面有很多步骤嵌套包,也就是说步骤总部加起来就会有至少70~80个步骤。

使用Azure Data Factory 就相当于把每个步骤在Azure Data Factory上重新编写。

关键过程

链接服务

Azure Data Factory的关键配置有:

  • 链接服务

  • 集成运行时

新建链接服务:

需要选择需要链接的服务类型

选择类型后,在配置界面需要:配置集成运行时,这里才是最困难的。

集成运行时

点击新建集成运行时,有几种可选,

大分类

1、Azure ,自承载

大概我理解在使用中,链接Azure 云使用 Azure集成运行时,而内网和专用网络 需要使用 自承载运行时。选择自承载运行时,大坑来了。。。

需要在本地网络中安装一台服务器来运行集成运行时。惊不惊喜,意不意外。这个鬼东西就相当于一个datagateway。。。前面文档中就没有看到有这样的描述。也就是说本来客户是迁移一个老旧服务器到PaaS的平台,这倒好,还要搭上一台新服务器专门做集成服务。

2、Azure-SSIS

选择 Azure-SSIS,本来另外一种方案是将DTS包转换为SQL 2008R2 SSIS ,然后直接部署到Azure-SSIS运行,到这里发现几个问题

  • SSIS转换后的包基本不可用,因为链接的对象都变成了Azure SQL,和之前完全不一样。没有办法兼容使用

  • SSIS的收费确实比较喜人~~

数据集创建

创建好链接服务、集成运行时,就需要创建数据集,从某角度讲,所有数据的迁移和转换等各种过程,都是从一个数据集到另外一个数据集,数据集可以理解为特殊的数据表,可以是实体表、虚拟表、视图,查询等

有了集成服务后、创建链接服务,就可以进行管道创建,在此案例中,可以看到数据集创建了135个,也就是中间进行数据转换使用等过程中使用到了135个数据集。

创建数据集

选择数据集类型

选择相应的连接服务,就可以选择相应的数据库的表,如果需要执行查询,可以随意选择一个数据表,在复制过程中去设置查询语句

管道创建

新建管道,界面如下:

管道就是由许多的活动组成,在左侧可以看到可以进行的活动。

利用这些活动可以进行相应的数据各种活动。

举个例子:

像这个管道里面,执行了17个活动,包括了很多复制 和很多存储过程的执行。

创建触发器

管道创建好后需要执行,执行办法就是创建触发器。

监视

管道执行过程可以在监视中看到

管道调试过程中也可以看到,需要在管道调试的时候点击详细可以看到运行的详细情况:

其他

Azure Data Factory与DevOps进行集成,也就是编写管道随时可以进行保存,也可以回溯。非常方便。

另外 ADF还有很多功能未曾使用,目前看来功能还是可以,在进行日常的ETL过程是够用的。

使用Azure Data Factory优雅的迁移SQL Server 2000 DTS包相关推荐

  1. 具有Ubuntu和Azure Data Studio的Linux上SQL Server 2019

    In the previous articles of this series on using SQL Server 2019 on Ubuntu, we have explored the fol ...

  2. Microsoft SQL Server 2000 中的数据转换服务 (DTS)

    摘自:http://www.microsoft.com/china/MSDN/library/data/sqlserver/DataTransformationServices(DTS)inMicro ...

  3. SQL Server 2000中的数据转换服务 (DTS)

    SQL Server 2000中的数据转换服务 (DTS) 更新日期: 2004年06月15日 发布者 Diane Larsen Euan Garden, 投稿人 Microsoft Corporat ...

  4. sql azure 语法_如何将内部SQL Server数据库迁移到Azure

    sql azure 语法 Lately, database administrators often hear the question "have you tried Azure?&quo ...

  5. Azure Data Factory操作使用介绍

    Azure Data Factory操作使用介绍 在大数据环境中,原始.散乱的数据通常存储在关系.非关系和其他存储系统中. 但是,就其本身而言,原始数据没有适当的上下文或含义来为分析师.数据科学家或业 ...

  6. 【Azure Data Platform】ETL工具(6)——重新认识Azure Data Factory

    本文属于[Azure Data Platform]系列. 接上文:[Azure Data Platform]ETL工具(5)--使用Azure Data Factory数据流转换数据 前面开篇第一章主 ...

  7. sql azure 语法_在Azure Data Studio中学习用于SQL Notebook的Markdown语言

    sql azure 语法 Microsoft supports SQL Notebooks in Azure Data Studio. It is an exciting feature that a ...

  8. 【Azure 架构师学习笔记】-Azure Data Factory (4)-触发器详解-事件触发器

    本文属于[Azure 架构师学习笔记]系列. 本文属于[Azure Data Factory]系列. 接上文[Azure 架构师学习笔记]-Azure Data Factory (3)-触发器详解-翻 ...

  9. 从Sql server 2000 到 Oracle 10g数据库迁移数据类型转化

    2010-01-12 从Sql server 2000 到 Oracle 10g数据库迁移数据类型转化 文章分类:数据库 SqlServer 2k转换为Oracle 10g 列名 SqlServer数 ...

最新文章

  1. 【redis】2.redis可视化工具安装使用
  2. linux实时备份,51CTO博客-专业IT技术博客创作平台-技术成就梦想
  3. java中上传文件_Java中文件上传下载 --使用Minio
  4. .net对虚拟目录的操作
  5. Spark Java API:Action
  6. 一只猫引发的互联网争论
  7. 如何使用CSS来修改SVG原点和制作SVG动画
  8. logback日志pattern_003、Spring Boot使用slf4j进行日志记录
  9. 第 2 章 Readme
  10. 华为实习日记——第三十七天
  11. python实现Prim算法求解加权连通图的最小生成树问题
  12. 六度分离 HDU - 1869 (最短路径)
  13. python 时频图_python,地震波形、时频图、频谱图计算和显示软件
  14. 企业级大数据、数分资料免费下载(附百度云破解神器)
  15. 【大疆DJI】安卓开发实习历程- 0.前期准备到面试(HR电话初面+技术一面+技术二面/终面+OC)
  16. SIM卡交换方案的工作原理
  17. 微信小程序云开发CMS中WebHook功能的使用方法
  18. python从列表中随机抽取n个元素
  19. DOC与DOCX区别【100字】【原创】
  20. Kubernetes的Pod详解

热门文章

  1. Java 基础-面试题
  2. 【转载】Katalon Studio 基本用法--录制脚本并查看测试报告
  3. MEF(可扩展框架)使用总结
  4. 【BZOJ3958】[WF2011]Mummy Madness 二分+扫描线+线段树
  5. AJAX04 JQ的AJAX
  6. [转载]Shell正则表达式
  7. SpringIOC原理
  8. 求解数组中子数组连续元素的之和的最大值
  9. 授人以鱼不如授人以渔,UCHome全面大解析培训【第二集】
  10. Bug,昂首走进2005