数据仓库服务(Data Warehouse Service,简称DWS)基于华为FusionInsight LibrA企业级数据仓库内核,提供即开即用、可扩展且完全托管的分析型数据库服务。用户开通数据仓库服务后,往往需要从其他关系数据库迁移数据,本人最近使用数据迁移服务在将MYSQL上的数据迁移到华为云数据仓库服务,进行一下总结。

我的需求是首先将存储在MYSQL上的部分表历史数据一次性全部迁移到数仓,然后希望每天将MYSQL上的交易、日志表信息增量同步到数仓。数据迁移服务提供了图形化向导式界面,支持从主流关系数据库、HBase、对象存储、文件系统等数据源迁移到数仓。

创建数据迁移服务集群

使用数据迁移服务首先需要创建一个集群,集群秒级创建成功,费用按运行时和关机两种情况进行不同计费,没有迁移任务时,可以选择关机(后面版本可以自动关机)。创建集群成功后,点击作业管理可以创建连接和迁移作业。

创建连接

从MYSQL迁移到数仓,需要分别创建MYSQL和数仓连接,连接主要保存着数据源的连接信息,包括IP、端口、用户名、密码等。

图:创建MYSQL连接参数

图:创建数据仓库服务连接参数

数仓有两种导入模式:COPY和GDS,两者的区别是GDS导入速度比COPY快,不过需要额外的权限和配置。GDS(Gauss Data Service)是数仓提供的数据服务工具,通过和外表机制的配合,实现数据的高速导入。启动导入作业时,会临时创建一个外表,所以连接用户需要有创建、删除外表权限。COPY和GDS两种模式的网络通讯方向也不一样,使用COPY模式时,数据迁移服务主动向数仓推数据,使用GDS模式时,数仓的数据节点从数据迁移服务拉数据。

MN是数仓的管理节点,DN是数据节点,GDS数据不经过MN节点,并且多个DN并发从数据迁移服务拉数据,所以性能更好。

创建作业

创建将MYSQL的表导入数仓的作业,分三个步骤:

1、选择源表和目的表,由于在数仓没有事先创建好表,可以选择自动创表。

在目的端作业配置,如果选择“不存在时创表”,用户可以选择表的存储模式:行模式和列模式,行和列存储的优缺点大家可以从网上搜索相关资料,一般来说,如果一个OLAP类型的查询可能需要访问几百万甚至几十亿个数据行,且该查询往往只关心少数几个数据列,使用列存储可以提高访问性能;而OLTP(Online Transaction Processing,联机事务处理)应用可以使用行存储。

由于我导入全量历史数据,可以对“导入前清空数据”选择“是”,这样可以返回多次执行导入作业,自动清空之前导入的旧数据。

2、字段映射,即将源表的字段映射到目的表字段。由于选择自动创表,字段已经一一对应,不需要调整顺序,数据迁移服务会自动将MYSQL的字段类型转换为数仓的字段类型。

在目标字段有个“分布列”参数,这是干什么的呢?由于华为云数据仓库服务是一个分布上系统,数据保存在多个DN节点(即数据节点),需要根据一些字段值计算出一个哈希值,用于决定数据保存在哪个节点,理论上所选字段值越分散,数据分布在数据节点越均匀,所以我们通常选择主键作为分布列。如果用户不选择任何分布列,数据迁移服务会自动给用户选择一个分布列。

3、保存并运行作业

常见问题

1、创建连接时,提示错误“无法连接服务器。 原因 : [Communications link failure The last packet sent successfully to the server was 0 milliseconds ago. The driver has not received any packets from the server.] (Cdm.0941)”。

解决方法:遇到这个问题可能的原因是MYSQL、数仓服务的安全组限制了数据迁移服务访问MYSQL、数仓服务,配置安全组可以解决此问题。

2、运行作业失败,提示错误“SQL语句无法执行。 原因 : ERROR: value too long for type character varying(7) Where: COPY dws_city, line 1, column name: "广州市"”。

原因:数仓表字符字段长度太短。但是自动创表为什么也会出现这个问题呢?这是因为MYSQL和华为云数据仓库服务存储中文时编码不一样,所需的长度也不一样。

解决方法:如果选择自动创表,在高级参数中选择“扩大字符字段长度”,数据迁移服务在创建表时,字符类型字段的长度会设置原表的3倍。

使用mysql 作数据仓库_从MYSQL迁移数据到华为云数据仓库服务经验总结相关推荐

  1. 华为错误报告存储在哪里_守护你的数据,华为云数据安全中心正式公测

    数据是当今时代的金矿.政企用云数字化转型的同时,如何清晰透明地保护数据资产的安全? 近日,华为云安全首席技术官杨松宣布数据安全中心正式公测,为消除上述难题提供了解决方案. 数据安全中心是一款完全云原生 ...

  2. MySQL学习笔记_关于MySQL的字符类型VARCHAR长度知识总结

    MySQL学习笔记_关于MySQL的字符类型VARCHAR长度知识总结 一.VARCHAR存储和行长度限制 1.VARCHAR(N)中,N指的是字符的长度,VARCHAR类型最大支持65535,指的是 ...

  3. mysql复制安全性_从MySQL复制功能中得到一举三得实惠

    在MySQL数据库中,支持单项.异步复制.在复制过程中,一个服务器充当主服务器,而另外一台服务器充当从服务器.如下图所示.此时主服务器会将更新信息写入到一个特定的二进制文件中.并会维护文件的一个索引用 ...

  4. 阿里云服务器如何简单的迁移数据?阿里云通过镜像实现在线数据复制克隆

    阿里云服务器如何简单的迁移数据?阿里云通过镜像实现在线数据复制克隆 1.相同阿里云账号下 2.服务器没有到期 3.不改变现有数据(包含不局限于操作系统) 实现目的:阿里云服务器如何简单的迁移数据?阿里 ...

  5. mysql核心数据库_从MySQL基础进军MySQL核心架构 178集MySQL数据库核心基础视频教程 MySQL基础案例教程...

    从MySQL基础进军MySQL核心架构 178集MySQL数据库核心基础视频教程 MySQL基础案例教程 课程目录 (1) 01MySQL基础_课程引入.avi (2) 02MySQL基础_为什么学习 ...

  6. strace 分析mysql 内存占用_关于mysql cluster适用场景的分析

    前言: mysql cluster作为mysql官方的一个集群软件,一直是不温不火的存在,用的较多的仍是mysql-server,本文就基于mysql cluster的特性,分析一下什么场景下适合使用 ...

  7. 阿里云mysql写入性能_插入mysql类型

    MySQL的五种日期和时间类型 MySQl中有多种表示日期和时间的数据类型.其中YEAR表示年份,DATE表示日期,TIME表示时间,DATETIME和TIMESTAMP表示日期和实践.它们的对比如下 ...

  8. mysql多大_洞悉MySQL底层架构:游走在缓冲与磁盘之间

    提起MySQL,其实网上已经有一大把教程了,为什么我还要写这篇文章呢,大概是因为网上很多网站都是比较零散,而且描述不够直观,不能系统对MySQL相关知识有一个系统的学习,导致不能形成知识体系.为此我撰 ...

  9. mysql 用户名 长度_一个 MySQL 用户名长度的坑

    今天使用 PHP 连接一个 MySQL 数据库的时候连不上,提示无权限. 因为 MySQL 是在另外一个机房,首先想到的是防火墙的原因,但使用 MySQL-cli 却能正常连接,遂排除这种可能. 又怀 ...

最新文章

  1. 「图文直播」CSDN 二十年,AI 赋能全新出发
  2. centos 编译 mysql_Centos Mysql 编译安装调试
  3. 学python需要什么基础知识-Python学习(一)基础知识
  4. 深入理解TCP实现|经典PDF分享
  5. Tensorflow验证码识别应用
  6. JeeWx捷微3.0多触点版本发布,支持微信公众号,微信企业号,支付窗——喜迎双“旦”
  7. 大数据学习笔记46:初识日志收集系统Flume
  8. AI和IOT的结合:现在和未来
  9. 架构设计 之 你为啥只垂直切子系统没分层呢?
  10. Linux下服务器搭建(5)——CentOS下Redis的安装
  11. c++输出的值精确到小数点后5位_c/c++linux 2019最新阿里研发类面试题及答案分享...
  12. 通达oa php_【通达OA】办公就用通达OA,通达OA官方网站_OA系统_协同办公
  13. 同济大学Openwrt路由器 ipv6教程(新手导向)
  14. 5.1.3 NoSQL数据库-Redis(键值key-value)-五大数据类型
  15. 关于计算机的论文英语2000字,英语论文2000字左右
  16. python百度爬虫_Python爬虫 - 简单抓取百度指数
  17. iOS 9以上系统 信任的企业级开发者证书
  18. [附源码]SSM计算机毕业设计逸尘房屋销售管理系统JAVA
  19. 【数据库】Mysql索引究竟是什么?
  20. Python爬虫之实习生面试问题(一) 爬虫实习生 爬虫面试问题

热门文章

  1. [转] 《Java并发编程的艺术》笔记
  2. TP5+PHPMailer 实现发送邮件功能
  3. 烟草零售市场检查“APCD”工作法具体是什么?
  4. OS + Windows CE / XP / 2003 / 2008 / Vista / win7 / win8
  5. 如何在电脑上下载和卸载软件
  6. datename和datepart
  7. PHP 显示公网 IP 地址
  8. 公务员就业歧视是一部 权威 的反面教材
  9. 兼容IE6,IE7,IE8,friefox,chreom浏览器圆角及渐变效果
  10. python bootstrap-fileinput示例_bootstrap-fileinput详细说明与使用