datax数据同步问题(mysql2hive)汇总
文章摘要:
1、代码
2、搭建spark
3、使用datax
4、常见问题
5、指正补充
前言:
git代码,有需要的可以参考
![GitHub contributors](https://img.shields.io/github/contributors/WeiYe-Jing/datax-web) ![GitHub issues](https://img.shields.io/github/issues/WeiYe-Jing/datax-web) ![GitHub](https://img.shields.io/github/license/WeiYe-Jing/datax-web) ![GitHub code size in bytes](https://img.shields.io/github/languages/code-size/WeiYe-Jing/datax-web) ![](https://img.shields.io/badge/qq%E7%BE%A4-776939467-green.svg)
一、搭建spark并启动
启动sts:/data/spark/spark/sbin/start-thriftserver.sh --master yarn --queue default --name spark241
搭建方式:Spark环境搭建安装及配置详细步骤(保姆教程)_西皮树下的博客-CSDN博客_spark环境搭建及配置
二、创建hive表
-- 创建库
create database myhive;
-- 使用库
use myhive;
-- 查看当前全部库
SHOW DATABASES;
-- 创建表 (text格式) (参考:https://www.csdn.net/tags/MtTaEg5sOTU1MS1ibG9n.html)
drop table IF EXISTS myhive.comm_attachment ;
CREATE TABLE IF NOT EXISTS myhive.comm_attachment( id int, version String)
COMMENT 'hive测试表 details'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
lines terminated by "\n"
STORED AS TEXTFILE;
(orc格式)
CREATE TABLE IF NOT EXISTS comm_attachment2 (
`id` int primary key DISABLE NOVALIDATE RELY,
`version` string
)
partitioned by(ds string)
stored as orc;
创建表解释
1.CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在,则抛出异常;用户可以用 IF NOT EXIST 选项来忽略这个异常
2.EXTERNAL 关键字可以让用户创建一个外部表,在建表的同时指定一个指向实际数据的路径(LOCATION)
3.LIKE 允许用户复制现有的表结构,但是不复制数据
4.COMMENT 可以为表与字段增加描述
5.PARTITIONED BY 指定分区
6.ROW FORMAT
DELIMITED [FIELDS TERMINATED BY char] [COLLECTION ITEMS TERMINATED BY char]
MAP KEYS TERMINATED BY char] [LINES TERMINATED BY char]
| SERDE serde_name [WITH SERDEPROPERTIES
(property_name=property_value, property_name=property_value, ...)]
用户在建表的时候可以自定义 SerDe 或者使用自带的 SerDe。如果没有指定 ROW FORMAT 或者 ROW FORMAT DELIMITED,将会使用自带的 SerDe;
7.STORED AS
SEQUENCEFILE //序列化文件
| TEXTFILE //普通的文本文件格式
| RCFILE //行列存储相结合的文件
| INPUTFORMAT input_format_classname OUTPUTFORMAT output_format_classname //自定义文件格式
如果文件数据是纯文本,可以使用 STORED AS TEXTFILE。如果数据需要压缩,使用 STORED AS SEQUENCE
8.LOCATION 指定表在HDFS的存储路径(默认地址/user/hive/warehouse)
三、datax-创建任务说明
1、创建/查看执行器(支持自动注册)
2、创建数据源(有示例)mysql\hive
3、创建任务模板(任务管理-DataX任务模板)
4、构建json脚本(任务管理-任务构建)(自行填写json,可忽略此步骤)
5、任务批量构建(任务管理-任务批量构建)可参考:https://wenku.baidu.com/view/7bffee414bd7c1c708a1284ac850ad02de800793.html
注意:datax-executor添加同步插件时
1、pom.xml 加上对应插件(log包剔除,具体参考hdfs)
2、{projectHome}\datax-executor\src\main\resources\plugin\writer 添加对于插件
3、TEXT FILE仅支持GZIP、BZIP2 两种压缩, 不支持配置的 compress 模式 : [NONE]
四、常见问题
hadoop安装目录:/usr/hdp/2.4.3.0-227/hadoop
/data/spark/spark-2.4.3-bin-hadoop2.7-meta23_20220428/sbin/start-all.sh
hdfs指令:
bin/hdfs dfsadmin -report 查看hdfs的各节点状态信息
bin/hdfs haadmin -getServiceState nn1 获取一个namenode节点的状态
sbin/hadoop-daemon.sh start namenode 单独启动一个namenode进程(datax链接active,共两个状态:active、standby)
Permission denied: user=root, access=WRITE解决指令:
-- 查看目录权限用户:hdfs dfs -ls /spark/warehouse/
-- 授权:hadoop fs -chmod -R 777 /spark/warehouse/
以上是我搭建datax数据同步所遇到的问题,感谢大家指正补充
datax数据同步问题(mysql2hive)汇总相关推荐
- springboot项目集成dolphinscheduler调度器 实现datax数据同步任务
Datax安装及基本使用请查看上一篇文章: 文章目录 Datax概述 1.概述 2.功能清单 3.==说明==:本项目只支持mysql及hbase之间的数据同步 代码模块 配置文件 pom.xml D ...
- DataX数据同步工具使用
1.DataX 简介 DataX 是阿里云 DataWorks 数据集成 的开源版本,主要就是用于实现数据间的离线同步. DataX 致力于实现包括关系型数据库(MySQL.Oracle 等).HDF ...
- datax 持续数据同步_采用DataX实现多表增量数据同步
这两天验证了一下阿里的DataX数据同步工具,觉得DataX可以用来做管理数据的多级数据同步.DataX用来做批量数据迁移很适合,能够保证数据的一致性,性能也很好,结合时间戳字段,用来实现数据定时增量 ...
- 高效数据同步工具DataX的使用
一.DataX 简介 DataX 是阿里云 DataWorks 数据集成 的开源版本,主要就是用于实现数据间的离线同步. DataX 致力于实现包括关系型数据库(MySQL.Oracle 等).HDF ...
- 基于dataX的数据同步平台搭建
前言 基于Java和DataX工具实现数据同步的后台管理,包括数据同步任务的生成,任务的管理,查看任务的执行日志,解析任务的执行结果等功能. 内含一些技术实现方案.心得体会和填坑经验等干货. 阅读本文 ...
- DataX离线数据同步
目录 1 DataX 2 ODPS同步数据到HDFS HA 配置 Kerberos 配置 域外访问配置 3 HDFS同步数据到另一个HDFS 4 MongoDB同步数据到HDFS 5 带 Kerber ...
- 大数据时代,数据实时同步解决方案的思考—最全的数据同步总结
1. 早期关系型数据库之间的数据同步 1).全量同步 比如从oracle数据库中同步一张表的数据到Mysql中,通常的做法就是 分页查询源端的表,然后通过 jdbc的batch 方式插入到目标表,这个 ...
- datax 定时执行多个job_数据同步神器Datax源码重构
每日一句永远不要认为我们可以逃避, 我们的每一步都决定着最后的结局, 我们的脚步正在走向我们自己选定的终点.Do not ever think about that we can escape , o ...
- 离线数据同步神器:DataX,支持几乎所有异构数据源的离线同步到MaxCompute
2019独角兽企业重金招聘Python工程师标准>>> 摘要: 概述 DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL.Oracle.SqlSer ...
最新文章
- Spark Streaming使用Kafka保证数据零丢失
- python如何读取mat文件可视化_python Matplotlib数据可视化(1):简单入门
- msf principle
- element-ui table表格内容相同自动合并
- 基于Kafka+Flink+Redis的电商大屏实时计算案例
- PHP file_get_contents 设置超时时间
- PowerDesigner(五)-概念数据模型(CDM生成LDM,PDM和OOM)
- c++反转字符,算法优化与实现
- 数据库的主键Id不是从1开始的
- 到底有多少种病毒?科学家们分析了100多种SARS-CoV-2变种的功能
- 【LeetCode】跳步系列
- STC12C5A60S2 红外遥控 LCD显示
- vscode 如何快速跳出括号
- Docker基础介绍(二)
- 计算机211应届毕业生薪资,毕业生“薪酬”最高的4所211大学,985大学的学生只能羡慕!...
- Linux模板机及集群相关操作
- 从程序员到asp.net架构师转变(转载)
- FineReport 参数级联查询与树集分组序号
- C语言metropolis方法,如何使用Metropolis-Hastings算法将C或C++代码合并到我的R代码中以加速MCMC程序...
- 计算机属性无法查看无反应,Win7旗舰版右键查看计算机属性未反应的处理方法...