熬过去,出众。

熬不过,出局。

这是最真实的人生,人都是熬过来的。

Sqoop 是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,它是Hadoop环境下连接关系数据库与Hadoop存储系统的桥梁,支持多种关系型数据源和Hive、HDFS、Hbase的相互导入。支持全表导入,也支持增量数据导入机制,Sqoop工作机制利用MapReduce分布式批处理,加快了数据传输速度和容错性。

选择Sqoop理由:

1、可以高效的利用资源,可以通过调整任务数来控制任务的并发度。

2、可以自动地完成数据类型映射与转换。导入的数据是有类型的,它可以自动根据数据库中的类型转换到Hadoop中,当然也可以自定义他们的映射关系。

3、它支持多种数据库,eg:mysql、Oracle、PostgreSQL。

Sqoop工作原理:

Sqoop利用MapReduce并行特点以批处理的方式加快数据传输,从而提供并发特征和容错。Sqoop主要通过jdbc连接关系型数据库,理论上只有关系型数据库支持JDBC都可以使用Sqoop与HDFS进行数据交互。

1、Sqoop从关系型数据库导入HDFS的原理:用户先输入一个Sqoop import 命令,Sqoop会从关系型数据库中获取元数据信息,包括库信息、表有哪些字段及字段类型等,获取信息后会将导入命令转换为基于Map的MapReduce任务。会开启很多map任务,每个map任务读取一部分数据,多个map任务并行完成数据复制到HDFS分布式文件系统上。

2、Sqoop导出功能原理:用户输入export命令,Sqoop会获取关系型数据表结构信息,建立与Hadoop字段有关系型数据库表字段的映射关系,将命令转换为基于Map的MapReduce作用,生产很多Map任务,并行地从HDFS中读取数据文件,将这个数据复制到数据库中。

Sqoop版本和架构

Sqoop存在两个版本,1.4.x和1.99.x,通常简称为sqoop1和sqoop2

Sqoop1架构师使用Sqoop客户端直接提交的方式,访问方式是CLI控制台方式进行访问,在命令或脚本中指定数据库名及密码。

Sqoop2架构引入了Sqoop Server,集中化管理Connector,提供多种访问方式,如CLI、Web UI、REST API,同时Sqoop2通过CLI方式访问会有一个交互式界面,使输入的密码信息不被看到。

Sqoop不仅可以用于关系型数据库与HDFS文件系统之间进行数据转换,也可以将数据从关系型数据库传输至Hive或Hbase,而对于数据从Hive或者Hbase 传输到关系型数据库来说,则可以从Hive或者Hbase将数据提取至HDFS,然后使用Sqoop将上一步的输出导入到关系数据库。

使用Sqoop增量导入有append 和 lastmodified两种模式,lastmodified模式区别于apend是可以指定一个时间戳字段,按时间顺序导入,这个模型可以指定增量数据在HDFS的方式,比如最终增量结果为一个文件。

需要在应用的主要参数:

-check-column:指定增量导入的依赖字段,通常为自增的主键id或者时间戳

-incremental:指定导入模式(append 或者lastmodified)

-last-value:指定导入的上次最大值,也是这次的开始值。

字段类型 sqoop_数据迁移工具Sqoop相关推荐

  1. oracle更改字段类型 有数据无数据的时候,修改字段长度,增加字段

    有一个表名为tb,字段段名为request_id,数据类型int 更改为VARCHAR2(64). 1.假设字段数据为空,则不管改为什么字段类型,可以直接执行: alter table tb modi ...

  2. 数据湖:数据库数据迁移工具Sqoop

    系列专题:数据湖系列文章 Sqoop(SQL-to-Hadoop)是Apache旗下的一款开源工具,该项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也 ...

  3. 数据迁移工具Sqoop和DataX功能比较

    作者: 大圆那些事 | 文章可以转载,请以超链接形式标明文章原始出处和作者信息 网址: http://www.cnblogs.com/panfeng412/archive/2013/04/29/dat ...

  4. 批量替换sqlserver数据库TEXT字段类型的数据

    在申请百度推广账户的时候,百度需要审查旅游网站不能含有机票两个字,所以需要在旅游线路中批量替换掉机票2个字. 替换示例如下:   --创建数据测试环境 create table #tb(L_TEXT ...

  5. 3.2.3 Sqoop 数据迁移工具, 导入数据import, MySQL到HDFS/Hive, 导出数据export,增量数据导入, Sqoop job,常用命令及参数

    目录 数据迁移工具 -- Sqoop 第一部分 Sqoop概述 第二部分 安装配置 第三部分 应用案例 第 1 节 导入数据import MySQL 到 HDFS MySQL 到 Hive 第 2 节 ...

  6. oracle的insert语句clob,.Net 操作 Oracle CLOB类型字段 INSERT 超长数据

    如果仅仅在数据库中设置了类型为 CLOB 字段类型,使用普通的 INSERT 语句直接写入数据到数据库的话,它依然会将其视为 VARCHAR 类型数据,并最大长度为 4000 字符.超过该长度会报出字 ...

  7. Hibernate3.X实现基于CLOB字段类型的注解方式:

    一:Hibernate3.X实现基于CLOB字段类型的注解方式的例子:下面直接上代码: 二:UserInfo.java package cn.gov.csrc.cms.model;import jav ...

  8. hibernate oracle clob 注解,Hibernate3.X实现基于CLOB字段类型的注解方式:

    一:Hibernate3.X实现基于CLOB字段类型的注解方式的例子:下面直接上代码: 二:UserInfo.java package cn.gov.csrc.cms.model; import ja ...

  9. Sqoop数据迁移工具的使用

    文章作者:foochane 原文链接:https://foochane.cn/article/2019063001.html Sqoop数据迁移工具的使用 sqoop简单介绍 sqoop数据到HDFS ...

最新文章

  1. webgl 游戏_30个令人惊叹的WebGL示例和演示
  2. Codeforces-743D - Chloe and pleasant prizes(树dp)
  3. 微信平台第三方服务器,浅谈微信第三方服务平台的发展前景
  4. Android设计模式之——责任链模式
  5. 【计算机网络】为什么一个路由器会有两个wifi信号
  6. STAT 7008 - Assignment Question 1 (hashtag analysis)
  7. 【Flink】Flink 没有keyBy 某个 subTask 没有数据
  8. 解决:IE中不能自动选择UTF-8编码的解决方法
  9. RK30SDK开发板驱动分析(一):platform device 的概念与注册
  10. 微型计算机硬件认识和拆装,微型计算机系统硬件组成及外设认识.doc
  11. 主辅dns服务器的配置
  12. ConcurrentLinkedQueue since java1.5
  13. Java国密算法加密
  14. WPF教程(四) Hello,WPF!
  15. ADRC自抗扰控制学习
  16. apicloud中阿里云推送使用
  17. appcan mysql_AppCan 双击返回按钮退出应用 | 学步园
  18. PIXI+GSAP 防刹车动效
  19. 如何批量制作准考证——《超级处理器》应用
  20. 开源聚合支付平台学习

热门文章

  1. Dynamics CRM 开启图表的3D效果展示
  2. 使用异或运算交换两个任意类型变量
  3. C++ Primer 第11章 习题11.16
  4. AIX操作命令记录中
  5. MATLAB图像处理基础
  6. 【剑指offer】面试题26:树的子结构(Java)
  7. 云专网和云专线的区别_传统IDC行业与云计算的区别?
  8. python实现rpc框架_使用Python实现RPC框架
  9. ajax datatype_Ajax的基本使用
  10. linux vim复制和粘贴