Sqoop是Apache基金下的开源项目,目的是完成关系数据库和Hadoop的转化,实现双向导入。

通常的大型数据系统使用之实现较少,主要原因是因为其在CDH3才开始支持,而且该方式是通过JDBC驱动,将数据库进行读取,并将数据转换至HDFS文件,通常会影响热数据的使用。但是做为日常工作,需要转换时,还是会提供一些方便。

CDH3版本的Sqoop已经默认安装了,其构建在MapReduce之上,不同于直接拷贝,其通过JDBC驱动连接实现hadoop和关系数据库之间的通信。

在进行sqoop前,需要把对应的JDBC驱动放到对应的lib目录。

sqoop命令参数:

import ##表示导入数据

--connect jdbc:mysql://ip:3306/sqoop ##指定连接mysql的url

--username test ##连接mysql的用户名

--password test1 ##连接mysql的密码

--table weblogs ##从mysql导出的表名称

--fields-terminated-by '\t' ##指定输出文件中的行的字段分隔符

--m1 ##复制过程使用1个map作业

--target-dir /data/weblogs/import ##指定HDFS上存放的路径

其中,username和password用于验证访问mysql的权限,必须在hadoop的用户名中出现。

默认情况下,导入的数据按照主键进行分割,如果导入的表不包含主键,就用--split-by参数决定导入的数据如何分割。

Sqoop命令将转化为mapreduce作业,使用DBInputFormat,格式化查询结果。因为其进行全表扫描,使用时需要谨慎。

Hadoop冷热数据转换工具Sqoop相关推荐

  1. 数据同步工具Sqoop

    大数据Hadoop之--数据同步工具Sqoop Sqoop基本原理及常用方法 1 概述 Apache Sqoop(SQL-to-Hadoop)项目旨在协助RDBMS(Relational Databa ...

  2. Hadoop和关系型数据库间的数据传输工具——Sqoop

    Hadoop和关系型数据库间的数据传输工具--Sqoop 一.Sqoop简介以及使用 1.1.产生背景 基于传统关系型数据库的稳定性,还是有很多企业将数据存储在关系型数据库中:早期由于工具的缺乏,Ha ...

  3. Hadoop学习笔记—18.Sqoop框架学习

    Hadoop学习笔记-18.Sqoop框架学习 一.Sqoop基础:连接关系型数据库与Hadoop的桥梁 1.1 Sqoop的基本概念 Hadoop正成为企业用于大数据分析的最热门选择,但想将你的数据 ...

  4. Hadoop系列 (九):Sqoop详细介绍

    文章目录 Hadoop系列文章 Sqoop简介 Sqoop架构 Sqoop数据导入 Sqoop数据导出 Sqoop安装部署 版本介绍 前提环境 下载 安装配置 Sqoop的使用 构建测试数据 将MyS ...

  5. hadoop的开发工具_Hadoop开发工具简介

    hadoop的开发工具 几天前, Apache Hadoop开发工具 (又名HDT )发布了. 这些项目旨在将插件引入eclipse中,以简化Hadoop平台上的开发. 该博客旨在概述HDT的一些重要 ...

  6. python数值转换机_用于ETL的Python数据转换工具详解

    ETL的考虑 做 数据仓库系统,ETL是关键的一环.说大了,ETL是数据整合解决方案,说小了,就是倒数据的工具.回忆一下工作这么些年来,处理数据迁移.转换的工作倒 还真的不少.但是那些工作基本上是一次 ...

  7. java常用二进制数据转换工具

    经常需要与plc,单片机,传感器通讯,需要解析设备数据,java跟C不同,需要二进制转换成java的数据,因此整理了一个工具,共享出来,欢迎大家来指正. /**  * 常用二进制数据转换工具  * @ ...

  8. arcgis Card Conversion Tools(数据转换工具介绍)

    Card Conversion Tools(转换工具) 工具箱介绍 Arcgis Conversion Tools 提供了当下绝大多数地理空间数据和地理属性数据的各种数据格式之间的转换,我们常用的且移 ...

  9. 大数据基础(二)hadoop, mave, hbase, hive, sqoop在ubuntu 14.04.04下的安装和sqoop与hdfs,hive,mysql导入导出

    hadoop, mave, hbase, hive, sqoop在ubuntu 14.04.04下的安装 2016.05.15 本文测试环境: hadoop2.6.2 ubuntu 14.04.04 ...

最新文章

  1. kitbash贫民区三维场景模型 Kitbash3d – Favelas
  2. Zookeeper集群 + Kafka集群 + KafkaOffsetMonitor 监控
  3. oracle地址已被占用,Listener Tns-12542:Tns:地址已被占用
  4. mysql sql模式_MySQL SQL模式特点汇总
  5. (视频+图文)机器学习入门系列-第1章 引言
  6. sql 递归查询所有的下级
  7. IOS视频播放器的制作
  8. 从ThoughtWorks 2017技术雷达看微软技术
  9. 数组元素的地址计算问题(一维到高维)
  10. Java的正则表达式
  11. Radware LP 增加线路接口操作
  12. 前台文件PHP完善步骤,ThinkPHP使用步骤
  13. 为什么需要软件过程改善(Software Process Improvement)?
  14. [mysqld_safe]centos7 mysql 安装与配置
  15. 架构师资源汇总 从入门到精通 将近20年的工作经验毫无保留分享
  16. 计算机房设计规范2008,电子信息系统机房设计规范(GB50174-2008)(下)
  17. C# Entity单条件查询与多条件查询
  18. 如何区别聚合支付“一清二清”?
  19. ros2订阅esp32发布的电池电压数据-补充
  20. Qt5.14.2使用虚拟键盘

热门文章

  1. 计算机组成原理 华南理工,华南理工2017计算机组成原理随堂练习
  2. apache php5.3 配置_php-5.3+APACHE 安装配置
  3. roc曲线怎么绘制_利用ROC曲线寻找最佳cutoff值(连续型变量组成的riskscore)
  4. 关于laravel框架中and 和orWhere 的多条件嵌套
  5. Redis(5种数据类型)
  6. outlook 未安装信息服务器,Outlook Web Access 未初始化并且在客户端访问服务器上的应用程序日志中记录了事件 ID 64...
  7. 【若依(ruoyi)】弹框图标 / layer 图标
  8. linux下执行shell脚本文件,Linux下使用shell脚本自动执行脚本文件
  9. java插入时间 mssql_JAVA操作数据库Datetime数据
  10. jQuery的AJAX