Java将hive数据导入到hdfs_sqoop数据导入到Hdfs 或者hive
准备一张表
需求 将 bbs_product 表中的前100条数据导 导出来 只要id brand_id和 name 这3个字段
数据存在 hdfs 目录 /user/xuyou/sqoop/imp_bbs_product_sannpy_ 下
bin/sqoop import \
--connect jdbc:mysql://172.16.71.27:3306/babasport \
--username root \
--password root \
--query 'select id, brand_id,name from bbs_product where $CONDITIONS LIMIT 100' \
--target-dir /user/xuyou/sqoop/imp_bbs_product_sannpy_ \
--delete-target-dir \
--num-mappers 1 \
--compress \
--compression-codec org.apache.hadoop.io.compress.SnappyCodec \
--fields-terminated-by '\t'
ps: 如果导出的数据库是mysql 则可以添加一个 属性 --direct
1 bin/sqoop import \
2 --connect jdbc:mysql://172.16.71.27:3306/babasport \
3 --username root \
4 --password root \
5 --query 'select id, brand_id,name from bbs_product where $CONDITIONS LIMIT 100' \
6 --target-dir /user/xuyou/sqoop/imp_bbs_product_sannpy_ \
7 --delete-target-dir \
8 --num-mappers 1 \
9 --compress \
10 --compression-codec org.apache.hadoop.io.compress.SnappyCodec \
11 --direct \
12 --fields-terminated-by '\t'
加了 direct 属性在导出mysql数据库表中的数据会快一点 执行的是mysq自带的导出功能
第一次执行所需要的时间
第二次执行所需要的时间 (加了direct属性)
执行成功
2:启动hive 在hive中创建一张表
1 drop table if exists default.hive_bbs_product_snappy ;
2 create table default.hive_bbs_product_snappy(
3 id int,
4 brand_id int,
5 name string
6 )
7 ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' ;
3:将hdfs中的数据导入到hive中
1 load data inpath '/user/xuyou/sqoop/imp_bbs_product_sannpy_' into table default.hive_bbs_product_snappy ;
4:查询 hive_bbs_product_snappy 表
1 select * from hive_bbs_product_snappy;
此时hdfs 中原数据没有了
然后进入hive的hdfs存储位置发现
注意 :sqoop 提供了 直接将mysql数据 导入 hive的 功能 底层 步骤就是以上步骤
创建一个文件 touch test.sql 编辑文件 vi test.sql
1 use default;
2 drop table if exists default.hive_bbs_product_snappy ;
3 create table default.hive_bbs_product_snappy(
4 id int,
5 brand_id int,
6 name string
7 )
8 ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' ;
在 启动hive的时候 执行 sql脚本
bin/hive -f /opt/cdh-5.3.6/sqoop-1.4.5-cdh5.3.6/test.sql
执行sqoop直接导入hive的功能
1 bin/sqoop import \
2 --connect jdbc:mysql://172.16.71.27:3306/babasport \
3 --username root \
4 --password root \
5 --table bbs_product \
6 --fields-terminated-by '\t' \
7 --delete-target-dir \
8 --num-mappers 1 \
9 --hive-import \
10 --hive-database default \
11 --hive-table hive_bbs_product_snappy
看日志输出可以看出 在执行map任务之后 又执行了load data
查询 hive 数据
Java将hive数据导入到hdfs_sqoop数据导入到Hdfs 或者hive相关推荐
- hive(3)HiveQL数据定义
HiveQL与传统SQL区别 HiveQL是Hive的查询语言.与mysql的语言最接近,但还是存在于差异性,表现在:Hive不支持行级插入操作.更新操作和删除操作,不支持事物. 基本语法 数据库操作 ...
- pb 窗口数据修改sql_大数据hadoop,数据中台选型你应该看到这些分布式数据库
长期以来,由于以hadoop为核心的生态系统霸占了大数据的各个角度,以至于我们以为大数据就是hadoop.诚然,自hadoop诞生以来,hive+hbase掀起第一个高潮,而后Spark和Flink更 ...
- 巨坑:从Sqoop导入MySQL导入TINYINT(1)类型数据到hive(tinyint),数据为null
问题描述 从Sqoop导入MySQL导入TINYINT(1)类型数据到hive(tinyint),数据为null 问题原因 Sqoop在抽取数据到Hive或者HDFS时,会自动将类型为Tinyint( ...
- excel文件导入hive乱码_hive 从Excel中导入数据
拿到Excel表后将数据保留,其他的乱七八糟都删掉,然后另存为txt格式的文本,用nodepad++将文本转换为UTF-8编码,此处命名为cityprovince.txt 将cityprovince. ...
- Sqoop将MySQL数据导入到HDFS和Hive中
一.将数据从mysql导入 HDFS sqoop import --connect jdbc:mysql://192.168.76.1:3306/workflow --username root -- ...
- Hive数据导入——数据存储在Hadoop分布式文件系统中,往Hive表里面导入数据只是简单的将数据移动到表所在的目录中!...
转自:http://blog.csdn.net/lifuxiangcaohui/article/details/40588929 Hive是基于Hadoop分布式文件系统的,它的数据存储在Hadoop ...
- 学习笔记Hive(四) —— Hive应用(2)—— Hive导入及导出数据
四.Hive导入及导出数据 通过HDFS直接导入导出 通过Hive命令导入导出 4.1.Hive导入数据的语法 LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRI ...
- java excel data 导入数据_java实现导入导出excel数据
项目需要,要实现一个导入导出excel的功能,于是,任务驱动着我学习到了POI和JXL这2个java操作Excel的插件. 一.POI和JXL介绍 1.POI:是对所有office资源进行读写的一套工 ...
- flume avro java 发送数据_flume将数据发送到kafka、hdfs、hive、http、netcat等模式的使用总结...
1.source为http模式,sink为logger模式,将数据在控制台打印出来. conf配置文件如下: # Name the components on this agent a1.source ...
最新文章
- C++基本语法的知识体系
- window python输入路径问题--转义字符
- Serverless:为我们到底带来了什么
- 增强学习(一) ----- 基本概念
- HDU 5489 Removed Interval
- wxWidgets:wxThread类用法
- 瞿菡云计算机,“国家资助 伴我成长”——我校学生王丽娜、肖云菡荣获中职教育“国家奖学金”事迹材料...
- iOS应用内付费(IAP)开发步骤列表
- DES和AES加密:指定键的大小对于此算法无效
- Linux系统:centos7下搭建Nginx和FastDFS文件管理中间件
- 校招刷题---java选择题笔记05
- Joyoshare VidiKit教程:如何将字幕添加到WMV电影中?
- kali:用TheFatRat攻击win10
- R数据分析:二分类因变量的混合效应,多水平logistics模型介绍
- SSIS ODBC方式连接mysql数据库、oracle数据库
- 让你的Win10桌面比macOS还简洁漂亮高大上
- 补天白帽大会五大热点前瞻
- 浏览器y轴滚动条占据宽度,导致出现x轴滚动条的解决方案
- 什么是Google Voice
- ShortcutBadger
热门文章
- 缺少.lib文件导致的Link2019 解决方案汇总
- nginx配置与常见错误解决方法
- Spring/Spring boot正确集成Quartz及解决@Autowired失效问题
- 解决 VMWARE MAC 10.12无法全屏的问题
- 微软牛津计划介绍——屌爆了的自然数据处理解决方案(人脸/语音识别,计算机视觉与语言理解)
- .NET Core SDK在Windows系统安装后出现Failed to load the hostfxr.dll等问题的解决方法
- 如何为iPhone 5屏幕分辨率开发或迁移应用程序?
- 如何获取PHP中的当前日期和时间?
- 网卡驱动怎么安装方法教程
- 表格嵌套_HTML |2| 表格与列表