数据同步
原始数据在mysql,将数据先同步到Hive,再同步到Hbase(BulkLoad)·
为什么需要使用Hbase??
特点:数据量比较大
存储HBase:存储海量数据、查询检索

centOS7 启动服务的命令

systemctl ststart mysqld

systemctl stop mysqld

systemctl start mysqld

第一步:准备Mysql数据
将tags_dat.sql上传到linux ,将脚本中的tags_dat 改成tags_dat2。
进入mysql k shell窗口,导入数据。
导入数据前mysql 的设置
设置mysql 导入数据允许的最大包大小
set global max_allowed_packet=1024102432;【只在当前会话生效,退出后失效】
mysql>
mysql> source /opt/tags_dat.sql
Query OK, 0 rows affected (0.00 sec)
同步完成

第二步:将Mysql数据写入Hiv1e

使用Sqoop同步mysql数据到hive/hbase
Apache Sqoop是在Hadoop生态体系和RDBMS(传统的关系型数据库)体系之间传送数据的一种工具。仅仅是一个数据传输/数据同步的工具。
同步数据效率非常高的组件。同步历史数据,同步大量数据,都是用sqoop。
历史数据的第一次同步,可能回花费比较多的时间。

关系型数据库可以将历史数据导出到本地,格式可以自定,分隔符可以自定。

Kettle 与Sqoop 集成,在kettle内调用脚本,脚本内编写sqoop同步语句。
azkaban与Sqoop 集成,在azkaban内调用脚本,脚本内编写sqoop同步语句。

Import:数据导入。RDBMS----->Hadoop
Export:数据导出。Hadoop---->RDBMS

在hive还没有数据表的时候,分两步走,
第一步:复制表结构

/export/servers/sqoop/bin/sqoop create-hive-table
–connect jdbc:mysql://bd001:3306/tags_dat2
–table tbl_logs
–username root
–password 123456
–hive-table tags_dat2.tbl_logs
–fields-terminated-by ‘\t’
–lines-terminated-by ‘\n’

/export/servers/sqoop/bin/sqoop create-hive-table
–connect jdbc:mysql://bd001:3306/tags_dat2
–table tbl_goods
–username root
–password 123456
–hive-table tags_dat2.tbl_goods
–fields-terminated-by ‘\t’
–lines-terminated-by ‘\n’

/export/servers/sqoop/bin/sqoop create-hive-table
–connect jdbc:mysql://bd001:3306/tags_dat2
–table tbl_orders
–username root
–password 123456
–hive-table tags_dat2.tbl_orders
–fields-terminated-by ‘\t’
–lines-terminated-by ‘\n’

/export/servers/sqoop/bin/sqoop create-hive-table
–connect jdbc:mysql://bd001:3306/tags_dat2
–table tbl_users
–username root
–password 123456
–hive-table tags_dat2.tbl_users
–fields-terminated-by ‘\t’
–lines-terminated-by ‘\n’

第二步1:同步mysql数据到Hive
练习使用sqoop将数据同步到hive.
后续使用MR.SPARk编写代码生成Hfile文件需要使用到原始数据

/export/servers/sqoop/bin/sqoop import
–connect jdbc:mysql://bd001:3306/tags_dat2
–username root
–password 123456
–table tbl_logs
–direct
–hive-overwrite
–delete-target-dir
–fields-terminated-by ‘\t’
–lines-terminated-by ‘\n’
–hive-table tags_dat2.tbl_logs
–hive-import
–num-mappers 20

/export/servers/sqoop/bin/sqoop import
–connect jdbc:mysql://bd001:3306/tags_dat2
–username root
–password 123456
–table tbl_goods
–direct
–hive-overwrite
–delete-target-dir
–fields-terminated-by ‘\t’
–lines-terminated-by ‘\n’
–hive-table tags_dat2.tbl_goods
–hive-import
–num-mappers 5

/export/servers/sqoop/bin/sqoop import
–connect jdbc:mysql://bd001:3306/tags_dat2
–username root
–password 123456
–table tbl_orders
–direct
–hive-overwrite
–delete-target-dir
–fields-terminated-by ‘\t’
–lines-terminated-by ‘\n’
–hive-table tags_dat2.tbl_orders
–hive-import
–num-mappers 10


/export/servers/sqoop/bin/sqoop import
–connect jdbc:mysql://bd001:3306/tags_dat2
–username root
–password 123456
–table tbl_users
–direct
–hive-overwrite
–delete-target-dir
–fields-terminated-by ‘\t’
–lines-terminated-by ‘\n’
–hive-table tags_dat2.tbl_users2
–hive-import \

第二步2:使用sqoop直接同步mysql数据到Hbase

创建hbase表
create ‘tbl_goods2’,‘detail’
create ‘tbl_orders2’,‘detail’
create ‘tbl_logs2’, ‘detail’, SPLITS => [‘49394’]
create ‘tbl_users2’,‘detail’

加载MYSQL数据到hbase【使用前提:ROWKEY不能为组合字段】
/export/servers/sqoop/bin/sqoop import
-D sqoop.hbase.add.row.key=true
–connect jdbc:mysql://bd001:3306/tags_dat2
–username root
–password 123456
–table tbl_users
–hbase-create-table
–hbase-table tbl_users2
–column-family detail
–hbase-row-key id
–num-mappers 2

使用hbase自带功能导入数据。

基本导入(采用Put方式加载导入)
/user/hive/warehouse/tags_dat2.db/tbl_logs 指的是HDFS路径
HADOOP_HOME=/export/servers/hadoop
HBASE_HOME=/export/servers/hbase
HADOOP_CLASSPATH=${HBASE_HOME}/bin/hbase mapredcp

用户画像业务数据调研及ETL(二)持续更新中...相关推荐

  1. 大数据【企业级360°全方位用户画像】业务数据调研及ETL

    写在前面: 博主是一名大数据的初学者,昵称来源于<爱丽丝梦游仙境>中的Alice和自己的昵称.作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样 ...

  2. 使用二代数据进行基因survey-01cleandata(持续更新中)

    使用二代数据进行基因survey(持续更新中) 这是本人自己测序的二代数据,公司提供的是rawdata.文库350bp.测序类型PE150.二代数据特点就是:短读长,低质量.因此第一步就是过滤数据,得 ...

  3. 大数据用户画像实战之业务数据调研及ETL

    整个用户画像(UserProfile)项目中,数据.业务及技术流程图如下所示: 其中数据源存储在业务系统数据库:MySQL 数据库中,采用SQOOP全量/增量将数据抽取到 HDFS(Hive表中),通 ...

  4. 第四期:有关大数据相关问答汇总,持续更新中~

    NO.1 大数据为什么这么"火"?为什么那么多人转型学大数据? 回答一:身为数据极客,在2017年应该能感觉很幸福. 去年,我们曾经问过大家"大数据还是个值得关注的大事吗 ...

  5. 第三期:有关大数据相关问答汇总,持续更新中~

    NO.1 sql server.my sql.oracle与hadoop,哪个才是未来趋势?到底有什么区别? 回答:SQL server,Mysql,Oracle都可以说是老牌数据库产品了,就产品本身 ...

  6. 【地图匹配(ST-matching)】GPS 轨迹数据预处理——T-Driver数据集【持续更新中】

    一.数据介绍 1.数据链接 https://download.csdn.net/download/skyman30/87432266?spm=1001.2014.3001.5503https://do ...

  7. 数据取证技术面试题(持续更新中)

    最近在自学数据取证下面是我整理的问题和答案,仅供参考如果发现错误可以联系QQ:1024275440 数据取证技术面试题 1.什么是数据取证 电子取证是指从计算机设备中获取信息,供案.事件调查使用. 2 ...

  8. Java、大数据开发学习要点(持续更新中...)

    Java.大数据开发学习要点 这里有作者本人学习Java.大数据开发时的详细知识记录,随时根据学习状态更新. 以下是关于

  9. 基于Flink的个人装扮商城群体用户画像与数据实时统计系统(六)-需求集C实现

    文章目录 一.需求集C有什么? 二.模拟生成用户购买商品的信息 三.需求集C实现 一.需求集C有什么? 所有需求link:基于Flink的个人装扮商城群体用户画像与数据实时统计系统(二)-项目介绍与需 ...

  10. 用户画像构建方法调研和初步解决方案

    近期,由于项目需求,需要构建一套消费者的用户画像.这是一套偏大数据处理和实时数仓领域的解决方案,因为之前对这个领域并不熟悉,因此做了下前期的方案调研和初步的解决方案设计,本文将这个过程做个记录总结,希 ...

最新文章

  1. $.when().done().then()的用法
  2. Zynq-7000系统公共资源及特性
  3. linux ora 01092,ORA-01173的模拟与故障处理
  4. java使用三种循环打印99表_编程题:利用for循环打印 9*9 表
  5. 翻译文章第六章4-7
  6. 事务控制 新增后修改_分布式事务科普(初识篇)
  7. 类的继承查询策略:广度优先
  8. php魔法函数用途,PHP中的Magic Methods (魔术函数)
  9. 2019中国软件百强榜:华为、阿里、百度、腾讯位列前四
  10. 什么是Csrss.exe进程?此进程有何作用?
  11. SAP UI5 应用开发教程之六十一 - 在 SAP UI5 应用里绘制甘特图 Gantt Chart 试读版
  12. 原来收汇宝真的是很烂
  13. matlab去除摩尔纹,索尼ILCE-7RM2测评——理论画质篇
  14. 网页脚本注入执行任意代码
  15. 若依@Excel注解自动获取导出字段,字典解析
  16. 单摆的周期公式推导过程
  17. 【问题与毛病】dell oplex755 bios 放电后xp系统启动就蓝屏,提示硬盘问题
  18. Mybatis持久层开发
  19. 恢复Adobe Phothop CC白图标
  20. 关于部分便携式电脑出现充电显示0%情况的解决方法

热门文章

  1. 【Matlab图像加密】Logistic+Tent+Kent+Henon图像加密与解密【含GUI源码 1745期】
  2. 掌财社寒山:俄罗斯银行将在年底前推出数字卢布原型
  3. html外链自动加nofollow,WordPress文章/页面外链自动添加nofollow属性的方法
  4. 查找——图文翔解SkipList(跳跃表)
  5. python编写自定义函数计算约登值(约登指数、Youden Index)、寻找最佳阈值(threshold、cutoff)、以及最佳阈值对应的ROC曲线中的坐标点
  6. 成都车展:百度车联网的“阅兵”表演
  7. python基础读后感_《Python基础教程读书笔记》
  8. Linux增加一块scsi硬盘,Linux下添加第二块scsi硬盘
  9. 计算学习理论PAC模型
  10. 理解与应用css中的display属性