用户画像业务数据调研及ETL(二)持续更新中...

数据同步
原始数据在mysql,将数据先同步到Hive,再同步到Hbase（BulkLoad）·
为什么需要使用Hbase??
特点：数据量比较大
存储HBase：存储海量数据、查询检索

centOS7 启动服务的命令

systemctl ststart mysqld

systemctl stop mysqld

systemctl start mysqld

第一步：准备Mysql数据
将tags_dat.sql上传到linux ,将脚本中的tags_dat 改成tags_dat2。
进入mysql k shell窗口，导入数据。
导入数据前mysql 的设置
设置mysql 导入数据允许的最大包大小
set global max_allowed_packet=1024102432;【只在当前会话生效，退出后失效】
mysql>
mysql> source /opt/tags_dat.sql
Query OK, 0 rows affected (0.00 sec)
同步完成

第二步：将Mysql数据写入Hiv1e

使用Sqoop同步mysql数据到hive/hbase
Apache Sqoop是在Hadoop生态体系和RDBMS（传统的关系型数据库）体系之间传送数据的一种工具。仅仅是一个数据传输/数据同步的工具。
同步数据效率非常高的组件。同步历史数据，同步大量数据，都是用sqoop。
历史数据的第一次同步，可能回花费比较多的时间。

关系型数据库可以将历史数据导出到本地，格式可以自定，分隔符可以自定。

Kettle 与Sqoop 集成，在kettle内调用脚本，脚本内编写sqoop同步语句。
azkaban与Sqoop 集成，在azkaban内调用脚本，脚本内编写sqoop同步语句。

Import：数据导入。RDBMS----->Hadoop
Export：数据导出。Hadoop---->RDBMS

在hive还没有数据表的时候，分两步走，
第一步：复制表结构

/export/servers/sqoop/bin/sqoop create-hive-table
–connect jdbc:mysql://bd001:3306/tags_dat2
–table tbl_logs
–username root
–password 123456
–hive-table tags_dat2.tbl_logs
–fields-terminated-by ‘\t’
–lines-terminated-by ‘\n’

/export/servers/sqoop/bin/sqoop create-hive-table
–connect jdbc:mysql://bd001:3306/tags_dat2
–table tbl_goods
–username root
–password 123456
–hive-table tags_dat2.tbl_goods
–fields-terminated-by ‘\t’
–lines-terminated-by ‘\n’

/export/servers/sqoop/bin/sqoop create-hive-table
–connect jdbc:mysql://bd001:3306/tags_dat2
–table tbl_orders
–username root
–password 123456
–hive-table tags_dat2.tbl_orders
–fields-terminated-by ‘\t’
–lines-terminated-by ‘\n’

/export/servers/sqoop/bin/sqoop create-hive-table
–connect jdbc:mysql://bd001:3306/tags_dat2
–table tbl_users
–username root
–password 123456
–hive-table tags_dat2.tbl_users
–fields-terminated-by ‘\t’
–lines-terminated-by ‘\n’

第二步1：同步mysql数据到Hive
练习使用sqoop将数据同步到hive.
后续使用MR.SPARk编写代码生成Hfile文件需要使用到原始数据

/export/servers/sqoop/bin/sqoop import
–connect jdbc:mysql://bd001:3306/tags_dat2
–username root
–password 123456
–table tbl_logs
–direct
–hive-overwrite
–delete-target-dir
–fields-terminated-by ‘\t’
–lines-terminated-by ‘\n’
–hive-table tags_dat2.tbl_logs
–hive-import
–num-mappers 20

/export/servers/sqoop/bin/sqoop import
–connect jdbc:mysql://bd001:3306/tags_dat2
–username root
–password 123456
–table tbl_goods
–direct
–hive-overwrite
–delete-target-dir
–fields-terminated-by ‘\t’
–lines-terminated-by ‘\n’
–hive-table tags_dat2.tbl_goods
–hive-import
–num-mappers 5

/export/servers/sqoop/bin/sqoop import
–connect jdbc:mysql://bd001:3306/tags_dat2
–username root
–password 123456
–table tbl_orders
–direct
–hive-overwrite
–delete-target-dir
–fields-terminated-by ‘\t’
–lines-terminated-by ‘\n’
–hive-table tags_dat2.tbl_orders
–hive-import
–num-mappers 10

/export/servers/sqoop/bin/sqoop import
–connect jdbc:mysql://bd001:3306/tags_dat2
–username root
–password 123456
–table tbl_users
–direct
–hive-overwrite
–delete-target-dir
–fields-terminated-by ‘\t’
–lines-terminated-by ‘\n’
–hive-table tags_dat2.tbl_users2
–hive-import \

第二步2：使用sqoop直接同步mysql数据到Hbase

创建hbase表
create ‘tbl_goods2’,‘detail’
create ‘tbl_orders2’,‘detail’
create ‘tbl_logs2’, ‘detail’, SPLITS => [‘49394’]
create ‘tbl_users2’,‘detail’

加载MYSQL数据到hbase【使用前提：ROWKEY不能为组合字段】
/export/servers/sqoop/bin/sqoop import
-D sqoop.hbase.add.row.key=true
–connect jdbc:mysql://bd001:3306/tags_dat2
–username root
–password 123456
–table tbl_users
–hbase-create-table
–hbase-table tbl_users2
–column-family detail
–hbase-row-key id
–num-mappers 2

使用hbase自带功能导入数据。

基本导入（采用Put方式加载导入）
/user/hive/warehouse/tags_dat2.db/tbl_logs 指的是HDFS路径
HADOOP_HOME=/export/servers/hadoop
HBASE_HOME=/export/servers/hbase
HADOOP_CLASSPATH=${HBASE_HOME}/bin/hbase mapredcp

用户画像业务数据调研及ETL(二)持续更新中...相关推荐

大数据【企业级360°全方位用户画像】业务数据调研及ETL
写在前面: 博主是一名大数据的初学者,昵称来源于<爱丽丝梦游仙境>中的Alice和自己的昵称.作为一名互联网小白,写博客一方面是为了记录自己的学习历程,一方面是希望能够帮助到很多和自己一样 ...
使用二代数据进行基因survey-01cleandata（持续更新中）
使用二代数据进行基因survey(持续更新中) 这是本人自己测序的二代数据,公司提供的是rawdata.文库350bp.测序类型PE150.二代数据特点就是:短读长,低质量.因此第一步就是过滤数据,得 ...
大数据用户画像实战之业务数据调研及ETL
整个用户画像(UserProfile)项目中,数据.业务及技术流程图如下所示: 其中数据源存储在业务系统数据库:MySQL 数据库中,采用SQOOP全量/增量将数据抽取到 HDFS(Hive表中),通 ...
第四期：有关大数据相关问答汇总，持续更新中~
NO.1 大数据为什么这么"火"?为什么那么多人转型学大数据? 回答一:身为数据极客,在2017年应该能感觉很幸福. 去年,我们曾经问过大家"大数据还是个值得关注的大事吗 ...
第三期：有关大数据相关问答汇总，持续更新中~
NO.1 sql server.my sql.oracle与hadoop,哪个才是未来趋势?到底有什么区别? 回答:SQL server,Mysql,Oracle都可以说是老牌数据库产品了,就产品本身 ...
【地图匹配（ST-matching）】GPS 轨迹数据预处理——T-Driver数据集【持续更新中】
一.数据介绍 1.数据链接 https://download.csdn.net/download/skyman30/87432266?spm=1001.2014.3001.5503https://do ...
数据取证技术面试题（持续更新中）
最近在自学数据取证下面是我整理的问题和答案,仅供参考如果发现错误可以联系QQ:1024275440 数据取证技术面试题 1.什么是数据取证电子取证是指从计算机设备中获取信息,供案.事件调查使用. 2 ...
Java、大数据开发学习要点（持续更新中...）
Java.大数据开发学习要点这里有作者本人学习Java.大数据开发时的详细知识记录,随时根据学习状态更新. 以下是关于
基于Flink的个人装扮商城群体用户画像与数据实时统计系统(六)-需求集C实现
文章目录一.需求集C有什么? 二.模拟生成用户购买商品的信息三.需求集C实现一.需求集C有什么? 所有需求link:基于Flink的个人装扮商城群体用户画像与数据实时统计系统(二)-项目介绍与需 ...
用户画像构建方法调研和初步解决方案
近期,由于项目需求,需要构建一套消费者的用户画像.这是一套偏大数据处理和实时数仓领域的解决方案,因为之前对这个领域并不熟悉,因此做了下前期的方案调研和初步的解决方案设计,本文将这个过程做个记录总结,希 ...

用户画像业务数据调研及ETL(二)持续更新中...

用户画像业务数据调研及ETL(二)持续更新中...相关推荐

最新文章

热门文章