day03

今日内容:

1- sqoop的基本使用操作 (掌握)
2- 业务数据准备工作 (参考笔记搞定)
3- HIVE的基础优化 (了解, 需要记录, 形成HIVE的优化文档)
4- 完成ODS层数据采集操作 (全量采集和增量采集) (操作,尽量独立尝试完成)

1 sqoop的基本使用操作

sqoop是apache旗下顶级项目. 主要是用于 RDBMS 和大数据生态圈之间的数据导入导出的工具, 从RDBMS 到大数据生态圈是导入操作, 反之为导出操作

sqoop本质上也是一款翻译软件, 将sqoop的命令翻译为 MR程序

关于使用sqoop 将数据导入到HIVE, 支持两种导入方案: 原生导入方案和 hcatalog方式

区别点:  如果使用原生导入方式, 导入HIVE , 仅支持 textFile导入方式hcatalog支持数据存储方案比较多: textFile, ORC, sequence, parquet....原生方式支持数据覆盖导入hcatalog仅支持追加导入原生方式在导入时候, 根据字段的顺序, 导入到HIVE中hcatalog在导入的时候, 是根据字段的名称导入的    (此部分建议在导入到HIVE , hive表字段的顺序 和 mysql表字段顺序保持一致, 名称保持一致)

后续主要采用 hcatalog的导入方式, 因为建表的时候, 主要存储格式为 ORC

1.1 基本使用操作

1- 如何查看 sqoop的帮助文档

sqoop  help

如何查看某个操作下的相关的参数信息:
sqoop 操作 --help

2- 查询mysql中所有的库有那些?

思考: 连接mysql需要知道什么信息呢? 1- 用户名  2- 密码  3- 连接地址

sqoop list-databases --connect jdbc:mysql://hadoop01:3306  --username root  --password 123456

3- 查询mysql中scm中所有的表

sqoop list-tables \
--connect jdbc:mysql://hadoop01:3306/scm \
--username root \
--password 123456


\ : 未完待续

1.2 数据全量导入操作

准备工作:

create database test default character set utf8mb4 collate utf8mb4_unicode_ci;
use test;

create table emp
(id     int         not nullprimary key,name   varchar(32) null,deg    varchar(32) null,salary int         null,dept   varchar(32) null
);

INSERT INTO emp (id, name, deg, salary, dept) VALUES (1201, 'gopal', 'manager', 50000, 'TP');
INSERT INTO emp (id, name, deg, salary, dept) VALUES (1202, 'manisha', 'Proof reader', 50000, 'TP');
INSERT INTO emp (id, name, deg, salary, dept) VALUES (1203, 'khalil', 'php dev', 30000, 'AC');
INSERT INTO emp (id, name, deg, salary, dept) VALUES (1204, 'prasanth', 'php dev', 30000, 'AC');
INSERT INTO emp (id, name, deg, salary, dept) VALUES (1205, 'kranthi', 'admin', 20000, 'TP');

create table emp_add
(id     int         not nullprimary key,hno    varchar(32) null,street varchar(32) null,city   varchar(32) null
);

INSERT INTO emp_add (id, hno, street, city) VALUES (1201, '288A', 'vgiri', 'jublee');
INSERT INTO emp_add (id, hno, street, city) VALUES (1202, '108I', 'aoc', 'sec-bad');
INSERT INTO emp_add (id, hno, street, city) VALUES (1203, '144Z', 'pgutta', 'hyd');
INSERT INTO emp_add (id, hno, street, city) VALUES (1204, '78B', 'old city', 'sec-bad');
INSERT INTO emp_add (id, hno, street, city) VALUES (1205, '720X', 'hitec', 'sec-bad');

create table emp_conn
(id    int         not nullprimary key,phno  varchar(32) null,email varchar(32) null
);

INSERT INTO emp_conn (id, phno, email) VALUES (1201, '2356742', 'gopal@tp.com');
INSERT INTO emp_conn (id, phno, email) VALUES (1202, '1661663', 'manisha@tp.com');
INSERT INTO emp_conn (id, phno, email) VALUES (1203, '8887776', 'khalil@ac.com');
INSERT INTO emp_conn (id, phno, email) VALUES (1204, '9988774', 'prasanth@ac.com');
INSERT INTO emp_conn (id, phno, email) VALUES (1205, '1231231', 'kranthi@tp.com');

如何全量将数据导入到HDFS中:
- 需求一: 将 emp表中数据导入到HDFS中

需要知道什么信息?  数据库的基本信息(连接地址, 用户名, 密码, 表名)  目的地的路径信息

方式一:
sqoop import \
--connect jdbc:mysql://hadoop01:3306/test \
--username root \
--password 123456 \
--table emp

说明: 1- 当不指定导出路径的时候, 默认会将数据导入到当前操作用户的HDFS的家目录下, 再次目录下以表名创建一个文件夹, 将数据放置到这个文件夹中2- 发现在导入数据的时候, 有多少条数据, 就会运行多少个mapTask, 最高和cpu核数相等3- 数据之间的分隔符号为 逗号思考: 是否可以将其导入到其他位置呢? --target-dir  和  --delete-target-dir
sqoop import \
--connect jdbc:mysql://hadoop01:3306/test \
--username root \
--password 123456 \
--table emp \
--delete-target-dir \
--target-dir /sqoop_works/emp

说明:--target-dir : 将数据导入到HDFS的那个位置中--delete-target-dir: 如果目的地路径以存在, 先删除

思考: 是否可以设置其mapTask的数量呢?  -m  和 --split-by
sqoop import \
--connect jdbc:mysql://hadoop01:3306/test \
--username root \
--password 123456 \
--table emp \
--delete-target-dir \
--target-dir /sqoop_works/emp \
-m 2 \
--split-by id

说明:如果  -m为1 , 表示只允许一个mapTask, 此时可能省略 --split-by --split-by  表示按照那个字段进行切割数据表, 一般设置为主键字段, 如果主键字段是多个, 那么就写多个, 用逗号隔开


思考: 是否可以调整分隔符号呢? 比如说 设置为 |  参数: --fields-terminated-by
sqoop import \
--connect jdbc:mysql://hadoop01:3306/test \
--username root \
--password 123456 \
--table emp \
--delete-target-dir \
--target-dir /sqoop_works/emp \
--fields-terminated-by  '|' \
-m 1

如何全量导入数据到HIVE中
- 需求: 将 emp_add 这个表的全部数据导入到HIVE的对应表中

# 1- 在HIVE中创建目标表
create database if not exists day03_xls;

create table if not exists day03_xls.emp_add(id int,hno string,street string,city string
)
row format delimited fields terminated by '\t' stored as orc;

# 2- 编写 sqoop命令 完成数据导入操作
sqoop import \
--connect jdbc:mysql://hadoop01:3306/test \
--username root \
--password 123456 \
--table emp_add \
--fields-terminated-by  '\t' \
--hcatalog-database 'day03_xls' \
--hcatalog-table 'emp_add' \
-m 1


注意:由于 hive表的存储格式为 orc, 所以无法使用sqoop的原生导入方案, 必须使用hcatalog

1.3 数据条件导入数据

方式一: 通过 where条件的方式, 将部分数据导入到HDFS中

# 1- 以 emp为例, 在这个表中, 新增一条数据, 尝试将这一条数据导入到HDFS中
INSERT INTO  test.emp VALUES(1206,'zhangsan','bigdata dev','30000','TP');


# 2- 通过 sqoop实现数据条件导入
sqoop import \
--connect jdbc:mysql://hadoop01:3306/test \
--username root \
--password 123456 \
--table emp \
--where 'id > 1205' \
--delete-target-dir \
--target-dir /sqoop_works/emp_1 \
--fields-terminated-by  '|' \
-m 1

方式二: 通过 SQL的方式, 将部分数据导入到HDFS中:

# 1- 以 emp为例, 在这个表中, 新增一条数据, 尝试将这一条数据导入到HDFS中
INSERT INTO  test.emp VALUES(1207,'lisi','bigdata dev','50000','TP');# 2- 使用sqoop条件导入数据: 采用 SQL形式
sqoop import \
--connect jdbc:mysql://hadoop01:3306/test \
--username root \
--password 123456 \
--query 'select * from emp where id > 1206 and $CONDITIONS' \
--delete-target-dir \
--target-dir /sqoop_works/emp_2 \
--fields-terminated-by  '|' \
-m 1注意: 1- 当使用 --query 方式的时候, 不允许在使用 --table, 因为 SQL中已经明确需要导入那个表的数据2- 当使用 --query 方式的时候, 编写的SQL语句必须添加where条件, 条件最后必须要跟 $CONDITIONS, 如果使用双引号包裹SQL, $前面必须加一个 \ 进行转义操作, 当如果没有条件的时候,建议写成: where 1=1 and $CONDITIONS

如何导入HIVE呢? 以其中SQL为例

#1- 先在mysql中, 新增一条数据:
INSERT INTO  test.emp_add VALUES(1206,'412Q','aoc','sec-bad');#2- 使用 sqoop 完成导入操作
sqoop import \
--connect jdbc:mysql://hadoop01:3306/test \
--username root \
--password 123456 \
--query 'select * from emp_add where id = 1206 and $CONDITIONS' \
--hcatalog-database 'day03_xls' \
--hcatalog-table 'emp_add' \
--fields-terminated-by  '\t' \
-m 1思考: 如果HIVE中表的字段名字 和 mysql中表字段的名字不一样, 如何搞呢?  使用SQL方式来导入, 在导入的时候, 通过对字段重新起别名的方式进行导入操作  select id as sid from xxx

1.4 数据全量导出操作

需求: 将HIVE中 emp_add表中所有的数据全量导出MySQL中

步骤一:  在MySQL中创建目标表
CREATE TABLE test.emp_add_mysql (id INT,hno VARCHAR(20),street VARCHAR(20),city VARCHAR(20)
);步骤二: 执行sqoop导出操作sqoop export \
--connect jdbc:mysql://hadoop01:3306/test \
--username root \
--password 123456 \
--table emp_add_mysql \
--fields-terminated-by  '\t' \
--hcatalog-database 'day03_xls' \
--hcatalog-table 'emp_add' \
-m 1注意:在执行数据导出的时候, 必须先创建目标表, 然后才能触发执行导出

1.5 相关的sqoop参数

-- null-string 和 --null-non-string 主要用于将数据源中 NULL数据,转换为空

2. 业务数据准备工作

2.1 安装 DBeaver

1) 将资料中提供的 DBeaver压缩包, 将其解压到一个没有中文和空格目录下

1. 对dbeaver软件进行绿化操作:
- 2.1: 将绿化包中 dbeaver-agent.jar 拷贝到 dbeaver的解压目录下
- 2.2: 编辑 dbeaver下的 dbeaver.ini文件
```
添加如下的内容:
-javaagent:dbeaver-agent.jar的绝对路径地址
```
- 2.3 在电脑中添加jdk环境变量
  - 2.3.1 将资料中提供的 jdk1.8的目录放置到一个没有中文和空格目录下
  - 2.3.2 打开电脑的环境变量的配置:
- 2.4 启动dbeaver:
  - 启动后, 如果提示更新或者其他, 一律选择不处理, 直接关闭, 或者取消

2.2 在dbeaver连接mysql数据库

2.3 导入业务端数据

业务数据脚本

基于dbeaver实现数据导入操作

说明: 如果部分同学, 使用dbeaver无法将数据导入进去, 切换为 sqlyog完成即可, 不要使用dbeaver导入了

方式三:

执行:

命令：source  SQL脚本路径 前提:  需要下将脚本上传到linux上

3. hive的基础优化(都不要去调整)

3.1 HDFS的副本数量的调整

一般HDFS的副本数量设置为3, 如果数据不是特别重要建议设置为2

注意: 在HDFS的3.0版本后, 起始可以调整为1.5 (1个副本 + 纠删码(占用副本50%大小))

3.2 nodemanager的相关基础配置 (测试暂不调整)

CPU配置操作:
- 配置项：yarn.nodemanager.resource.cpu-vcores (直接在CM上修改YARN配置即可)
- 默认值为: 8 yarn不会自动检测服务器的CPU核心数, 一般都需要手动调整
- 推荐配置: 对应服务器是多少核就配置多少核
```
查看服务器CPU的核心数:
方式一: 命令行方式grep 'processor' /proc/cpuinfo | sort -u | wc -l
方式二: 直接通过CM查询
```
- 如何配置: 直接在CM上进行调整即可
内存配置:
- 配置项：
  - yarn.nodemanager.resource.memory-mb (直接在CM上进行配置即可)
  - yarn.scheduler.maximum-allocation-mb :调度器内存配置, 和第一个保持一致
  - yarn.app.mapreduce.am.command-opts : 略小于第一个配置内存大小
- 默认值: 8GB yarn不会自动检测服务器的内存值, 一般都需要手动调整
- 推荐配置: 剩余内存 * 0.8 左右
- 如何配置: 直接在CM上配置即可

本地目录的配置
- 配置项:yarn.nodemanager.local-dirs（Yarn）
- 说明: 在执行MR过程中, nodemanager产生临时文件存储在那些目录中
- 推荐配置: 服务器挂载了几个磁盘, 就配置几个目录一个目录对应其中一个磁盘位置
```
磁盘挂载目录的查询命令:df -lh
```

3.3 MapReduce的内存配置

相关内存配置内容 (一般都是先不配置, 正常使用即可, 如果发现执行效率非常慢, 可以尝试调整内存配置)

mapreduce.map.memory.mb:  用于配置map的内存大小
mapreduce.reduce.memory.mb: 用于配置reduce的内存大小mapreduce.map.java.opts : 用于配置map的jvm的内存大小
mapreduce.reduce.java.opts: 用于配置reduce的jvm的内存大小说明:  1. 对应jvm的内存配置要略小于 map或者reduce的内存大小配置2. map和reduce的内存配置大小, 不能超过nodemanager的内存大小

一行配置均可在CM上直接配置

3.4 hive的基础配置

hiveserver2的java堆栈的内存配置
- 配置项: HiveServer2 的 Java 堆栈大小（字节）
此配置后续会有一个报错, 反应就是此配置过小:

此操作在遇到问题, 在进行调整, 此时暂不调整
HIVE并行编译
- 默认情况, HIVE同时只能编译一段HIVE SQL, 并上锁
- 配置项: hive.driver.parallel.compilation
生成动态分区的线程数量:
- 配置项: hive.load.dynamic.partitions.thread (直接在CM上调整)
- 默认值: 15
- 此配置, 值越大, 执行效率越高, 但是资源损耗也会越高
监听输入的线程数量:
- 配置项: hive.exec.input.listing.max.threads
- 默认值: 15
- 此配置, 值越大, 读取效率越高, 但是资源损耗也会越高

3.5 压缩的配置

HIVE 本质上, 将SQL翻译为MR , 所以hive压缩配置, 更多指的是对MR的压缩配置操作

关于压缩的相关的配置:

set hive.exec.compress.intermediate=true; 是否开启hive的支持中间结果压缩配置  默认关闭的mapreduce.map.output.compress : 是否开启map端压缩配置   默认开启的
mapreduce.map.output.compress.codec: map端采用何种压缩方案选择为: org.apache.hadoop.io.compress.SnappyCodecset hive.exec.compress.output=true; 是否开启hive的最终结果的压缩配置  默认是关闭的mapreduce.output.fileoutputformat.compress: 是否开启reduce端压缩配置   默认关闭的
mapreduce.output.fileoutputformat.compress.codec : reduce端采用何种压缩方案选择为: org.apache.hadoop.io.compress.SnappyCodec
mapreduce.output.fileoutputformat.compress.type : 配置压缩方案选择为: BLOCK(块压缩)注意:只要不是带有 set操作的配置, 都是直接在cm上进行配置操作带有set的 是需要在客户端中进行配置的

均可以直接在CM上进行配置

3.6 执行引擎选择:

配置项: hive.execution.engine

4. 完成ODS层数据采集操作

作用: 对接数据源, 一般和数据源保持相同的粒度

ODS层: 处于在HIVE端

业务数据: MySQL

目标: 将MySQL中业务库的表数据导入到 ODS层中

技术: sqoop 完成导入的操作

4.1 数据存储格式和压缩方案

存储格式:

   在hive中, 数据存储格式主要分为两大类:  行式存储  和 列式存储行式存储(textFile):优点: 可读性较好  执行 select  * 效率比较高弊端:  耗费磁盘资源  执行 select 字段 效率比较低列式存储(ORC):优点: 节省磁盘空间. 执行 select 字段 效率比较高弊端: 执行 select * 效率比较低 , 可读性不是特别好ORC是兼具行式存储优势又具有列式存储优势, 数据按行分块, 每块中按列存储数据, 同时在每个块内部, 对数据构建索引, 提升查询的效率思考: 在hive建表中, 一般采用那种存储格式呢?  在hive中, 一般我们的选择都是ORC存储格式, 除非需求对接的数据源是普通文本文件数据, 此时会让对接此文件的表构建为textFile,其余的层次结构的表依然使用ORC

压缩方案:

思考: 压缩有什么用? 能够在有限的空间下, 存储更多的数据在进行压缩的时候, 压缩的方案其实有很多种: ZIP(GZIP), SNAPPY, LZO,ZLIB ....思考, 具体使用那种压缩的方案呢?  性价比比较高的 (压缩比, 解压缩的性能)zlib(gzip):  具有良好的压缩比, 但是解压缩的性能一般 snappy: 具有良好的解压缩的性能, 同时具有较好的压缩比, 弊端 没有zlib压缩比好, 同时hadoop默认原生是不支持snappy压缩的(CDH版本直接支持的)本项目采用那种方案?  主要采用snappy在 ODS层, 一般会使用zlib在其他层次中, 一般采用snappy说明: 如果读取次数较少, 写入了较大, 优先保证压缩比   --- zlib(gzip)  比如说 ODS层如果读取次数比较高, 优先保障解压缩性能   -- snappy  比如说 DW层相关的表如果不清楚, 建议使用snappy, 或者如果空间足够, 统一采用snappy也没有问题

创建表的时候, 选择内部表, 还是外部表?

判断标准: 对表数据是否有管理的权限有权限删除数据, 那么我们可以构建内部表, 当然也可以构建外部表
如果没有权限删除数据, 只能构建外部表内部表转换为外部表: alter table 表名 set tblproperties('EXTERNAL'='FALSE');通过true和false 来修改是否为内部表还是外部表一般来说, 在数仓中,  除了ODS层可能会出现外部表以外, 其余的层次结构, 大多数还是内部表

创建表的时候, 是否需要构建分区表呢?

   一般情况下, 都是分区表(分区的字段大多数的都是以时间为主)

4.2 数据同步方式

1- 全量覆盖同步方式

适用于:  表数据变更的频次并不多,不需要记录其历史数据 而且整个表数据量相对较少  这个时候可以采用全量覆盖的操作操作方式: 每次同步数据, 都是要先将原有的数仓中表数据全部删除, 然后重新从业务端导入即可建表的时候, 不需要构建分区表比如说: 地区表  时间表

2- 仅新增同步方式

适用于: 业务端数据只会有新增的操作, 不会有变更的时候, 数据量比较多操作方式: 在数仓中建表的时候, 需要构建分区表, 分区字段和同步数据的周期是一致的, 比如说: 每天都需要同步数据, 分区字段 需要按天  如果每月同步一次, 分区字段按照月每次进行同步的时候, 将对应周期下的新增数据放置到对应日期分区下比如说:  登录日志表, 访问日志表

3- 新增及更新同步方式

适用于: 业务端表数据既有更新操作, 又有新增操作的时候, 而且数据量比较多操作方式: 在数仓中建表的时候, 需要构建分区表 , 分区字段和同步数据的周期是一致的, 比如说: 每天都需要同步数据, 分区字段 需要按天  如果每月同步一次, 分区字段按照月每次进行同步的时候, 将对应这个周期的下新增数据和更新数据放置到对应日期分区下即可比如说:订单表, 商品表, 用户表....

4- 全量同步方式(了解)

适用于:业务端数据量不是特别大, 但是也存在更新和新增, 而且不需要保留太多的历史版本操作方式:在数仓中建表的时候, 需要构建分区表, 分区字段和同步数据的周期是一致的, 比如说: 每天都需要同步数据, 分区字段 需要按天  如果每月同步一次, 分区字段按照月每次导入都是导入截止当前时间的全量数据, 定期将历史的日期数据删除即可

4.3 中文乱码问题

注意: 在后续hive中建表的时候, 如果表字段说明信息是中文, 可能hive会出现乱码情况, 类似于下图

解决方案:

在mysql的hive库中, 执行一下SQL即可:
use hive;
alter table COLUMNS_V2 modify column COMMENT varchar(256) character set utf8;
alter table TABLE_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;
alter table PARTITION_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8 ;
alter table PARTITION_KEYS modify column PKEY_COMMENT varchar(4000) character set utf8;
alter table INDEX_PARAMS modify column PARAM_VALUE varchar(4000) character set utf8;

4.4 创建ODS层相关的表

此操作, 需要在hive客户端中执行, ODS层所有的操作, 需要在本地环境演示, 云端环境不需要处理, 因为云端环境以及帮大家将ODS层工作全部做完了, 只需要做ODS层以上的工具即可

1- 创建库

drop database if exists yp_ods;
create  database if not exists yp_ods;

2- 构建ODS层表

建表说明: ODS层表与 业务库的表保持一致, 也就说, 业务库中有哪些表, 那么我们就需要在ODS层构建有那些表, 表中到的字段也要一致, 额外在HIVE建表的时候, 需要多加一个分区字段, 用于标记数据在何时导入进来的然后判断, 那些表是属于全量覆盖的表, 那些表是属于仅新增的表, 那些表是属于全量及更新的表, 基于各个不同同步方式, 构建对应表即可

2.1- 全量覆盖表:

-- 区域表:   t_district
DROP TABLE if exists yp_ods.t_district;
CREATE TABLE yp_ods.t_district
(id string COMMENT '主键ID',code string COMMENT '区域编码',name string COMMENT '区域名称',pid  int COMMENT '父级ID',alias string COMMENT '别名'
)
comment '区域字典表'
row format delimited fields terminated by '\t' stored as orc tblproperties ('orc.compress'='ZLIB');-- 日期表:   t_date
drop table yp_ods.t_date;
CREATE TABLE yp_ods.t_date ( dim_date_id string COMMENT '日期', date_code string COMMENT '日期编码', lunar_calendar string COMMENT '农历', year_code string COMMENT '年code', year_name string COMMENT '年名称', month_code string COMMENT '月份编码', month_name string COMMENT '月份名称', quanter_code string COMMENT '季度编码', quanter_name string COMMENT '季度名称', year_month string COMMENT '年月', year_week_code string COMMENT '一年中第几周', year_week_name string COMMENT '一年中第几周名称', year_week_code_cn string COMMENT '一年中第几周（中国）', year_week_name_cn string COMMENT '一年中第几周名称（中国',week_day_code string COMMENT '周几code', week_day_name string COMMENT '周几名称', day_week string COMMENT '周', day_week_cn string COMMENT '周(中国)',day_week_num string COMMENT '一周第几天', day_week_num_cn string COMMENT '一周第几天（中国）', day_month_num string COMMENT '一月第几天', day_year_num string COMMENT '一年第几天', date_id_wow string COMMENT '与本周环比的上周日期', date_id_mom string COMMENT '与本月环比的上月日期', date_id_wyw string COMMENT '与本周同比的上年日期', date_id_mym string COMMENT '与本月同比的上年日期', first_date_id_month string COMMENT '本月第一天日期', last_date_id_month string COMMENT '本月最后一天日期',half_year_code string COMMENT '半年code', half_year_name string COMMENT '半年名称', season_code string COMMENT '季节编码', season_name string COMMENT '季节名称', is_weekend string COMMENT '是否周末（周六和周日）', official_holiday_code string COMMENT '法定节假日编码', official_holiday_name string COMMENT '法定节假日', festival_code string COMMENT '节日编码', festival_name string COMMENT '节日', custom_festival_code string COMMENT '自定义节日编码', custom_festival_name string COMMENT '自定义节日', update_time string COMMENT '更新时间'
)
COMMENT '时间维度表'
row format delimited fields terminated by '\t' stored as orc tblproperties ('orc.compress' = 'ZLIB');

2.2 - 仅新增同步表:

-- 订单评价表 : t_goods_evaluation
DROP TABLE if exists yp_ods.t_goods_evaluation;
CREATE TABLE yp_ods. ( `id` string, `user_id` string COMMENT '评论人id', `store_id` string COMMENT '店铺id', `order_id` string COMMENT '订单id', `geval_scores` INT COMMENT '综合评分', `geval_scores_speed` INT COMMENT '送货速度评分0-5分(配送评分)', `geval_scores_service` INT COMMENT '服务评分0-5分', `geval_isanony` TINYINT COMMENT '0-匿名评价，1-非匿名', `create_user` string, `create_time` string, `update_user` string, `update_time` string, `is_valid` TINYINT COMMENT '0 ：失效，1 ：开启'
)
comment '商品评价表'
partitioned by (dt string)
row format delimited fields terminated by '\t' stored as orc tblproperties ('orc.compress'='ZLIB');-- 登录记录表:  t_user_login
DROP TABLE if exists yp_ods.t_user_login;
CREATE TABLE yp_ods.t_user_login( id string, login_user string, login_type string COMMENT '登录类型（登陆时使用）',client_id string COMMENT '推送标示id(登录、第三方登录、注册、支付回调、给用户推送消息时使用)', login_time string, login_ip string, logout_time string
)
COMMENT '用户登录记录表'
partitioned by (dt string)
row format delimited fields terminated by '\t' stored as orc tblproperties ('orc.compress' = 'ZLIB');-- 订单组支付表:  t_order_pay
DROP TABLE if exists yp_ods.t_order_pay;
CREATE TABLE yp_ods.t_order_pay ( id string, group_id string COMMENT '关联shop_order_group的group_id,一对多订单', order_pay_amount DECIMAL(11,2) COMMENT '订单总金额;', create_date string COMMENT '订单创建的时间,需要根据订单创建时间进行判断订单是否已经失效', create_user string, create_time string, update_user string, update_time string, is_valid TINYINT COMMENT '是否有效 0: false; 1: true; 订单是否有效的标志'
)
comment '订单支付表'
partitioned by (dt string)
row format delimited fields terminated by '\t' stored as orc tblproperties ('orc.compress' = 'ZLIB');

2.3 - 新增及更新同步表

-- 商品评价明细表 t_goods_evaluation_detail
DROP TABLE if exists yp_ods.t_goods_evaluation_detail;
CREATE TABLE yp_ods.t_goods_evaluation_detail
(id                              string,user_id                         string COMMENT '评论人id',store_id                        string COMMENT '店铺id',goods_id                        string COMMENT '商品id',order_id                        string COMMENT '订单id',order_goods_id                  string COMMENT '订单商品表id',geval_scores_goods              INT COMMENT '商品评分0-10分',geval_content                   string,geval_content_superaddition     string COMMENT '追加评论',geval_addtime                   string COMMENT '评论时间',geval_addtime_superaddition     string COMMENT '追加评论时间',geval_state                     TINYINT COMMENT '评价状态 1-正常 0-禁止显示',geval_remark                    string COMMENT '管理员对评价的处理备注',revert_state                    TINYINT COMMENT '回复状态0未回复1已回复',geval_explain                   string COMMENT '管理员回复内容',geval_explain_superaddition     string COMMENT '管理员追加回复内容',geval_explaintime               string COMMENT '管理员回复时间',geval_explaintime_superaddition string COMMENT '管理员追加回复时间',create_user                     string,create_time                     string,update_user                     string,update_time                     string,is_valid                        TINYINT COMMENT '0 ：失效，1 ：开启'
)
comment '商品评价明细'
partitioned by (dt string) row format delimited fields terminated by '\t' stored as orc tblproperties ('orc.compress'='ZLIB');-- 订单配送详细信息表 : t_order_delievery_item
DROP TABLE if exists yp_ods.t_order_delievery_item;
CREATE TABLE yp_ods.t_order_delievery_item
(id                     string COMMENT '主键id',shop_order_id          string COMMENT '订单表ID',refund_order_id        string,dispatcher_order_type  TINYINT COMMENT '配送订单类型1.支付单; 2.退款单',shop_store_id          string COMMENT '卖家店铺ID',buyer_id               string COMMENT '购买用户ID',circle_master_user_id  string COMMENT '圈主ID',dispatcher_user_id     string COMMENT '配送员ID',dispatcher_order_state TINYINT COMMENT '配送订单状态:0.待接单.1.已接单,2.已到店.3.配送中 4.商家普通提货码完成订单.5.商家万能提货码完成订单。6，买家完成订单',order_goods_num        TINYINT COMMENT '订单商品的个数',delivery_fee           DECIMAL(11,2) COMMENT '配送员的运费',distance               INT COMMENT '配送距离',dispatcher_code        string COMMENT '收货码',receiver_name          string COMMENT '收货人姓名',receiver_phone         string COMMENT '收货人电话',sender_name            string COMMENT '发货人姓名',sender_phone           string COMMENT '发货人电话',create_user            string,create_time            string,update_user            string,update_time            string,is_valid               TINYINT COMMENT '是否有效  0: false; 1: true'
)
comment '订单配送详细信息表'
partitioned by (dt string) row format delimited fields terminated by '\t' stored as orc tblproperties ('orc.compress' = 'ZLIB');-- 所有交易记录信息  t_trade_record
DROP TABLE if exists yp_ods.t_trade_record;
CREATE TABLE yp_ods.t_trade_record
(id                   string COMMENT '交易单号',external_trade_no    string COMMENT '(支付,结算.退款)第三方交易单号',relation_id          string COMMENT '关联单号',trade_type           TINYINT COMMENT '1.支付订单; 2.结算订单; 3.退款订单；4.充值单；5.提现单；6.分销单；7缴纳保证金单8退还保证金单9,冻结通联订单，10通联通账户余额充值，11.扫码单',status               TINYINT COMMENT '1.成功;2.失败;3.进行中',finnshed_time        string COMMENT '订单完成时间,当配送员点击确认送达时,进行更新订单完成时间,后期需要根据订单完成时间,进行自动收货以及自动评价',fail_reason          string COMMENT '交易失败的原因',payment_type         string COMMENT '支付方式:小程序,app微信,支付宝,快捷支付,钱包，银行卡,消费券',trade_before_balance DECIMAL(11,2) COMMENT '交易前余额',trade_true_amount    DECIMAL(11,2) COMMENT '交易实际支付金额,第三方平台扣除优惠以后实际支付金额',trade_after_balance  DECIMAL(11,2) COMMENT '交易后余额',note                 string COMMENT '业务说明',user_card            string COMMENT '第三方平台账户标识/多钱包用户钱包id',user_id              string COMMENT '用户id',aip_user_id          string COMMENT '钱包id',create_user          string,create_time          string,update_user          string,update_time          string,is_valid             TINYINT COMMENT '是否有效  0: false; 1: true;   订单是否有效的标志'
)
comment '所有交易记录信息'
partitioned by (dt string) row format delimited fields terminated by '\t' stored as orc tblproperties ('orc.compress' = 'ZLIB');-- 商圈表:  t_trade_area
DROP TABLE if exists yp_ods.t_trade_area;
CREATE TABLE yp_ods.t_trade_area
(id                  string COMMENT '主键',user_id             string COMMENT '用户ID',user_allinpay_id    string COMMENT '通联用户表id',trade_avatar        string COMMENT '商圈logo',name                string COMMENT '商圈名称',notice              string COMMENT '商圈公告',distric_province_id INT COMMENT '商圈所在省份ID',distric_city_id     INT COMMENT '商圈所在城市ID',distric_area_id     INT COMMENT '商圈所在县ID',address             string COMMENT '商圈地址',radius              double COMMENT '半径',mb_title_img        string COMMENT '手机商圈 页头背景图',deposit_amount      DECIMAL(11,2) COMMENT '商圈认购费用总额',hava_deposit        INT COMMENT '是否有交过保证金 1：是0：否',state               TINYINT COMMENT '申请商圈状态 -1 ：未认购 ；0 ：申请中；1 ：已认购 ；',search_key          string COMMENT '商圈搜索关键字',create_user         string,create_time         string,update_user         string,update_time         string,is_valid            TINYINT COMMENT '是否有效  0: false; 1: true'
)
comment '商圈表'
partitioned by (dt string) row format delimited fields terminated by '\t' stored as orc tblproperties ('orc.compress'='ZLIB');-- 地址信息 : t_location
DROP TABLE if exists yp_ods.t_location;
CREATE TABLE yp_ods.t_location
(id string COMMENT '主键',type      INT COMMENT '类型   1：商圈地址；2：店铺地址；3.用户地址管理;4.订单买家地址信息;5.订单卖家地址信息',correlation_id string COMMENT '关联表id',address string COMMENT '地图地址详情',latitude  double COMMENT '纬度',longitude double COMMENT '经度',street_number string COMMENT '门牌',street string COMMENT '街道',district string COMMENT '区县',city string COMMENT '城市',province string COMMENT '省份',business string COMMENT '百度商圈字段，代表此点所属的商圈',create_user string,create_time string,update_user string,update_time string,is_valid  TINYINT COMMENT '是否有效  0: false; 1: true',adcode    string COMMENT '百度adcode,对应区县code'
)
comment '地址信息'
partitioned by (dt string) row format delimited fields terminated by '\t' stored as orc tblproperties ('orc.compress'='ZLIB');-- 商品表_店铺(SKU)
DROP TABLE if exists yp_ods.t_goods;
CREATE TABLE yp_ods.t_goods
(id                    string,store_id              string COMMENT '所属商店ID',class_id              string COMMENT '分类id:只保存最后一层分类id',store_class_id        string COMMENT '店铺分类id',brand_id              string COMMENT '品牌id',goods_name            string COMMENT '商品名称',goods_specification   string COMMENT '商品规格',search_name           string COMMENT '模糊搜索名称字段:名称_+真实名称',goods_sort            INT COMMENT '商品排序',goods_market_price    DECIMAL(11,2) COMMENT '商品市场价',goods_price           DECIMAL(11,2) COMMENT '商品销售价格(原价)',goods_promotion_price DECIMAL(11,2) COMMENT '商品促销价格(售价)',goods_storage         INT COMMENT '商品库存',goods_limit_num       INT COMMENT '购买限制数量',goods_unit            string COMMENT '计量单位',goods_state           TINYINT COMMENT '商品状态 1正常，2下架,3违规（禁售）',goods_verify          TINYINT COMMENT '商品审核状态: 1通过，2未通过，3审核中',activity_type         TINYINT COMMENT '活动类型:0无活动1促销2秒杀3折扣',discount              INT COMMENT '商品折扣(%)',seckill_begin_time    string COMMENT '秒杀开始时间',seckill_end_time      string COMMENT '秒杀结束时间',seckill_total_pay_num INT COMMENT '已秒杀数量',seckill_total_num     INT COMMENT '秒杀总数限制',seckill_price         DECIMAL(11,2) COMMENT '秒杀价格',top_it                TINYINT COMMENT '商品置顶：1-是，0-否',create_user           string,create_time           string,update_user           string,update_time           string,is_valid              TINYINT COMMENT '0 ：失效，1 ：开启'
)
comment '商品表_店铺(SKU)'
partitioned by (dt string) row format delimited fields terminated by '\t' stored as orc tblproperties ('orc.compress'='ZLIB');-- 商品分类_店铺
DROP TABLE if exists yp_ods.t_goods_class;
CREATE TABLE yp_ods.t_goods_class
(id             string,store_id       string COMMENT '店铺id',class_id       string COMMENT '对应的平台分类表id',name           string COMMENT '店铺内分类名字',parent_id      string COMMENT '父id',level          TINYINT COMMENT '分类层级',is_parent_node TINYINT COMMENT '是否为父节点:1是0否',background_img string COMMENT '背景图片',img            string COMMENT '分类图片',keywords       string COMMENT '关键词',title          string COMMENT '搜索标题',sort           INT COMMENT '排序',note           string COMMENT '类型描述',url            string COMMENT '分类的链接',is_use         TINYINT COMMENT '是否使用:0否,1是',create_user    string,create_time    string,update_user    string,update_time    string,is_valid       TINYINT COMMENT '0 ：失效，1 ：开启'
)
comment '商品分类_店铺'
partitioned by (dt string) row format delimited fields terminated by '\t' stored as orc tblproperties ('orc.compress'='ZLIB');-- 品牌（店铺）
DROP TABLE if exists yp_ods.t_brand;
CREATE TABLE yp_ods.t_brand
(id          string,store_id    string COMMENT '店铺id',brand_pt_id string COMMENT '平台品牌库品牌Id',brand_name  string COMMENT '品牌名称',brand_image string COMMENT '品牌图片',initial     string COMMENT '品牌首字母',sort        INT COMMENT '排序',is_use      TINYINT COMMENT '0禁用1启用',goods_state TINYINT COMMENT '商品品牌审核状态 1 审核中,2 通过,3 拒绝',create_user string,create_time string,update_user string,update_time string,is_valid    TINYINT COMMENT '0 ：失效，1 ：开启'
)
comment '品牌（店铺）'
partitioned by (dt string) row format delimited fields terminated by '\t' stored as orc tblproperties ('orc.compress'='ZLIB');-- 订单表
DROP TABLE if exists yp_ods.t_shop_order;
CREATE TABLE yp_ods.t_shop_order
(id               string COMMENT '根据一定规则生成的订单编号',order_num        string COMMENT '订单序号',buyer_id         string COMMENT '买家的userId',store_id         string COMMENT '店铺的id',order_from       TINYINT COMMENT '是来自于app还是小程序,或者pc 1.安卓; 2.ios; 3.小程序H5 ; 4.PC',order_state      INT COMMENT '订单状态:1.已下单; 2.已付款, 3. 已确认 ;4.配送; 5.已完成; 6.退款;7.已取消',create_date      string COMMENT '下单时间',finnshed_time    timestamp COMMENT '订单完成时间,当配送员点击确认送达时,进行更新订单完成时间,后期需要根据订单完成时间,进行自动收货以及自动评价',is_settlement    TINYINT COMMENT '是否结算;0.待结算订单; 1.已结算订单;',is_delete        TINYINT COMMENT '订单评价的状态:0.未删除;  1.已删除;(默认0)',evaluation_state TINYINT COMMENT '订单评价的状态:0.未评价;  1.已评价;(默认0)',way              string COMMENT '取货方式:SELF自提;SHOP店铺负责配送',is_stock_up      INT COMMENT '是否需要备货 0：不需要    1：需要    2:平台确认备货  3:已完成备货 4平台已经将货物送至店铺 ',create_user      string,create_time      string,update_user      string,update_time      string,is_valid         TINYINT COMMENT '是否有效  0: false; 1: true;   订单是否有效的标志'
)
comment '订单表'
partitioned by (dt string)
row format delimited fields terminated by '\t'
stored as orc tblproperties ('orc.compress' = 'ZLIB');-- 订单详情表
DROP TABLE if exists yp_ods.t_shop_order_address_detail;
CREATE TABLE yp_ods.t_shop_order_address_detail
(id                  string COMMENT '关联订单的id',order_amount        DECIMAL(11,2) COMMENT '订单总金额:购买总金额-优惠金额',discount_amount     DECIMAL(11,2) COMMENT '优惠金额',goods_amount        DECIMAL(11,2) COMMENT '用户购买的商品的总金额+运费',is_delivery         string COMMENT '0.自提；1.配送',buyer_notes         string COMMENT '买家备注留言',pay_time            string,receive_time        string,delivery_begin_time string,arrive_store_time   string,arrive_time         string COMMENT '订单完成时间,当配送员点击确认送达时,进行更新订单完成时间,后期需要根据订单完成时间,进行自动收货以及自动评价',create_user         string,create_time         string,update_user         string,update_time         string,is_valid            TINYINT COMMENT '是否有效  0: false; 1: true;   订单是否有效的标志'
)comment '订单详情表'partitioned by (dt string) row format delimited fields terminated by '\t' stored as orc tblproperties ('orc.compress' = 'ZLIB');-- 订单结算表
DROP TABLE if exists yp_ods.t_order_settle;
CREATE TABLE yp_ods.t_order_settle
(id                        string COMMENT '结算单号',order_id                  string,settlement_create_date    string COMMENT '用户申请结算的时间',settlement_amount         DECIMAL(11,2) COMMENT '如果发生退款,则结算的金额 = 订单的总金额 - 退款的金额',dispatcher_user_id        string COMMENT '配送员id',dispatcher_money          DECIMAL(11,2) COMMENT '配送员的配送费(配送员的运费(如果退货方式为1:则买家支付配送费))',circle_master_user_id     string COMMENT '圈主id',circle_master_money       DECIMAL(11,2) COMMENT '圈主分润的金额',plat_fee                  DECIMAL(11,2) COMMENT '平台应得的分润',store_money               DECIMAL(11,2) COMMENT '商家应得的订单金额',status                    TINYINT COMMENT '0.待结算；1.待审核 ; 2.完成结算；3.拒绝结算',note                      string COMMENT '原因',settle_time               string COMMENT ' 结算时间',create_user               string,create_time               string,update_user               string,update_time               string,is_valid                  TINYINT COMMENT '是否有效  0: false; 1: true;   订单是否有效的标志',first_commission_user_id  string COMMENT '一级分佣用户',first_commission_money    DECIMAL(11,2) COMMENT '一级分佣金额',second_commission_user_id string COMMENT '二级分佣用户',second_commission_money   DECIMAL(11,2) COMMENT '二级分佣金额'
)
comment '订单结算表'
partitioned by (dt string) row format delimited fields terminated by '\t' stored as orc tblproperties ('orc.compress' = 'ZLIB');-- 退款订单表
DROP TABLE if exists yp_ods.t_refund_order;
CREATE TABLE yp_ods.t_refund_order
(id                   string COMMENT '退款单号',order_id             string COMMENT '订单的id',apply_date           string COMMENT '用户申请退款的时间',modify_date          string COMMENT '退款订单更新时间',refund_reason        string COMMENT '买家退款原因',refund_amount        DECIMAL(11,2) COMMENT '订单退款的金额',refund_state         TINYINT COMMENT '1.申请退款;2.拒绝退款; 3.同意退款,配送员配送; 4:商家同意退款,用户亲自送货 ;5.退款完成',refuse_refund_reason string COMMENT '商家拒绝退款原因',refund_goods_type    string COMMENT '1.上门取货(买家承担运费); 2.买家送达;',refund_shipping_fee  DECIMAL(11,2) COMMENT '配送员的运费(如果退货方式为1:则买家支付配送费)',create_user          string,create_time          string,update_user          string,update_time          string,is_valid             TINYINT COMMENT '是否有效  0: false; 1: true;   订单是否有效的标志'
)
comment '退款订单表'
partitioned by (dt string) row format delimited fields terminated by '\t' stored as orc tblproperties ('orc.compress' = 'ZLIB');-- 订单分组表
DROP TABLE if exists yp_ods.t_shop_order_group;
CREATE TABLE yp_ods.t_shop_order_group
(id          string,order_id    string COMMENT '订单id',group_id    string COMMENT '订单分组id',is_pay      TINYINT COMMENT '是否已支付,0未支付,1已支付',create_user string,create_time string,update_user string,update_time string,is_valid    TINYINT
)
comment '订单分组表'
partitioned by (dt string) row format delimited fields terminated by '\t' stored as orc tblproperties ('orc.compress' = 'ZLIB');-- 店铺表
DROP TABLE if exists yp_ods.t_store;
CREATE TABLE yp_ods.t_store ( `id` string COMMENT '主键', `user_id` string, `store_avatar` string COMMENT '店铺头像', `address_info` string COMMENT '店铺详细地址', `name` string COMMENT '店铺名称', `store_phone` string COMMENT '联系电话', `province_id` INT COMMENT '店铺所在省份ID', `city_id` INT COMMENT '店铺所在城市ID', `area_id` INT COMMENT '店铺所在县ID', `mb_title_img` string COMMENT '手机店铺 页头背景图',`store_description` string COMMENT '店铺描述', `notice` string COMMENT '店铺公告', `is_pay_bond` TINYINT COMMENT '是否有交过保证金 1：是0：否', `trade_area_id` string COMMENT '归属商圈ID', `delivery_method` TINYINT COMMENT '配送方式 1 ：自提 ；3 ：自提加配送均可; 2 : 商家配送', `origin_price` DECIMAL, `free_price` DECIMAL, `store_type` INT COMMENT '店铺类型 22天街网店 23实体店 24直营店铺 33会员专区店', `store_label` string COMMENT '店铺logo', `search_key` string COMMENT '店铺搜索关键字', `end_time` string COMMENT '营业结束时间', `start_time` string COMMENT '营业开始时间', `operating_status` TINYINT COMMENT '营业状态 0 ：未营业 ；1 ：正在营业', `create_user` string, `create_time` string, `update_user` string, `update_time` string, `is_valid` TINYINT COMMENT '0关闭，1开启，3店铺申请中', `state` string COMMENT '可使用的支付类型:MONEY金钱支付;CASHCOUPON现金券支付', `idCard` string COMMENT '身份证', `deposit_amount` DECIMAL(11,2) COMMENT '商圈认购费用总额', `delivery_config_id` string COMMENT '配送配置表关联ID', `aip_user_id` string COMMENT '通联支付标识ID', `search_name` string COMMENT '模糊搜索名称字段:名称_+真实名称', `automatic_order` TINYINT COMMENT '是否开启自动接单功能 1：是 0 ：否', `is_primary` TINYINT COMMENT '是否是总店 1: 是 2: 不是', `parent_store_id` string COMMENT '父级店铺的id，只有当is_primary类型为2时有效'
)
comment '店铺表'
partitioned by (dt string)
row format delimited fields terminated by '\t' stored as orc tblproperties ('orc.compress'='ZLIB');-- 订单和商品的中间表
DROP TABLE if exists yp_ods.t_shop_order_goods_details;
CREATE TABLE yp_ods.t_shop_order_goods_details
(id                  string COMMENT 'id主键',order_id            string COMMENT '对应订单表的id',shop_store_id       string COMMENT '卖家店铺ID',buyer_id            string COMMENT '购买用户ID',goods_id            string COMMENT '购买商品的id',buy_num             INT COMMENT '购买商品的数量',goods_price         DECIMAL(11,2) COMMENT '购买商品的价格',total_price         DECIMAL(11,2) COMMENT '购买商品的价格 = 商品的数量 * 商品的单价 ',goods_name          string COMMENT '商品的名称',goods_image         string COMMENT '商品的图片',goods_specification string COMMENT '商品规格',goods_weight        INT,goods_unit          string COMMENT '商品计量单位',goods_type          string COMMENT '商品分类     ytgj:进口商品    ytsc:普通商品     hots爆品',refund_order_id     string COMMENT '退款订单的id',goods_brokerage     DECIMAL(11,2) COMMENT '商家设置的商品分润的金额',is_refund           TINYINT COMMENT '0.不退款; 1.退款',create_user         string,create_time         string,update_user         string,update_time         string,is_valid            TINYINT COMMENT '是否有效  0: false; 1: true'
)comment '订单和商品的中间表'partitioned by (dt string) row format delimited fields terminated by '\t' stored as orc tblproperties ('orc.compress' = 'ZLIB');-- 购物车
DROP TABLE if exists yp_ods.t_shop_cart;
CREATE TABLE yp_ods.t_shop_cart
(id            string COMMENT '主键id',shop_store_id string COMMENT '卖家店铺ID',buyer_id      string COMMENT '购买用户ID',goods_id      string COMMENT '购买商品的id',buy_num       INT COMMENT '购买商品的数量',create_user   string,create_time   string,update_user   string,update_time   string,is_valid      TINYINT COMMENT '是否有效  0: false; 1: true'
)
comment '购物车'
partitioned by (dt string) row format delimited fields terminated by '\t' stored as orc tblproperties ('orc.compress' = 'ZLIB');-- 店铺收藏
DROP TABLE if exists yp_ods.t_store_collect;
CREATE TABLE yp_ods.t_store_collect
(id          string,user_id     string COMMENT '收藏人id',store_id    string COMMENT '店铺id',create_user string,create_time string,update_user string,update_time string,is_valid    TINYINT COMMENT '0 ：失效，1 ：开启'
)
comment '店铺收藏'
partitioned by (dt string) row format delimited fields terminated by '\t' stored as orc tblproperties ('orc.compress'='ZLIB');-- 商品收藏
DROP TABLE if exists yp_ods.t_goods_collect;
CREATE TABLE yp_ods.t_goods_collect
(id          string,user_id     string COMMENT '收藏人id',goods_id    string COMMENT '商品id',store_id    string COMMENT '通过哪个店铺收藏的（因主店分店概念存在需要）',create_user string,create_time string,update_user string,update_time string,is_valid    TINYINT COMMENT '0 ：失效，1 ：开启'
)
comment '商品收藏'
partitioned by (dt string) row format delimited fields terminated by '\t' stored as orc tblproperties ('orc.compress'='ZLIB');

4.5 通过sqoop将数据导入到ODS层

1- 采用全量覆盖导入操作(第一次):

# 日期表:   t_date
sqoop import \
--connect jdbc:mysql://hadoop01:3306/yipin \
--username root \
--password 123456 \
--query 'select * from t_date where 1 = 1 and $CONDITIONS' \
--hcatalog-database 'yp_ods' \
--hcatalog-table 't_date' \
--fields-terminated-by  '\t' \
-m 1

2- 仅新增同步方式的表导入操作: 第一次导入(范围是什么? 截止到上一天的所有的数据)

# 订单评价表 : t_goods_evaluation
sqoop import \
--connect jdbc:mysql://hadoop01:3306/yipin \
--username root \
--password 123456 \
--query 'select *, "2022-04-26" as dt from t_goods_evaluation where create_time <= "2022-04-26 23:59:59" and $CONDITIONS' \
--hcatalog-database 'yp_ods' \
--hcatalog-table 't_goods_evaluation' \
--fields-terminated-by  '\t' \
-m 1

3- 新增及更新同步方式的表导入操作: 第一次导入

# 订单表
sqoop import \
--connect jdbc:mysql://hadoop01:3306/yipin \
--username root \
--password 123456 \
--query 'select *, "2022-04-26" as dt from t_shop_order where create_time <= "2022-04-26 23:59:59" OR update_time <= "2022-04-26 23:59:59" and $CONDITIONS' \
--hcatalog-database 'yp_ods' \
--hcatalog-table 't_shop_order' \
--fields-terminated-by  '\t' \
-m 1如果要获取上一天的新增和更新的数据:
select *, "2022-04-26" as dt from t_shop_order where create_time between "2022-04-26 00:00:00" and "2022-04-26 23:59:59" OR update_time between  "2022-04-26 00:00:00" and "2022-04-26 23:59:59"

5. ODS层增量数据采集操作

5.1 模拟一份增量数据操作

此操作在实际生产环境中是不存在的, 因为实际生产环境中, 本身每天就是有增量数据

-- 日期表(全量覆盖的方式):
--    新增一条数据
INSERT INTO `t_date` VALUES ('20310101','2031-01-01','20301201','2031','2031年','01','01月','1','Q1','203101','52','203052','01','203101','3','星期三','01','01','4','3','01','001','20301225','20301201','10000000','20300101','20310101','20310131','1','上半年','S04','冬季','否','H01','元旦','F01','元旦','','','2021-12-20 14:20:57.401');-- 订单评价表(仅新增同步):
INSERT INTO `t_goods_evaluation` VALUES ('10001','430eff5a55d911e998ec7cd30ad32e2e','7b09b44e5b6d11e998ec7cd30ad32e2e','dd190411306814f41f',10,10,10,1,'430eff5a55d911e998ec7cd30ad32e2e','2021-12-20 09:42:02',NULL,NULL,1);-- 店铺表(新增及更新同步):
update  `t_store` set name='北京传智教育科技有限公司' , update_time = '2021-12-20 05:50:55' where id = '0afb5daf777d11e998ec7cd30ad32e2e';INSERT INTO `t_store` VALUES ('10010','02554155777c11e998ec7cd30ad32e2e',NULL,NULL,'黑马程序员',NULL,NULL,NULL,NULL,NULL,NULL,NULL,NULL,'0af148be777d11e998ec7cd30ad32e2e',NULL,NULL,NULL,24,NULL,NULL,'22:00','08:00',0,'02554155777c11e998ec7cd30ad32e2e','2021-12-20 05:50:55',NULL,NULL,3,'MONEY',NULL,NULL,'0afaf8ad777d11e998ec7cd30ad32e2e',NULL,'名称_**亿隆电子科技开发有限公司',0,1,NULL);

5.2 完成增量数据采集操作

yipin project 03相关推荐

yipin project 04
day04 今⽇内容: ● 1- ODS补充⼀张店铺表 ● 2- ODS层增量数据导⼊操作 ● 3- 分桶表的相关内容 ● 4- DWD层相关的操作 0 ODS补充⼀个店铺表 -- 店铺表 DROP ...
yipin project 02
day02 今日内容: 1- 数仓建模 (理解) 2- 数仓分层架构 (理解) 3- 数仓的工具的基本使用 (掌握) 4- 业务数据的准备工作 (参考笔记处理即可) 1. 数仓建模何为建模: 如何在 ...
yipin project 05
今日内容: 1- DWD层数据导入操作 2- 拉链表的整体实现操作(流程分析和实操) 3- JOIN优化相关内容 1. DWD层相关操作 DWD层作用: DWD层和 ODS层保持相同粒度, 从O ...
java基础知识之初识java
java基础知识之初识java JAVA基础课后总结一 1.计算机程序定义:程序(Program)是为实现特定目标或解决特定问题而用计算机语言编写的命令序列的集合. 2.指令定义:指令就是指示机 ...
Spring-学习笔记08【面向切面编程AOP】
Java后端学习路线笔记汇总表[黑马程序员] Spring-学习笔记01[Spring框架简介][day01] Spring-学习笔记02[程序间耦合] Spring-学习笔记03[Spring的 ...
Deep Learning快速学习方法
传统方法是,学习数学理论,机器学习理论,Deep Learning理论,然后是实践,这条路太漫长. 而更快速的方法是使用Keras+Python快速的上手练习[1]. 通过这些练习,达到2个目的: A ...
java的包资源管理器怎么弄出来_eclipse包资源管理器java项目，包，类重命名来学习吧...
eclipse包资源管理器java项目,包,类重命名,对于修改已知创建的包(包括java项目,java包)和java类文件的命名非常重要的,有时候你的java包里有多个java文件,你要改名字,可以说 ...
操作系统研究：面向软硬件协同的车载操作系统驶入快车道
已剪辑自: https://mp.weixin.qq.com/s?__biz=MzA4NTcwMDQwMg==&mid=2650818860&idx=1&sn=06f15812 ...
使用poi写入Excel
Excel版本: 03版本结尾为xxx.xls 最高只有65536行 07版本结尾为xxx.xlsx 行数无限制工作簿----->工作表----->行----->列创建一个mav ...

yipin project 03