大数据面试题_ETL篇
文章目录
- 三、大数据面试题_ETL篇
- (一)Sqoop
- 1. Sqoop底层运行的任务是什么
- 2. Sqoop迁移数据的原理
- 3. Sqoop参数
- 4. Sqoop导入导出Null存储一致性问题
- 5. Sqoop数据导出一致性问题
- 6. 通过sqoop把数据加载到mysql中,如何设置主键?
三、大数据面试题_ETL篇
(一)Sqoop
1. Sqoop底层运行的任务是什么
只有Map阶段,没有Reduce阶段的任务。
2. Sqoop迁移数据的原理
Sqoop导入导出数据的原理
3. Sqoop参数
/opt/module/sqoop/bin/sqoop import \--connect \--username \--password \--target-dir \--delete-target-dir \--num-mappers \--fields-terminated-by \--query "$2" ' and $CONDITIONS;'
4. Sqoop导入导出Null存储一致性问题
Hive中的Null在底层是以“\N”来存储,而MySQL中的Null在底层就是Null,为了保证数据两端的一致性。在导出数据时采用–input-null-string和–input-null-non-string两个参数。导入数据时采用–null-string和–null-non-string。
5. Sqoop数据导出一致性问题
场景1:如Sqoop在导出到Mysql时,使用4个Map任务,过程中有2个任务失败,那此时MySQL中存储了另外两个Map任务导入的数据,此时老板正好看到了这个报表数据。而开发工程师发现任务失败后,会调试问题并最终将全部数据正确的导入MySQL,那后面老板再次看报表数据,发现本次看到的数据与之前的不一致,这在生产环境是不允许的。
场景2:设置map数量为1个(不推荐,面试官想要的答案不只这个)
多个Map任务时,采用–staging-table方式,仍然可以解决数据一致性问题。
6. 通过sqoop把数据加载到mysql中,如何设置主键?
大数据面试题_ETL篇相关推荐
- 大数据面试题_Hive篇
文章目录 一.大数据面试题_Hive篇 (一)Hive表与性能优化 1.hive 内部表和外部表的区别 2. hive 有索引吗 3.sort by 和 order by 的区别 4.如何使用过 Hi ...
- 大数据面试题Spark篇(1)
目录 1.spark数据倾斜 2.Spark为什么比mapreduce快? 3.hadoop和spark使用场景? 4.spark宕机怎么迅速恢复? 5. RDD持久化原理? 6.checkpoint ...
- 大数据面试题Hbase篇
目录 1.Hbase是什么? 2.HBase 的特点是什么? 3.HBase 和 Hive 的区别? 4.描述 HBase 的 rowKey 的设计原则? 5.请详细描述 HBase 中一个 cell ...
- 2021最全大数据面试题汇总---hadoop篇,附答案!
大数据面试题来了! 本篇文章搜集了常见的大数据面试题以及答案,包含了Hadoop,Flume,Hbase,Hive,kafka,spark,zookeeper等方面的内容,助同学们收到心仪的Offer ...
- 大数据面试题及答案 汇总版
版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/albg_boy/article/det ...
- rdd分片 spark_大数据面试题(Spark(一))
大数据面试题(Spark(一)) 大家好,我是蓦然,这一系列大数据面试题是我秋招时自己总结准备的,后续我会总结出PDF版,希望对大家有帮助!1.spark的有几种部署模式,每种模式特点?(☆☆☆☆☆) ...
- (转)大数据面试题130道及答案整理 1-15
大数据面试题130道及答案整理 1-15 转载自:https://www.cnblogs.com/yuluoxingkong/p/13475235.html 1.HashMap 和 Hashtable ...
- 大数据知识面试题-Hadoop(2022版)
序列号 内容 链接 1 大数据知识面试题-通用(2022版) https://blog.csdn.net/qq_43061290/article/details/124819089 2 大数据知识面试 ...
- 大数据面试题V2.0,641页,39w字
大家好,我是蓦然 原文链接如下: 大数据面试题V2.0,641页,39w字面试题来源:牛客网大数据面经,从约500篇面经选取.https://mp.weixin.qq.com/s?__biz=MzI3 ...
最新文章
- 基于U-Net图像分割的划痕缺陷分割(课程设计)
- R语言ggplot2可视化:为图像中的均值竖线、中位数竖线、 geom_vline添加图例(legend)
- Linux 进程等待队列
- Windows服务器下升级PHP版本的方法
- 深度学习pytorch--多层感知机(二)
- java string转long报错_java.lang.Integer cannot be cast to java.lang.Long解决办法
- LeetCode 464. 我能赢吗(状态压缩+记忆化递归 / 博弈)
- 图例放在图的外面_Qt编写自定义控件41-自定义环形图
- 马斯克称下一代超级工厂占地可能没必要更大 但可能更先进
- Epic Citadel Demo展示互联网作为游戏平台的巨大能量
- 如何让git小乌龟工具TortoiseGit记住你的账号密码
- 运维常用表格-干货分享
- 【深度学习】模型平均误差分析
- 考研复试——数据库复习笔记
- P4556 [Vani有约会] 树上差分 + 线段树合并
- 嵌入式开发QT教程-5集 纯代码编写UI界面
- 微信小程序存在的风险_警惕,你的微信小程序可能面临着风险!
- 通过JS代码动态生成HTML表格(Table),Input框,Button按钮.并且通过Input框的值进行查询动态生成数据填写在指定的表格里
- obsolete or deprecated parameter(s) specified for RDBMS instanc
- 用float/double定义可以输入整数