文章目录

  • 三、大数据面试题_ETL篇
    • (一)Sqoop
      • 1. Sqoop底层运行的任务是什么
      • 2. Sqoop迁移数据的原理
      • 3. Sqoop参数
      • 4. Sqoop导入导出Null存储一致性问题
      • 5. Sqoop数据导出一致性问题
      • 6. 通过sqoop把数据加载到mysql中,如何设置主键?

三、大数据面试题_ETL篇

(一)Sqoop

1. Sqoop底层运行的任务是什么

只有Map阶段,没有Reduce阶段的任务。

2. Sqoop迁移数据的原理

Sqoop导入导出数据的原理

3. Sqoop参数

/opt/module/sqoop/bin/sqoop import \--connect \--username \--password \--target-dir \--delete-target-dir \--num-mappers \--fields-terminated-by   \--query   "$2" ' and $CONDITIONS;'

4. Sqoop导入导出Null存储一致性问题

Hive中的Null在底层是以“\N”来存储,而MySQL中的Null在底层就是Null,为了保证数据两端的一致性。在导出数据时采用–input-null-string和–input-null-non-string两个参数。导入数据时采用–null-string和–null-non-string。

5. Sqoop数据导出一致性问题

  1. 场景1:如Sqoop在导出到Mysql时,使用4个Map任务,过程中有2个任务失败,那此时MySQL中存储了另外两个Map任务导入的数据,此时老板正好看到了这个报表数据。而开发工程师发现任务失败后,会调试问题并最终将全部数据正确的导入MySQL,那后面老板再次看报表数据,发现本次看到的数据与之前的不一致,这在生产环境是不允许的。

  2. 场景2:设置map数量为1个(不推荐,面试官想要的答案不只这个)
    多个Map任务时,采用–staging-table方式,仍然可以解决数据一致性问题。

6. 通过sqoop把数据加载到mysql中,如何设置主键?

大数据面试题_ETL篇相关推荐

  1. 大数据面试题_Hive篇

    文章目录 一.大数据面试题_Hive篇 (一)Hive表与性能优化 1.hive 内部表和外部表的区别 2. hive 有索引吗 3.sort by 和 order by 的区别 4.如何使用过 Hi ...

  2. 大数据面试题Spark篇(1)

    目录 1.spark数据倾斜 2.Spark为什么比mapreduce快? 3.hadoop和spark使用场景? 4.spark宕机怎么迅速恢复? 5. RDD持久化原理? 6.checkpoint ...

  3. 大数据面试题Hbase篇

    目录 1.Hbase是什么? 2.HBase 的特点是什么? 3.HBase 和 Hive 的区别? 4.描述 HBase 的 rowKey 的设计原则? 5.请详细描述 HBase 中一个 cell ...

  4. 2021最全大数据面试题汇总---hadoop篇,附答案!

    大数据面试题来了! 本篇文章搜集了常见的大数据面试题以及答案,包含了Hadoop,Flume,Hbase,Hive,kafka,spark,zookeeper等方面的内容,助同学们收到心仪的Offer ...

  5. 大数据面试题及答案 汇总版

    版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/albg_boy/article/det ...

  6. rdd分片 spark_大数据面试题(Spark(一))

    大数据面试题(Spark(一)) 大家好,我是蓦然,这一系列大数据面试题是我秋招时自己总结准备的,后续我会总结出PDF版,希望对大家有帮助!1.spark的有几种部署模式,每种模式特点?(☆☆☆☆☆) ...

  7. (转)大数据面试题130道及答案整理 1-15

    大数据面试题130道及答案整理 1-15 转载自:https://www.cnblogs.com/yuluoxingkong/p/13475235.html 1.HashMap 和 Hashtable ...

  8. 大数据知识面试题-Hadoop(2022版)

    序列号 内容 链接 1 大数据知识面试题-通用(2022版) https://blog.csdn.net/qq_43061290/article/details/124819089 2 大数据知识面试 ...

  9. 大数据面试题V2.0,641页,39w字

    大家好,我是蓦然 原文链接如下: 大数据面试题V2.0,641页,39w字面试题来源:牛客网大数据面经,从约500篇面经选取.https://mp.weixin.qq.com/s?__biz=MzI3 ...

最新文章

  1. 基于U-Net图像分割的划痕缺陷分割(课程设计)
  2. R语言ggplot2可视化:为图像中的均值竖线、中位数竖线、 geom_vline添加图例(legend)
  3. Linux 进程等待队列
  4. Windows服务器下升级PHP版本的方法
  5. 深度学习pytorch--多层感知机(二)
  6. java string转long报错_java.lang.Integer cannot be cast to java.lang.Long解决办法
  7. LeetCode 464. 我能赢吗(状态压缩+记忆化递归 / 博弈)
  8. 图例放在图的外面_Qt编写自定义控件41-自定义环形图
  9. 马斯克称下一代超级工厂占地可能没必要更大 但可能更先进
  10. Epic Citadel Demo展示互联网作为游戏平台的巨大能量
  11. 如何让git小乌龟工具TortoiseGit记住你的账号密码
  12. 运维常用表格-干货分享
  13. 【深度学习】模型平均误差分析
  14. 考研复试——数据库复习笔记
  15. P4556 [Vani有约会] 树上差分 + 线段树合并
  16. 嵌入式开发QT教程-5集 纯代码编写UI界面
  17. 微信小程序存在的风险_警惕,你的微信小程序可能面临着风险!
  18. 通过JS代码动态生成HTML表格(Table),Input框,Button按钮.并且通过Input框的值进行查询动态生成数据填写在指定的表格里
  19. obsolete or deprecated parameter(s) specified for RDBMS instanc
  20. 用float/double定义可以输入整数

热门文章

  1. 领先特斯拉,中国电车制造商“登陆”东南亚,电气化潮流一触即发
  2. realtek+wifi+linux驱动下载,RealTek wifi 驱动移植说明_V1.0 PDF 下载
  3. 数据结构在编程项目中的作用和认识
  4. 小白入坑【文献阅读】之前需要知道的软件、网站、常识
  5. 回复审稿人意见——硕士期间我De第一篇SCI
  6. ZZULIOJ.1114: 逆序
  7. 清华数据结构平均气温AC100
  8. C 语言之枚举类型Enum
  9. 1287:最低通行费
  10. JavaSE小项目练习——图书管理小练习(超详细)