文章目录

  • 大数据面试题_数据仓库篇
    • 离线数据仓库
      • 1、为什么要对数据仓库分层?
      • 2、数据建模用的哪些模型?
      • 3、你感觉数仓建设中最重要的是什么

大数据面试题_数据仓库篇

离线数据仓库

1、为什么要对数据仓库分层?

  1. 用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因 此数据仓库会存在大量冗余的数据。
  2. 如果不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清 洗过程,工作量巨大。
  3. 通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了 多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的 黑盒变成了一个白盒,每一层的处理逻辑都相对简单和容易理解,这样我们比较 容易保证每一个步骤的正确性,当数据发生错误的时候,往往我们只需要局部调 整某个步骤即可。

2、数据建模用的哪些模型?

星型模型
星形模式(Star Schema)是最常用的维度建模方式。星型模式是以事实表为中心, 所有的维度表直接连接在事实表上,像星星一样。 星形模式的维度建模由一个事实表和一组维表成,且具有以下特点:
a. 维表只和事实表关联,维表之间没有关联;
b. 每个维表主键为单列,且该主键放置在事实表中,作为两边连接的外键;
c. 以事实表为核心,维表围绕核心呈星形分布;
雪花模型
雪花模式(Snowflake Schema)是对星形模式的扩展。雪花模式的维度表可以拥有 其他维度表的,虽然这种模型相比星型更规范一些,但是由于这种模型不太容易 理解,维护成本比较高,而且性能方面需要关联多层维表,性能也比星型模型要 低。所以一般不是很常用。
星座模型
星座模式是星型模式延伸而来,星型模式是基于一张事实表的,而星座模式是基 于多张事实表的,而且共享维度信息。前面介绍的两种维度建模方法都是多维表 对应单事实表,但在很多时候维度空间内的事实表不止一个,而一个维表也可能 被多个事实表用到。在业务发展后期,绝大部分维度建模都采用的是星座模式。

3、你感觉数仓建设中最重要的是什么

数仓建设中,最重要的是数据准确性,数据的真正价值在于数据驱动决策,通过数据指导运营,在一个不准确的数据驱动下,得到的一定是错误的数据分析,影响的是公司的业务发展决策,最终导致公司的策略调控失败。

大数据面试题_数据仓库篇相关推荐

  1. 2021最全大数据面试题汇总---hadoop篇,附答案!

    大数据面试题来了! 本篇文章搜集了常见的大数据面试题以及答案,包含了Hadoop,Flume,Hbase,Hive,kafka,spark,zookeeper等方面的内容,助同学们收到心仪的Offer ...

  2. 大数据面试题_Hive篇

    文章目录 一.大数据面试题_Hive篇 (一)Hive表与性能优化 1.hive 内部表和外部表的区别 2. hive 有索引吗 3.sort by 和 order by 的区别 4.如何使用过 Hi ...

  3. 大数据面试题Spark篇(1)

    目录 1.spark数据倾斜 2.Spark为什么比mapreduce快? 3.hadoop和spark使用场景? 4.spark宕机怎么迅速恢复? 5. RDD持久化原理? 6.checkpoint ...

  4. 大数据面试题_ETL篇

    文章目录 三.大数据面试题_ETL篇 (一)Sqoop 1. Sqoop底层运行的任务是什么 2. Sqoop迁移数据的原理 3. Sqoop参数 4. Sqoop导入导出Null存储一致性问题 5. ...

  5. 5000字 大数据时代读书笔记_《大数据时代》读后感5篇

    <大数据时代>读后感 5 篇 对于畅销书刊.热点话题.时尚科技,始终不太感兴趣.书 刊,喜欢有一定年份的.话题,钟情于务虚的观点.新奇的产品 于我无缘,习惯使用成熟的科技产品.既不清高,也 ...

  6. opta球员大数据预测胜负_足球财富:德甲联赛双盘结合大数据——胜负盘口预测篇...

    原标题:足球财富:德甲联赛双盘结合大数据--胜负盘口预测篇 德甲联赛自5月16日回归以来,受到了广大彩民朋友们极大的青睐,截止笔者写稿时,德甲联赛已经进行到了第30轮,剩下的4轮比赛将在6月份全部赛完 ...

  7. 大数据面试题及答案 汇总版

    版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/albg_boy/article/det ...

  8. 视频教程-全新大数据企业电商数据仓库项目实战教程-大数据

    全新大数据企业电商数据仓库项目实战教程 张长志技术全才.擅长领域:区块链.大数据.Java等.10余年软件研发及企业培训经验,曾为多家大型企业提供企业内训如中石化,中国联通,中国移动等知名企业.拥有丰 ...

  9. 大数据知识面试题-Hadoop(2022版)

    序列号 内容 链接 1 大数据知识面试题-通用(2022版) https://blog.csdn.net/qq_43061290/article/details/124819089 2 大数据知识面试 ...

  10. 大数据知识面试题-通用(2022版)

    序列号 内容 链接 1 大数据知识面试题-通用(2022版) https://blog.csdn.net/qq_43061290/article/details/124819089 2 大数据知识面试 ...

最新文章

  1. HDU - 2767 Proving Equivalences tanjar强连通-DAG性质
  2. 树莓派视觉小车 -- 物体跟踪(OpenCV)
  3. 从云计算到AI:NetApp的数据网络转型之道
  4. 转 Android自动测试之monkeyrunner工具(二)
  5. 【Git】Git 分支管理 ( 解决分支合并冲突 | 本地处理文件冲突 )
  6. P1681 最大正方形 Iand II
  7. html简单网页代码表白_表白网页代码,不会代码也可以操作,告别单身
  8. 【CyberSecurityLearning 11】OSI与TCP/IP协议簇以及Packet Tracer模拟器
  9. 《移动项目实践》实验报告——Android自定义控件
  10. Win10 owerShell Get命令大全
  11. java mousepress_Java线程原语弃用
  12. Debian GNU Linux 4.0 r4
  13. Cover Protocol官方提醒用户警惕诈骗网站
  14. python基础函数及用法意思_Python基础之函数基本用法与进阶详解
  15. Helm 3 完整教程(八):Helm 函数讲解(2)字符串函数
  16. 三星android se干啥得,万元安卓机用了3个月,换成三千元的iPhoneSE后,谈谈真实感受...
  17. java计算机毕业设计ssm+vue工商学院办公用品管理信息系统
  18. python读取tiff图像,浅谈python下tiff图像的读取和保存方法
  19. 京东高层重大调整!首设集团总裁职位,“二号人物”徐雷上位?
  20. android 插屏广告代码,插屏(Interstitial)广告样式

热门文章

  1. ds90ub934 i2c 配置_TI ds90ub954 芯片调试简单总结
  2. Oracle imp/impdp 导入dmp文件到数据库
  3. 中文code:blocks安装(三分钟包安装成功,不成功你找我)
  4. Mathematica处理高斯光束的分布图像
  5. html css笔试题库,web前端笔试题集锦(HTML/CSS篇)
  6. mhdd测试hdd硬盘软件,硬盘检测工具(HDDScan)
  7. pyside6的MQTT客户端
  8. 波利亚《如何解题 How to Solve It》
  9. android studio 截图方法,Android studio 2.0 的安装的全程截图,手把手教学,亲自实践。...
  10. NLP、CV、语音相关AI算法工程师面试问题、代码、简历模板、知识点等资源整理分享