目录

第一部分,自我介绍

第二部分,专业知识细问

第三部分,数据治理

第四部分,开发/代码能力

第五部分,个人性格测试


第一部分,自我介绍

通常面试官会让进行自我介绍,加项目经历介绍(大多数会按简历上的内容逐条细问)

回答的时候尽量根据STAR法则回答,Situation: 事情是在什么情况下发生,Target 你是如何明确你的目标的,Action: 针对这样的情况分析,你采用了什么行动方式,Result: 结果怎样。

常见问题:

1.某一个数仓开发项目举一个实际的案例详细讲解一下怎么设计的?

【方法论】从0到1建设数据中台流程_chimchim66的博客-CSDN博客_数据中台流程图

中间详细设计需结合某一业务线实际描述

2.过程中遇到了什么问题,怎么解决的?

3.你觉得自己在工作中哪些事情做的比较好,哪些比较欠缺?

4.个人的优缺点用几个词来形容一下

5.技术架构为什么这么选型?

6.建模选型及优缺点(建模方法为什么选维度建模?其他几种建模方式的优缺点?)

7.项目管理方法?(比如临时交给你一个项目,怎么立项、管理?)

第二部分,专业知识细问

1.什么是数据仓库?

2.数仓架构

3.维度建模实施步骤

数据仓库建设之总线矩阵/总线架构_chimchim66的博客-CSDN博客_总线架构 数据仓库

确定数据域
选定业务过程
确定数据粒度
确定一致性维度
确定一致性度量

4.星型雪花型区别

5.主题域划分方法

数据仓库建设之确定主题域_chimchim66的博客-CSDN博客_主题域

6.数仓分层详述

数仓分层设计_chimchim66的博客-CSDN博客

7.为什么要分层

数据仓库为什么要分层 ?_chimchim66的博客-CSDN博客

8.缓慢变化维及缓慢变化维处理方法

直接覆盖原值、新增维度列、新增维度行拉链

9.退化维

退化维就是没有对应维度表的维度,本质上它是存在于事实表中,并且相应的编码,号码字段没有与之对应的维度表,因为此类维度没有对应的上下文解释。订单号,发票号,机票号

10.事实表

事务事实表、周期快照事实表和累积快照事实表。
日志               月度账户余额     贷款申请审批流程

11.事实表中的度量分三种:

1.可加事实,2.半可加事实,3.不可加事实
 商品的单价  库存数据   比率型数据

12.指标

原子指标= 业务动作+度量 | 某种状态+度量 |维度+度量
派生指标=原子指标_时间周期_业务限定_统计粒度
衍生指标=原子指标的表达式组合(比如除计算比率)

13.指标的价值
突出重点,不能罗列,有目标,贴合业务

14.如何衡量数仓的好坏

模型的复用性、完整度、规范性、核心与拓展模型分离

15.命名规范

16.ui设计规范
颜色 排版 不同分析场景使用不同组件

17.存储格式

sequencefile avro rcfile orc parquet

18.压缩格式

gzip snappy bzip2 lzo

19.分析模型
osm目标策略评估指标 ujm用户旅行地图 aarrr产品的生命周期 MECE模型 相互独立,完全穷尽 rfm 最近一次消费(Recency)、消费频率(Frequency)以及消费金额(Monetary)

第三部分,数据治理

(该部分有做过的话会问的细一点,可以翻看我的其他博文)

1.元数据管理

2.主数据管理

3.数据标准

4.数据安全

5.数据质量

6.数据资产化

标签化 价值化 可持续 可使用

7.数据治理的意义

数据资产化、业务数据化、数据业务化

第四部分,开发/代码能力

1.mapreduce执行原理

2.客户端向HDFS写入数据过程

3.客户端从HDFS读数据过程

4.数据倾斜

5.优化

6.hdfs数据块的默认大小是多少?过大过小有什么优缺点?(dfs.block.size)

Hadoop2.7.2以前是64m,Hadoop2.7.3之后是128m

过小会增加寻址时间并且会生成大量小文件占用NameNode中大量内存来存储元数据;

过大会增加磁盘传输时间,mapreduce中的map任务通常一次只处理一个块中的数据,如果块过大运行速度也会很慢。

HDFS块的大小设置主要取决于磁盘传输速率

7.HDFS中块(block)的大小为什么设置为128M?

HDFS中平均寻址时间大概为10ms;

经过前人的大量测试发现,寻址时间为传输时间的1%时,为最佳状态;

所以最佳传输时间为10ms/0.01=1000ms=1s

目前磁盘的传输速率普遍为100MB/s;

计算出最佳block大小:100MB/s x 1s = 100MB

所以我们设定block大小为128MB。

8.sql优化之避免全表扫描

避免查询条件使用like 、不等于操作符(<>、!=的select语句执行慢、含有is null的select语句执行慢、 count(*) 、or语句使用不当会引起全表扫描

9.开窗函数、排序函数 区别及原理

10.部分公司会有机试 考察sql\算法等

第五部分,个人性格测试

1.性格测试笔试题

2.一些性格测试的问题

3.比较关键的点,会的东西从容回答,不会的直接承认不会,接触少的直接告知,我认为诚信还是比较重要的,充分让面试官了解自己的能力,安排匹配的工作,也避免了以后工作中无法胜任的尴尬

【面试】数据仓库面试经验总结相关推荐

  1. 度小满-数据仓库面试

    度小满-数据仓库面试 自我介绍 你感觉自身主要能力是什么? 数据开源组件了解多少? Hive.Spark底层怎么解析SQL,怎么加工执行了解吗? MapReduce的环形缓冲区对数据进行排序的算法是什 ...

  2. 关于春招 秋招面试的一些经验

    2019 年第 24 篇,总 48 篇文章 本文大约 5000 字,阅读大约需要 15 分钟 周末了,就不写技术了,来聊聊关于春招/秋招面试的事情,刚好最近也是逐渐开始春招找实习或者找工作的时候了,我 ...

  3. 想入职阿里的Java开发者必看,阿里巴巴面试官实战经验分享!

    最近社区Java技术进阶群的小伙伴总是会问,如何面试阿里Java技术岗,需要什么条件,做哪些准备:小编就这些问题找到了阿里技术团队中在一线真正带Java开发团队并直接参与技术面试的专家,分享了自身在筛 ...

  4. 前辈们的面试经验总结——对于BAT等企业如何面试之面试流程及问题解析、以及面试时的基本礼仪及着装

    大纲 1.面试流程及问题解释 (一)简历:(二)笔试:(三)电话面试:(四)面试:(五)签约: 2.面试时的基本礼仪着装 1.面试流程及问题解释 无论是程序员还是其他职业的面试,虽然都是提交简历.电话 ...

  5. 南方航空java面试_面试经验 南航面试经历分享

    南方航空面试经历分享 前言 每个人的成功经验都是来之不易的,今天小V的面经写得有点长,为了给大家写的详细一些,参考多一些,也是拼了! 小V的基本情况:小V是一名大三的在校学生,学的还是搬砖的理工科专业 ...

  6. 项目经理的专业面试10条经验总结

    作者:红哥笔记 链接:https://www.zhihu.com/question/20635088/answer/2683203738 来源:知乎 著作权归作者所有.商业转载请联系作者获得授权,非商 ...

  7. 程序员面试,面试官更注重代码量、项目经验还是操作系统、数据结构这种基础课程?...

    作者 张小方 如需转载,请联系原作者授权. 我去年12月份从上一家公司离职,一直到今年3月份,基本上都在面试中度过来的. 先交代下背景:坐标上海,做技术开发,我本人求职的职位是linux服务器开发,最 ...

  8. 程序员面试,面试官更注重代码量、项目经验还是操作系统、数据结构这种基础课程?

    作者 张小方 我去年12月份从上一家公司离职,一直到今年3月份,基本上都在面试中度过来的. 先交代下背景:坐标上海,做技术开发,我本人求职的职位是linux服务器开发,最倾向的职位是服务器开发主程或技 ...

  9. 中公教育python培训讲师面试题_【中公教育讲师面试题目|面试经验】-看准网

    应聘中公教育西安分公司的英语教招岗,面试分为五轮,中公其它的岗位不提,单就英语教招岗来说,面试有难度,而且不低.每一轮的考核老师都很和善,不过都挺认真,简历看的都很仔细,筛选应聘者时,标准不能说宽松. ...

  10. 是几号字_教资面试3000字经验贴:她非师范备考1个月,一次通过!

    邀请到一位学霸,给大家讲下教资面试 非师范生,备考1个月,一次通过 真的很厉害哦~ 教师考试这种事就像小马过河,不亲身经历过,无以道出其中真谛.鉴于全国教师资格证面试的临近,下面就通过本人的亲身经历, ...

最新文章

  1. 发现自己的代码写的越来越玄幻了
  2. 接收udp数据_聊聊UDP、TCP和实现一个简单的JAVA UDP小Demo
  3. Java四种线程池的使用
  4. python成长之路【第七篇】:面向对象
  5. 【学习】03 淘宝爬虫-使用selenium采集关键词为电动车的数据
  6. windows窗口添加菜单[SDK]
  7. 面试题笔试-带答案-1
  8. php获取客户端IP
  9. 如何在markdown中打出上标、下标和一些特殊符号 from jianshuer 这是朕的江山
  10. 读入一句话(一行文本),统计26个大写字母各自出现的次数。(java)
  11. 未来5年互联网,运营将成比产品更加有前途的职业?
  12. Apple Lossless Audio Codec 苹果无损音频解码器
  13. git本地无法上传到远程的问题解决方法
  14. 计算机为动态分区无法安装系统,装系统时提示目标分区是动态磁盘的gpt分区,需要在pe环境下进行备份或还原怎么解决...
  15. 老师讲的真棒!javaisblank函数的使用方法
  16. 用python制作微信机器人程序编写_Python制作微信聊天机器人
  17. 可视化学习:社团划分算法——标签传播算法LPA及优化
  18. 用Linux+IPChains代替Windows+WinGate
  19. 关于我发表了TalentOrg的面试文章而被官方的人找上门
  20. 图数据库 TigerGraph 使用全攻略

热门文章

  1. python禅语_42:对象、类、以及从属关系
  2. 十大优质外盘炒黄金平台排名
  3. 计算机诞生以来应用最早的,全国一级b考试练习题.doc
  4. linux centos如何开启远程桌面,CentOS配置远程桌面
  5. 中标麒麟操作系统安装MySQL5.7.22
  6. Pytorch optimizer.step() 和loss.backward()和scheduler.step()的关系与区别
  7. c语言中指针用法初级,C语言中各类指针的用法(小结)
  8. 计算机系统安全启动,关闭电脑的安全启动项( Secure Boot )
  9. typechoSEO站点收录插件推荐
  10. STM32 MCP2515连发 多发 MCP2515收发程序 多路CAN通信 2路CAN