度小满-数据仓库面试
度小满-数据仓库面试
- 自我介绍
- 你感觉自身主要能力是什么?
- 数据开源组件了解多少?
- Hive、Spark底层怎么解析SQL,怎么加工执行了解吗?
- MapReduce的环形缓冲区对数据进行排序的算法是什么?进行排序的原因是什么?
快排
- 环形缓冲区排序的作用和影响?
(1)环形缓冲区不需要重新申请新的内存,始终用的都是这个内存空间。大家知道MR是用java写的,而Java有一个最讨厌的机制就是Full GC。Full GC总是会出来捣乱,这个bug也非常隐蔽,发现了也不好处理。环形缓冲区从头到尾都在用那一个内存,不断重复利用,因此完美的规避了Full GC导致的各种问题,同时也规避了频繁申请内存引发的其他问题。
(2)环形缓冲区同时做了两件事情:(a)排序;(b)索引。在这里一次排序,将无序的数据变为有序,写磁盘的时候顺序写,读数据的时候顺序读,效率高非常多!
(3)在这里设置索引区也是为了能够持续的处理任务。每读取一段数据,就往索引文件里也写一段,这样在排序的时候能加快速度。使用环形缓冲区,便于写入缓冲区和写出缓冲区同时进行。
https://blog.csdn.net/weixin_52346300/article/details/116021803
http://t.zoukankan.com/BIG-BOSS-ZC-p-11807318.html
HiveSQL的优化操作有哪些?在工作中用到的优化
两张千亿级别的数据表进行join关联,两个表的key分布均匀,如何优化?
分桶表分桶表使用过程中有什么缺点吗?
如果通过数据文件LOAD 到分桶表中,会存在额外的MR负担。
https://blog.csdn.net/u010003835/article/details/80911215Spark的shuffle和MapReduce的shuffle有什么区别?
Spark和Hive的使用场景是什么?如何划分计算引擎?
基于MapRedce基于数据文件的计算,保证了任务执行的稳定性和可靠性,适用于核心的业务场景,例如数据仓库模型处理;
Spark基于内存的迭代式计算,核心思想是中间数据不落盘,通过lineage保证可靠性,性能提升但是有更大内存开销和OOM风险,适合小数据量资源充足情况下的低延迟要求场景,例如应用端数据使用。
基于Spark的丰富的transformation和action算子、RDD持久化机制和RDD间DAG依赖关系,适合处理复杂的业务运算和迭代式运算场景;
MapReduce将所有运算拆分成MapTask和ReduceTask,通过磁盘文件保存中间数据结果,性能略差。Spark有什么缺点吗?
Spark是内存计算,对资源要求高,容易造成内存溢出等问题Spark执行过程中发生OOM,如果限制总资源和代码逻辑不改变,如何调参?
(1)调整增大driver端内存
(2)减少executor-cores数,以增大每个core的分配到的内存
(3)调整执行内存shuffle memory和存储内存storage memory的占比你觉得应用端数据表和数据仓库模型有什么区别?即数仓模型的主要能力是什么?
怎么样评估模型好坏?
维度建模中,设计模型需要考虑哪些点?如何做支持?
是否有数据仓库项目优化升级改造的经验?
数据仓库项目如何评估是否满足需求?
度小满-数据仓库面试相关推荐
- 度小满金融面试java_记度小满金融面试过程
度小满金融就是原来的百度金融,我投了它的后端开发实习生岗位,岗位要求写C++.Java.php.python这些语言掌握一种都可以.度小满在上海有现场面试的站点,就直接打电话让我过去面了. 面试有两轮 ...
- 测试开发(社招)面经:度小满
2021-08面试 度小满1面: 1.自我介绍+项目相关 2.tcp三次握手 3.牛客每天有很多人登录,请你统计一下牛客每个日期登录新用户个数, select date, count(user_id) ...
- 4.22 虾皮_小米_度小满
虾皮 面试官问了很多spark 细节的问题.job划分,热点数据,小文件处理方式,shuffle,数据倾斜,orc文件的优势. 现在想起来,虽然答了,但是答得不好. sql 没写出来. 分段平均和分段 ...
- 我是如何拿到:百度 腾讯 头条 美团 度小满等互联网offer的?
关于答主:985.通信.A+学科硕士,2018年的秋招收获了:百度.腾讯.头条.美团.猿辅导.度小满.猫眼.流利说等offer.秋招之后,申请了一个微信公众号[菜鸟名企梦],初衷是把自己的求职期间的总 ...
- 度小满金融前端开发一面(已挂)
昨天下午正在做腾讯的笔试题,接到度小满的电话,让去面试,急匆匆结束了笔试就赶过去了,在酒店等了一会就到我了.以下为面试回忆. 自我介绍,讲了自己的本科,研究生期间的学习经历,项目经历,学习方向等等 然 ...
- 快速迈向智能金融时代的过程中,度小满究竟能提供些什么?
就如百度高级副总裁朱光在埃森哲与百度共同研究.撰写的<智能金融联合报告>中所说:"如今,我们再一次站在时代的分界线上,一个崭新的智能时代已经来临,虽然很难预知人工智能将如何影响你 ...
- 超越快手腾讯!度小满NLP模型登顶CLUE榜首
视学算法报道 编辑:桃子 好困 [新智元导读]要说自然语言处理最厉害的兵器,非「轩辕」剑莫属.近日,度小满金融AI-Lab研发的轩辕 (XuanYuan) 预训练模型刷榜CLUE,距离人类「表 ...
- 李宗纯:图机器学习在度小满风控中的应用
来源:DataFunTalk 本文约6900字,建议阅读10+分钟 本文主要介绍度小满的超大规模图平台,以及它在真实金融风控业务中的应用.其中会包括一些应用方法和案例,希望能为大家在图机器学习落地产品 ...
- 度小满启动“小微加油站”,让低息服务可持续
11月18日,度小满金融联合中国中小企业协会启动「小微加油站」,面向全国小微企业主提供总额20亿.年化综合利率最低达到3.65%的小微金融服务.这也是度小满金融对去年底推出的「小微加油站」计划的一次升 ...
最新文章
- Android App监听软键盘按键的三种方式(转)
- 重磅 | 中国工程院提出新一代智能制造【附下载】
- CodeForces - 820D Mister B and PR Shifts(思维+模拟)
- oracle快速了解法,【oracle】rownum的快速了解
- Angular property binding重复触发的问题讨论
- php 合并数组成父子关系,php - 将电子表格解析为PHP数组并返回具有父子关系的嵌套MLM表 - SO中文参考 - www.soinside.com...
- 类初始化的一道面试题
- 恒压板框过滤实验数据处理_高考化学实验中:那些不常见的【特殊仪器】与装置,难得的资料...
- aws lambda_Express.js和AWS Lambda —无服务器的爱情故事
- 四面八方的意思是什么,怎么用四面八方造句?
- 不看好的Android火了,看好的WebOS死了
- 2018/03/01
- Java飞机大战项目
- Windows10 电脑蓝屏方案对照表
- dz中footer.php在哪找,去掉DZ顶部标题,美化底部左下方版权,详细教程
- 海思Hi3519/Hi3559-使用cmake编译sdk代码
- 光纤的用途及主要种类
- java 找出重复的数字
- DSPE-PEG-TPP 磷酸三苯酯修饰聚乙二醇PE磷脂
- 好书推荐-——《态度》——吴军老师著