度小满-数据仓库面试

  1. 自我介绍
  2. 你感觉自身主要能力是什么?
  3. 数据开源组件了解多少?
  4. Hive、Spark底层怎么解析SQL,怎么加工执行了解吗?
  5. MapReduce的环形缓冲区对数据进行排序的算法是什么?进行排序的原因是什么?

快排

  1. 环形缓冲区排序的作用和影响?

(1)环形缓冲区不需要重新申请新的内存,始终用的都是这个内存空间。大家知道MR是用java写的,而Java有一个最讨厌的机制就是Full GC。Full GC总是会出来捣乱,这个bug也非常隐蔽,发现了也不好处理。环形缓冲区从头到尾都在用那一个内存,不断重复利用,因此完美的规避了Full GC导致的各种问题,同时也规避了频繁申请内存引发的其他问题。
(2)环形缓冲区同时做了两件事情:(a)排序;(b)索引。在这里一次排序,将无序的数据变为有序,写磁盘的时候顺序写,读数据的时候顺序读,效率高非常多!
(3)在这里设置索引区也是为了能够持续的处理任务。每读取一段数据,就往索引文件里也写一段,这样在排序的时候能加快速度。使用环形缓冲区,便于写入缓冲区和写出缓冲区同时进行。
https://blog.csdn.net/weixin_52346300/article/details/116021803
http://t.zoukankan.com/BIG-BOSS-ZC-p-11807318.html

  1. HiveSQL的优化操作有哪些?在工作中用到的优化

  2. 两张千亿级别的数据表进行join关联,两个表的key分布均匀,如何优化?
    分桶表

  3. 分桶表使用过程中有什么缺点吗?
    如果通过数据文件LOAD 到分桶表中,会存在额外的MR负担。
    https://blog.csdn.net/u010003835/article/details/80911215

  4. Spark的shuffle和MapReduce的shuffle有什么区别?

  5. Spark和Hive的使用场景是什么?如何划分计算引擎?
    基于MapRedce基于数据文件的计算,保证了任务执行的稳定性和可靠性,适用于核心的业务场景,例如数据仓库模型处理;
    Spark基于内存的迭代式计算,核心思想是中间数据不落盘,通过lineage保证可靠性,性能提升但是有更大内存开销和OOM风险,适合小数据量资源充足情况下的低延迟要求场景,例如应用端数据使用。
    基于Spark的丰富的transformation和action算子、RDD持久化机制和RDD间DAG依赖关系,适合处理复杂的业务运算和迭代式运算场景;
    MapReduce将所有运算拆分成MapTask和ReduceTask,通过磁盘文件保存中间数据结果,性能略差。

  6. Spark有什么缺点吗?
    Spark是内存计算,对资源要求高,容易造成内存溢出等问题

  7. Spark执行过程中发生OOM,如果限制总资源和代码逻辑不改变,如何调参?
    (1)调整增大driver端内存
    (2)减少executor-cores数,以增大每个core的分配到的内存
    (3)调整执行内存shuffle memory和存储内存storage memory的占比

  8. 你觉得应用端数据表和数据仓库模型有什么区别?即数仓模型的主要能力是什么?

  9. 怎么样评估模型好坏?

  10. 维度建模中,设计模型需要考虑哪些点?如何做支持?

  11. 是否有数据仓库项目优化升级改造的经验?

  12. 数据仓库项目如何评估是否满足需求?

度小满-数据仓库面试相关推荐

  1. 度小满金融面试java_记度小满金融面试过程

    度小满金融就是原来的百度金融,我投了它的后端开发实习生岗位,岗位要求写C++.Java.php.python这些语言掌握一种都可以.度小满在上海有现场面试的站点,就直接打电话让我过去面了. 面试有两轮 ...

  2. 测试开发(社招)面经:度小满

    2021-08面试 度小满1面: 1.自我介绍+项目相关 2.tcp三次握手 3.牛客每天有很多人登录,请你统计一下牛客每个日期登录新用户个数, select date, count(user_id) ...

  3. 4.22 虾皮_小米_度小满

    虾皮 面试官问了很多spark 细节的问题.job划分,热点数据,小文件处理方式,shuffle,数据倾斜,orc文件的优势. 现在想起来,虽然答了,但是答得不好. sql 没写出来. 分段平均和分段 ...

  4. 我是如何拿到:百度 腾讯 头条 美团 度小满等互联网offer的?

    关于答主:985.通信.A+学科硕士,2018年的秋招收获了:百度.腾讯.头条.美团.猿辅导.度小满.猫眼.流利说等offer.秋招之后,申请了一个微信公众号[菜鸟名企梦],初衷是把自己的求职期间的总 ...

  5. 度小满金融前端开发一面(已挂)

    昨天下午正在做腾讯的笔试题,接到度小满的电话,让去面试,急匆匆结束了笔试就赶过去了,在酒店等了一会就到我了.以下为面试回忆. 自我介绍,讲了自己的本科,研究生期间的学习经历,项目经历,学习方向等等 然 ...

  6. 快速迈向智能金融时代的过程中,度小满究竟能提供些什么?

    就如百度高级副总裁朱光在埃森哲与百度共同研究.撰写的<智能金融联合报告>中所说:"如今,我们再一次站在时代的分界线上,一个崭新的智能时代已经来临,虽然很难预知人工智能将如何影响你 ...

  7. 超越快手腾讯!度小满NLP模型登顶CLUE榜首

      视学算法报道   编辑:桃子 好困 [新智元导读]要说自然语言处理最厉害的兵器,非「轩辕」剑莫属.近日,度小满金融AI-Lab研发的轩辕 (XuanYuan) 预训练模型刷榜CLUE,距离人类「表 ...

  8. 李宗纯:图机器学习在度小满风控中的应用

    来源:DataFunTalk 本文约6900字,建议阅读10+分钟 本文主要介绍度小满的超大规模图平台,以及它在真实金融风控业务中的应用.其中会包括一些应用方法和案例,希望能为大家在图机器学习落地产品 ...

  9. 度小满启动“小微加油站”,让低息服务可持续

    11月18日,度小满金融联合中国中小企业协会启动「小微加油站」,面向全国小微企业主提供总额20亿.年化综合利率最低达到3.65%的小微金融服务.这也是度小满金融对去年底推出的「小微加油站」计划的一次升 ...

最新文章

  1. Android App监听软键盘按键的三种方式(转)
  2. 重磅 | 中国工程院提出新一代智能制造【附下载】
  3. CodeForces - 820D Mister B and PR Shifts(思维+模拟)
  4. oracle快速了解法,【oracle】rownum的快速了解
  5. Angular property binding重复触发的问题讨论
  6. php 合并数组成父子关系,php - 将电子表格解析为PHP数组并返回具有父子关系的嵌套MLM表 - SO中文参考 - www.soinside.com...
  7. 类初始化的一道面试题
  8. 恒压板框过滤实验数据处理_高考化学实验中:那些不常见的【特殊仪器】与装置,难得的资料...
  9. aws lambda_Express.js和AWS Lambda —无服务器的爱情故事
  10. 四面八方的意思是什么,怎么用四面八方造句?
  11. 不看好的Android火了,看好的WebOS死了
  12. 2018/03/01
  13. Java飞机大战项目
  14. Windows10 电脑蓝屏方案对照表
  15. dz中footer.php在哪找,去掉DZ顶部标题,美化底部左下方版权,详细教程
  16. 海思Hi3519/Hi3559-使用cmake编译sdk代码
  17. 光纤的用途及主要种类
  18. java 找出重复的数字
  19. DSPE-PEG-TPP 磷酸三苯酯修饰聚乙二醇PE磷脂
  20. 好书推荐-——《态度》——吴军老师著

热门文章

  1. python 期货交易_Python期货量化交易基础教程(1)
  2. 最近流行的病毒(杀毒软件无法查杀)
  3. cloud-init 典型应用 - 每天5分钟玩转 OpenStack(174)
  4. PS 图片编辑软件软件安装包下载地址及安装教程
  5. Java程序员烂大街了?
  6. uGUI学习篇: UI元素的渲染与性能
  7. jzoj4210. 我才不是萝莉控呢(B组——Day4)
  8. 提高用户体验--子非鱼,须知鱼之乐
  9. json解析 C# json解析
  10. 今日头条(Java后台研发)-一面挂