2022年2月28日,我将我改了4遍的简历上传至boss上,还没开始投递,但收到来自百度的hr消息,于是发了一下简历,没过几天便来自百度的面试邀请,直接上图吧。

实习面试:

  • 1. 一面问题
  • 2. 二面问题
  • 3. 总结
  • 20220303补充

1. 一面问题

  1. 自我介绍(正常回答)
  2. 你博客的电商分析项目中,我看你用到了很多组件,你能说说这些组件都是在干什么吗?(自己博客的项目,一步一步做的,比较熟悉,直接回答了kafka、flink、es、mysql、bi工具)
  3. 了解hadoop的组件吗?说一说yarn在hadoop中的位置,以及执行作业时yarn的作用?(回答yarn的组成部分和作用)
  4. 你刚才提到es,你使用过es吗?了解es的原理吗?(不了解,只知道大概,不会写es,因为es的代码和sql很不一样)
  5. 你会scala吗?(不会,一般都使用pyspark和pyflink,看得懂简单的scala)
  6. 说一下mapreduce的流程,以统计文本单词数为例?(正常的maptask和reducetask)
  7. 如果一份数据某个key值数量较多,我们应该怎么办?(规约操作)
  8. 大表join小表你会怎么处理,小表join大表呢?(mapjoin,小表join大表我犹豫很久回答正常的join就行,面试官说其实两者没有本质区别)
  9. 和别人相比,你觉得你你自己的优势在哪里,或者说自己的优点?(介绍自己的优点)
  10. 这些博客都是你自己写的吗?(很确信的回答是的)

最后,面试官说:我应该是你二面的面试官,但是由于流程安排有问题,我成为了你一面的面试官,sql题和python题就不考你了,你等后续的安排吧,一面的面试官会考你题。

一面结束后,当晚就收到了来自百度的二面电话,通知第二天下午3点二面。

2. 二面问题

  1. 自我介绍
  2. SQL题:在两张表,表中有3个字段(id,label,date),ID代表的是用户标识,label代表的是标识,date代表日期,我要寻找前后两天id一样,但label不一样的用户id和label(简单的join操作,where判断不同即可)
  3. SQL题:还是那两张表,这次表的id不唯一,要求出同一id下今日最大的label和昨日最大的label,并进行比较,只取出相等label的id(分组、join、where判断不同即可)
  4. 会用scala吗?(一面一样的问题,我感觉我要凉了)
  5. spark的并发数了解吗?怎么进行设置?(这道问题,我其实比较懵,只知道一个task要一个核,回答不太清楚)
  6. 看你用过es,你会es的命令吗?(一面一样的问题)
  7. 你知道spark的repartition算子吗?(我说是重分区的算子,可以重新设置分区)
  8. 我有一个这样的场景,在用spark处理数据的时候,需要很大的并发量,而我写入es时,并发量需要很小,否则容易崩溃,你觉得怎么实现这一过程?(问到这,我其实很慌,因为上面的spark的并发数我没回答出来,然后这里又问到了并发的案例。根据大数据的感觉,我回答在spark端处理的数据可以进行合并,然后合并到一定程度,再写入es。回答完后问我如何合并,我回答可以join呀,就是把数据合并起来。)
  9. 回答一下:分区数,并发和核心数的关系?(这道题我突然意识到,分区数和核心数到关系,分区数越多,需要处理的核心数越多,然后面试官再问,你觉得准确的关系是什么?我犹豫了一会说到了一对一,一个分区需要一个core。然后面试官说,可以这么回答。)
  10. 根据上述你回答的关系,你觉得在刚才的场景中,如何实现高并发处理,低并发写入es?(到了这一步,我瞬间豁然开朗,原来分区数决定着core数,core数决定并发,于是把第8题用重分区的方法减小并发说了出来。)
  11. 根据你的回答,repartition算子应该如何运用在上述过程中?(就是把重分区换成了repartition算子又说了一遍。)
  12. 除了repartition算子,你还能想到其他的算子能实现这个功能吗?(将比较常见的groupbykey,reducebykey,join产生shuffle的算子说了出来)
  13. 你知道coalesce算子吗?它合并分区不需要进行shuffle(这个算子我没听过,后面去找了,coalesce算子可以折叠同一个工作节点的分区,比如一个文件text存在rdd的两个分区上,可以使用coalesce折叠为一个分区,避免shuffle。)
  14. 平时用rdd的情况多吗?(sql较多,偶尔写写dataframe)
  15. 说一下你的经历吧,在滴滴实习的经历(把三个项目说了说,维度建模、数据开发、拉链表)
  16. 你能实习多久?(按照自己的情况回答即可)

面试官从头到尾都是很认真的态度,并且我从并发数那道题开始就回答不上来了,但过程中一直在引导我,后面支支吾吾完成了面试,看来自己在spark的运行机制上的理解还是很浅,有必要加强一下自己对spark整个流程的运作这方面的知识。

3. 总结

面试的要手撕的代码倒不难,但是难在对大数据组件的基础理解上,我原本以为作为一个数据开发人员不需要知道spark怎么配置,并行度是如何设置,计算资源是如何分配的,因为大数据开发人员有自己的配置规则,但二面的问题确实比较细,后续过程我会查找资料,将这些题的答案都公布在本博客,欢迎有知道以上问题的小伙伴给我丢链接、资料或者私信我呀!

20220303补充

面试完后,我将我不懂的问题总结了起来,主要是spark并发的一些问题,大家可以参考下面:

  • 链接: spark学习之并行度、并发、core数和分区的关系.

2022百度大数据开发工程师实习面试经历相关推荐

  1. 秋招面经第一弹:百度一面-大数据开发工程师

    秋招第一弹:百度一面-大数据开发工程师 写在最前:秋招以来一直在冲,因为事情比较多,对于笔试面试一直没有复盘,现在靠仅存的记忆把面试的一些问题记录下来,尽可能记录出能回忆到的问题,但可能记的不是很全. ...

  2. 秋招面经第二弹:百度一面-大数据开发工程师

    秋招第二弹:百度一面-大数据开发工程师 写在最前:秋招以来一直在冲,因为事情比较多,对于笔试面试一直没有复盘,现在靠仅存的记忆把面试的一些问题记录下来,尽可能记录出能回忆到的问题,但可能记的不是很全. ...

  3. 2022年大数据开发实习面经总结,已拿顺丰、哔哩哔哩offer

    本人是一个双非硕士在读地研二狗,非科班出身,最近也是参加了大数据开发地面试,已拿到了哔哩哔哩和顺丰的大数据开发岗实习offer,现在把自己的面试经历分拨记录下来,记录了面试各个公司的问题和心经,给正在 ...

  4. 应届生应聘大数据开发工程师,有没有机会?

    本科应届生想去应聘大数据开发工程师的岗位有没有机会? 我平时用的语言是Java和Python,看过<机器学习实战>(python)和<Hadoop权威指南>,确实很多地方一知半 ...

  5. 本科应届生应聘大数据开发工程师,有机会吗?

    本科应届生想去应聘大数据开发工程师的岗位有没有机会? 我平时用的语言是Java和Python,看过<机器学习实战>(python)和<Hadoop权威指南>,确实很多地方一知半 ...

  6. 大数据开发工程师必备技能有哪些?

    大数据开发工程师必备技能有哪些?随着全行业数字化转型和新基建时代的到来,对技术人才提出了更高的要求.不管是面试还是实际工作过程中,数据工程师要时时刻刻面对这些层出不穷的技术演进. 随着数据的爆发式增长 ...

  7. 如何成为一名大数据开发工程师,工作经验总结

    如何成为一名大数据开发工程师,工作经验总结 原画心旗 2019-11-06 13:35:22 首先,我个人进入大数据行业也纯属偶然,当年实习的时候做的是纯纯的Java开发,后来正式毕业了以后找了份Ja ...

  8. 阿里p6的大数据开发工程师都要学什么?

    又涨啦!据第三方数据统计,2020年9月全国招收程序员352733人,9月全国程序员平均工资14469元,相比8月的14401元涨了68元.但不少人却说薪资根本没有这么高,其实虽然都是程序员薪资差别还 ...

  9. 大数据开发工程师要求高么?有前景么

    Python近段时间一直涨势迅猛,在各大编程排行榜中崭露头角,得益于它多功能性和简单易上手的特性,让它可以在很多不同的工作中发挥重大作用. 正因如此,目前几乎所有大中型互联网企业都在使用 Python ...

  10. 大数据开发工程师是做什么的?

    大数据开发工程师要负责数据仓库建设.ETL开发.数据分析.数据指标统计.大数据实时计算平台及业务开发.平台建设及维护等工作内容.熟练掌握数据仓库.hadoop生态体系.计算及二次开发.大数据平台工具的 ...

最新文章

  1. 在Spring3中,配置DataSource的方法有五种
  2. OpenLdap 相关命令
  3. 深度学习实现NBA球星颜值打分完整案例(二)
  4. Pandas数据可视化工具:图表工具-Seaborn
  5. element提交图片限制一张_科研SCI论文图片常见问题和错误汇总
  6. 【补充一则】身份证校验的c#代码
  7. Go语言学习Day06
  8. 技术要点|Python监控学生端电脑屏幕自动识别学习状态
  9. PyTorch大更新!谷歌出手帮助开发,正式支持TensorBoard | 附5大开源项目
  10. (转)Singleton 单例模式(懒汉方式和饿汉方式)
  11. C语言实现左旋字符串
  12. stm32f4串口烧录[flymcu]
  13. dws中间表模型设计: 页面受访明细宽表
  14. 漂亮的用户反馈界面(CSS/HTML)
  15. 微信公众平台原创声明功能公测 自媒体原创保护的福音
  16. excel2010将数字变成以文本存储的数字
  17. html及Dreamweaver学习心得
  18. 再编写代码中报错:CS8107 C# 7.0 中不支持功能“xxxxxx”。请使用 7.1 或更高的语言版本。...
  19. 计算二维紧束缚模型费米面和nesting程序新思路
  20. 上网行为管理_上网行为管理如何预防以及屏蔽勒索病毒攻击

热门文章

  1. 手机定位浅析 AGPS定位 LBS基站定位 卫星定位
  2. 公司网络慢如何解决,怎样诊断网络卡的原因
  3. 事务的四大特性(ACID)
  4. 看php网站论文的感想,阅读学术论文心得体会
  5. 网上流传的飞扬学院Java_收获| 云和JAVA、UI双班毕业,飞扬青春再出发!
  6. PS修改图片局部颜色
  7. 误删了计算机桌面回收站,不小心误删电脑回收站怎么恢复?
  8. http协议与tcp协议区别
  9. 唱歌气沉丹田怎么做 气沉丹田的口诀
  10. bin to npy