之前采访毕业生的时候,有小伙伴提出意见,想看小编分享一些面试的干货,于是小编不负众望,今天给大家带来了一篇大神级面经,希望可以帮助即将毕业或正在找工作的小伙伴儿们,祝你们早日找到心仪的工作!

在这里我还是要推荐下我自己建的大数据学习交流qq裙:458345782, 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份2018最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴

MapReduce

1. 不指定语言,写一个WordCount的MapReduce

我:最近刚学了scala,并且就有scala版本的WordCount,刚好学以致用了一下:

补:至于java版本,虾皮博主的一篇文章讲解的非常细致: 
Hadoop集群(第6期)_WordCount运行详解

http://www.cnblogs.com/xia520pi/archive/2012/05/16/2504205.html

2. 上述写的程序中.map((_,1))的输出结果是什么

我:通过flatMap将其扁平化,而.map((_,1)) 则是每个出现单词,1这样的形式展现,此时还没归并。

3. 你能用SQL语句实现上述的MapReduce吗?要求按照基于某个字段的值的频次倒序,并且以维度——频次的形式结果展现?

我:基于某个字段——决定了要用group By,频次要用count聚合,倒序自然少不了desc。

补:框架搭好就是往里塞了:

4.给你一份乱序的100万个数字的文件,你如何来排序?

我:先拆分成若干小的,然后再排(思路是从希尔排序出发的) 
补:内部排序算法:希尔排序

Spark

1. 说一说Spark程序编写的一般步骤?

我:初始化,资源,数据源,并行化,rdd转化,action算子打印输出结果或者也可以存至相应的数据存储介质

补:具体的可看下图:

2. Spark有哪两种算子?

我:Transformation(转化)算子和Action(执行)算子。

3. Spark提交你的jar包时所用的命令是什么?

我:submit。 
面试官:spark-submit? 
我:嗯,spark-submit。

4. Spark有哪些聚合类的算子,我们应该尽量避免什么类型的算子?

我:aggeragate 
面试官:还有呢? 
我:记不清了。。。

面试官:还有你刚刚写的那个groupByKey哈

补:

在我们的开发过程中,能避免则尽可能避免使用reduceByKey、join、distinct、repartition等会进行shuffle的算子,尽量使用map类的非shuffle算子。这样的话,没有shuffle操作或者仅有较少shuffle操作的Spark作业,可以大大减少性能开销。

5. 你所理解的Spark的shuffle过程?

我:spark shuffle处于一个宽依赖,可以实现类似混洗的功能,将相同的Key分发至同一个Reducer上进行处理。

补:详细探究Spark的shuffle实现

http://blog.csdn.net/johnny_lee/article/details/22619585

6. 你如何从Kafka中获取数据?

我:topic 
补:分布式消息系统:Kafka

7. 对于Spark中的数据倾斜问题你有什么好的方案?

我:可以先分析基数大造成数据倾斜的维度,将其适当的拆分。

补:Spark性能优化指南:高级篇

编程

1.如果我有两个list,如何用Python语言取出这两个list中相同的元素?

我:list(set(list1).intersection(set(list2))),通过set 的intersection取交集的函数实现相同元素的提取。

2.请你给出在Python中较快获取一个元素的数据结构,并且说出其时间复杂度以及它的缺陷是什么?

我:因为之前也在做一些leetcode上的题目,多多少少重温了下数据结构,当时脑海里呈现的是数组方便查找,队列和栈方便插入删除,所以一听到较快获取果断数组了。

面试官:dict(字典) 
我:厉害!!

面试官:那它的时间复杂度你晓得嘛? 
我:不是特别了解,O(1),常数时间复杂度?

面试官:嗯,那你知道它的缺陷吗? 
我:(中午吃撑了,TradeOff哈)不晓得

面试官:空间复杂度较高哈

补: 反思了一下,之所以说错,可能和以前学习算法时,起承转合的过度,并未将栈、队列和map,或者dict直接比较,而是从数组切换到队列和栈,所以就和之前的那个PUT和POST差不多,训练逻辑正确,确实数组查询记录方便,但训练广度有些多样性不够。

算法备忘录——基础数据结构与复杂度 
常用数据结构和算法操作效率的对比总结

3. 做几道OJ的题目(英文的),说一说这个问题的要求和注意点,以及可以获得正确结果的你的思路?

恢复IP地址

Given a string containing only digits, restore it by returning all possible valid IP address combinations.
Example
Given “25525511135”, return
[
“255.255.11.135”,
“255.255.111.35”
]
Order does not matter.

我:思考了一会儿,没想出来,只能想出个不通用的思路。 
面试官:给你个提示,尝试用树这个数据结构。

补:此处埋一个坑,学完树的数据结构再回来解决。

快乐数

Write an algorithm to determine if a number is happy.
A happy number is a number defined by the following process: Starting with any positive integer, replace the number by the sum of the squares of its digits, and repeat the process until the number equals 1 (where it will stay), or it loops endlessly in a cycle which does not include 1. Those numbers for which this process ends in 1 are happy numbers.
Example
19 is a happy number
1^2 + 9^2 = 82
8^2 + 2^2 = 68
6^2 + 8^2 = 100
1^2 + 0^2 + 0^2 = 1

我:思路是模拟过程法,即按照它验证一个数是否是快乐数的方式进行模拟,当然也有些取巧的方式,如果某个中间结果曾出现过,妥妥滴死循环嘛,即刻跳出。

面试官:思路是对的 
我:我觉得这会TLE,肯定有取巧的方法(这道题目之前好像接触过)

补:回去搜了一下,发现之前一直求助的一个大神的博客通过模拟过程用Python实现的: 
Happy Number (之前的怀疑有更巧方法在于时常保持偷懒的思维也是必要的)

4. 你常用的IDE有哪些?

我:Java:Eclipse;Python:PyCharm;Scala:IntelliJ IDEA;Shell:VIM

5. 你了解设计模式吗?

我:不了解,但以后回去买本O’Really的《设计模式》 
补:封面如下:

6. 什么是Restful API?

我:由于对Restful的了解只停留在使用层面,给我的感觉像是一种资源的提交获取,GET获取,POST/DELETE/PUT都可以看作是一种提交操作

补:

【专业定义】:一种软件架构风格,设计风格而不是标准,只是提供了一组设计原则和约束条件。它主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁,更有层次,更易于实现缓存等机制。

RESTful百度百科

Devops

1. 数据库读写分离的目的是什么?

我:①减轻负载;②权限控制

补:读写分离的作用 
看了上面的文章,减轻负载是首要目的,至于权限控制,更像是一种实现方式,不像目的。

2. ZooKeeper是什么?非大数据领域,我们可以用ZooKeeper来做些什么?

我:ZooKeeper是分布式协调组件,非大数据领域,可以用ZooKeeper来做HA或者存储数据,比如配置信息啥的。(Znode) 
补:ZooKeeper 典型应用场景一览

在这里我还是要推荐下我自己建的大数据学习交流qq裙:458345782, 裙 里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据开发相关的),包括我自己整理的一份2018最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴

大数据开发工程师面试题(附答案)相关推荐

  1. 大数据开发工程师面试题以及答案整理(二)

    Redis性能优化,单机增加CPU核数是否会提高性能 1.根据业务需要选择合适的数据类型,并为不同的应用场景设置相应的紧凑存储参数. 2.当业务场景不需要数据持久化时,关闭所有的持久化方式可以获得最佳 ...

  2. 大数据开发工程师面试题答案

    填空 1. nohup , setsid , &, 2.server.xml 4. 5. 问答题一:

  3. 大数据开发工程师笔试题

    1,下面哪个程序负责 HDFS 数据存储? a)NameNode b)Jobtracker c)Datanode d)secondaryNameNode e)tasktracker 2,下列哪个程序通 ...

  4. 某某证券大数据开发工程师招聘笔试题

    某某证券大数据开发工程师招聘笔试题 一.基础知识(单选题,每题1分,共10分) 1.实现两个远程主机之间的文件复制是用 ( D ) . A . mv B . cp C . cut D. scp 2.一 ...

  5. 大数据开发工程师的面试题

    大数据开发工程师的面试题通常包括:1. 对大数据技术的理解:2. 如何使用Hadoop构建大数据系统:3. 如何使用MapReduce来处理大数据:4. 如何使用Spark分析大数据:5. 如何使用N ...

  6. 阿里p6的大数据开发工程师都要学什么?

    又涨啦!据第三方数据统计,2020年9月全国招收程序员352733人,9月全国程序员平均工资14469元,相比8月的14401元涨了68元.但不少人却说薪资根本没有这么高,其实虽然都是程序员薪资差别还 ...

  7. 大数据开发工程师都需要学什么大数据课程?

    学习大数据需要的基础:java SE.EE(SSM).MySQL.Linux等,大数据的框架安装在Linux操作系统上. 大数据开发工程师都需要学什么大数据课程? 第一.需要学习Java基础 很多人好 ...

  8. 大数据开发工程师都需要学什么?

    学习大数据需要的基础:java SE.EE(SSM).MySQL.Linux等,大数据的框架安装在Linux操作系统上. 大数据开发工程师都需要学什么大数据课程? 第一.需要学习Java基础 很多人好 ...

  9. 数据库开发转行大数据开发工程师怎么样?

    数据库开发转行大数据开发工程师怎么样?大数据的方向的工作有大数据运维工程师.大数据开发工程师.数据分析.数据挖掘.架构师等.有工作经验想转行大数据开发主要考察基础.学习能力.解决问题的能力.想转转行大 ...

最新文章

  1. 使用github管理Eclipse分布式项目开发
  2. 动态规划/贪心总结(一)
  3. 诸葛io的技术架构图_【总结】MySQL技术内幕二:InnoDB存储引擎技术特性
  4. CT流程与CT图像的windowing操作(转载+整理)
  5. Fiori 花瓣动画效果的实现原理
  6. Ignoring query to other database
  7. dict实现原理 python_5分钟看懂系列:Python 线程池原理及实现
  8. 关键词之间用分号_如何选择关键词?快看这几个要点
  9. php html显示mysql数据库_从数据库调出数据显示到页面 PHP+Mysql+Html(简单实例)...
  10. Charles 映射本地文件map local
  11. mysql——数据库设计中int与varchar中的长度含义
  12. python异步回调函数的实现
  13. 利用特性、泛型、反射生成sql操作语句(待修改
  14. 关于I2C调试过程中遇到的一些细节性的问题(包括定位Master read-->Slaver send不成功的问题)
  15. 编写一个程序,输入月份号,输出该月份号的英文名称
  16. 建筑企业并购:人才整合的三大误区
  17. 点微同城系统整站源码 带pc端与小程序端+49款插件
  18. 如何优雅地使用 Sublime Text
  19. 《项目管理问题分析与解决方案小册》(持续更新中)
  20. Java8 lambda表达式详解

热门文章

  1. 第一篇博客(自我介绍向)
  2. 别眨眼!用Python制作漂亮小姐姐的跳舞视频!
  3. PHP7 MongoDB 安装与使用
  4. Processing入门教程第一课-Processing的“前世今生”
  5. 176. Second Highest Salary(必看)
  6. 在App Inventor中实例:画画(Canvas组件)
  7. 生命游戏c++版代码
  8. 我不知道是安稳的背后隐藏着沮丧
  9. 手游NPC开始用AI对话/ 腾讯回应XR部门全线解散/ 邓明扬获美国数学竞赛第一... 今日更多新鲜事在此...
  10. 2022年企业办公电脑选型建议