大数据面试之360面试题

大数据面试之360面试题

学长1

1）技术部分
（1）常用的Linux命令，Shell的awk、sed、sort、cut是用来处理什么问题的？
（2）Hive有自带的解析json函数，为什么还要自定义UDF、UDTF
（3）Json的格式，Json存的具体数据
（4）MapReduce过程
（5）Shuffle源码？其中Reduce的分区是怎么设置的，针对每个key，怎么把它放到对应的分区中？
（6）你了解的Hadoop生态圈的框架，及其大概在怎样的一个位置？
（7）MapReduce、Tez和Spark的区别？
（8）Spark读取文件如果内存不够的话，怎么处理？

2）手写部分
（1）自己写过MapReduce吗？怎么写的？
（2）最近七天连续三天活跃用户怎么实现的？手写一个各区域top10商品统计程序？
（3）平时遇到的数据倾斜的问题，怎么解决的？
（4）大表join大表怎么解决？
（5）每一层大概有多少张表？表的字段也需要记
（6）UDF、UDTF、UDAF区别？

3）算法部分
（1）二叉树的前中后序遍历？
（2）排序算法了解过吗？
（3）快排的时间空间复杂度？快排原理
（4）冒泡的时间空间复杂度？原理

4）情景部分
写一个程序获取ip（123.123.123.123）的地理位置信息，读取配置文件，返回结果ip \t loc_nation \t loc_pro \t loc_city
ip_num_start ip_num_end loc_nation loc_pro loc_city ISP
1910946943 1910946945 中国辽宁沈阳联通
1910946947 1910946949 中国辽宁沈阳联通
1910946950 1910946950 中国辽宁鞍山联通
1910946951 1910946953 中国辽宁沈阳联通
1910946959 1910946965 中国辽宁沈阳联通
1910946966 1910946966 中国辽宁盘锦联通
1910946967 1910946985 中国辽宁沈阳联通
1910946986 1910946986 中国辽宁大连联通
1910946995 1910947033 中国辽宁沈阳联通

sc.read(“input/.txt”)
.mapPartition(data=>{
val splitdata = data.split(“\t”)
ip_num_start = splitdata(0)
ip_num_end = splitdata(1)
loc_nation = splitdata(2)
loc_pro = splitdata(3)
loc_city = splitdata(4)
ISP = splitdata(5)
(ip_num_start, ip_num_end, loc_nation, loc_pro, loc_city)
})
.map(data=>{
if(ip ){
(data.loc_nation,data.loc_pro,data.loc_city)
}
})
针对上面代码的一些问题：
（1）上面那段代码中，如果文件是一个很大的文件，Spark读取的时候用一个任务处理（单机），怎样可以让它读取的效率更高一点？
（2）MapPartition的原理是什么？

学长2
（1）常用的Linux命令，Shell的awk、sed、sort、cut是用来处理什么问题的？
（2）Hive有自带的解析json函数，为什么还要自定义UDF、UDTF
（3）json的格式，json存的具体数据
（4）写一段代码：
写一个程序获取ip（123.123.123.123）的地理位置信息，读取配置文件，返回结果ip \t loc_nation \t loc_pro \t loc_city
ip_num_start ip_num_end loc_nation loc_pro loc_city ISP
1910946943 1910946945 中国辽宁沈阳联通
1910946947 1910946949 中国辽宁沈阳联通
1910946950 1910946950 中国辽宁鞍山联通
1910946951 1910946953 中国辽宁沈阳联通
1910946959 1910946965 中国辽宁沈阳联通
1910946966 1910946966 中国辽宁盘锦联通
1910946967 1910946985 中国辽宁沈阳联通
1910946986 1910946986 中国辽宁大连联通
1910946995 1910947033 中国辽宁沈阳联通

sc.read(“input/.txt”)
.mapPartition(data=>{
val splitdata = data.split(“\t”)
ip_num_start = splitdata(0)
ip_num_end = splitdata(1)
loc_nation = splitdata(2)
loc_pro = splitdata(3)
loc_city = splitdata(4)
ISP = splitdata(5)
(ip_num_start, ip_num_end, loc_nation, loc_pro, loc_city)
})
.map(data=>{
if(ip ){
(data.loc_nation,data.loc_pro,data.loc_city)
}
})
针对上面代码的一些问题：
A、上面那段代码中，如果文件是一个很大的文件，spark读取的时候用一个任务处理（单机），怎样可以让它读取的效率更高一点？
答：提高并行度？

B、MapPartition的原理是什么？
（5）MapReduce过程
（6）自己写过MapReduce吗？怎么写的？
（7）Shuffle源码？其中Reduce的分区是怎么设置的，针对每个key，怎么把它放到对应的分区中？
（8）你了解的Hadoop生态圈的框架，及其大概在怎样的一个位置？
（9）MapReduce、Tez和Spark的区别？
（10）Spark读取文件如果内存不够的话，怎么处理？
（11）最近七天连续三天活跃用户怎么实现的？手写一个各区域top10商品统计程序？
（12）平时遇到的数据倾斜的问题，怎么解决的？
（13）大表join大表怎么解决？
（14）每一层大概有多少张表？表的字段也需要记
（15）UDF、UDTF、UDAF区别？
（16）二叉树的前中后序遍历？
（17）排序算法了解过吗？
（18）快排的时间空间复杂度？快排原理
（19）冒泡的时间空间复杂度？原理

大数据面试之360面试题相关推荐

LinkedList和 ArrayList的大数据面试资料（面试题）
Day01Java-API-List 1. 以下代码用于测试List的基本方法 add\get\size\contains等 List<String> list = new ArrayLi ...
大数据面试之新浪面试题
大数据面试之新浪面试题学长1 一面 1)自我介绍叫什么名字,来自哪里,本科哪个学校,硕士哪个学校,大数据做了多长时间,对Hadoop生态圈以及Spark生态圈中的哪些技术比较了解(很简单的一句就带 ...
大数据面试-06-大数据工程师面试题
3.14 1.一个Hadoop环境,整合了HBase和Hive,是否有必要给HDFS和Hbase都分别配置压缩策略?请给出对压缩策略的建议. hdfs在存储的时候不会将数据进行压缩,如果想进行压缩,我 ...
python人工智能面试题爱奇艺面试题_【爱奇艺Python面试】爱奇艺大数据面试 python-看准网...
爱奇艺大数据面试 python 通知的今天上午11点爱奇艺一轮面试,今天!周末!周末!周末!竟然还要面试,内心很无语,上个星期人家腾讯还是周一面试呢,但是,想想宿舍的一个小伙伴今天上午9点半的面试,庆 ...
大数据【企业级360°全方位用户画像】之USG模型和决策树分类算法
在之前的一篇博客<大数据[企业级360°全方位用户画像]之RFM模型和KMeans聚类算法>中,博主为大家带来了KMeans聚类算法的介绍.并在之后,基于不同的模型开发标签,例如RFM,R ...
大数据面试求职经验总结
写在前面:空杯心态,多投多改,把握好校招机会,它是你最容易通往大厂的机会. 面试经验分享: 1. 提前了解应聘公司信息,知道该公司是做什么的,发展情况,招聘的岗位的要求等 : 2.面试不要说自己是培训 ...
精选大数据面试真题10道(附答案详细解析)
大数据笔面试系列文章分为两种类型:混合型(即一篇文章中会有多个框架的知识点-融会贯通):专项型(一篇文章针对某个框架进行深入解析-专项演练). 此篇文章为系列文章的第一篇(混合型) 第一题:大数据笔试 ...
大数据面试3分钟自我介绍_大数据面试要注意哪些方面？大数据面试准备三大攻略...
大数据面试要注意哪些方面?一般来说,求职者要做好自我介绍.面试提问和专业考题三大方面的准备.下面是小编专门为大数据求职者整理的面试攻略,希望对大家找工作有所帮助. 一.大数据面试的自我介绍. 面试一开 ...
面试系列一：精选大数据面试真题10道（混合型）-附答案详细解析
本公众号(五分钟学大数据)将推出大数据面试系列文章-五分钟小面试,此系列文章将会深入研究各大厂笔面试真题,并根据笔面试题扩展相关的知识点,助力大家都能够成功入职大厂! 大数据笔面试系列文章分为两种类型 ...

大数据面试之360面试题

大数据面试之360面试题相关推荐

最新文章

热门文章