大数据面试之360面试题

学长1

1)技术部分
(1)常用的Linux命令,Shell的awk、sed、sort、cut是用来处理什么问题的?
(2)Hive有自带的解析json函数,为什么还要自定义UDF、UDTF
(3)Json的格式,Json存的具体数据
(4)MapReduce过程
(5)Shuffle源码?其中Reduce的分区是怎么设置的,针对每个key,怎么把它放到对应的分区中?
(6)你了解的Hadoop生态圈的框架,及其大概在怎样的一个位置?
(7)MapReduce、Tez和Spark的区别?
(8)Spark读取文件如果内存不够的话,怎么处理?

2)手写部分
(1)自己写过MapReduce吗?怎么写的?
(2)最近七天连续三天活跃用户怎么实现的?手写一个各区域top10商品统计程序?
(3)平时遇到的数据倾斜的问题,怎么解决的?
(4)大表join大表怎么解决?
(5)每一层大概有多少张表?表的字段也需要记
(6)UDF、UDTF、UDAF区别?

3)算法部分
(1)二叉树的前中后序遍历?
(2)排序算法了解过吗?
(3)快排的时间空间复杂度?快排原理
(4)冒泡的时间空间复杂度?原理

4)情景部分
写一个程序获取ip(123.123.123.123)的地理位置信息,读取配置文件,返回结果ip \t loc_nation \t loc_pro \t loc_city
ip_num_start ip_num_end loc_nation loc_pro loc_city ISP
1910946943 1910946945 中国 辽宁 沈阳 联通
1910946947 1910946949 中国 辽宁 沈阳 联通
1910946950 1910946950 中国 辽宁 鞍山 联通
1910946951 1910946953 中国 辽宁 沈阳 联通
1910946959 1910946965 中国 辽宁 沈阳 联通
1910946966 1910946966 中国 辽宁 盘锦 联通
1910946967 1910946985 中国 辽宁 沈阳 联通
1910946986 1910946986 中国 辽宁 大连 联通
1910946995 1910947033 中国 辽宁 沈阳 联通

sc.read(“input/.txt”)
.mapPartition(data=>{
val splitdata = data.split(“\t”)
ip_num_start = splitdata(0)
ip_num_end = splitdata(1)
loc_nation = splitdata(2)
loc_pro = splitdata(3)
loc_city = splitdata(4)
ISP = splitdata(5)
(ip_num_start, ip_num_end, loc_nation, loc_pro, loc_city)
})
.map(data=>{
if(ip ){
(data.loc_nation,data.loc_pro,data.loc_city)
}
})
针对上面代码的一些问题:
(1)上面那段代码中,如果文件是一个很大的文件,Spark读取的时候用一个任务处理(单机),怎样可以让它读取的效率更高一点?
(2)MapPartition的原理是什么?

学长2
(1)常用的Linux命令,Shell的awk、sed、sort、cut是用来处理什么问题的?
(2)Hive有自带的解析json函数,为什么还要自定义UDF、UDTF
(3)json的格式,json存的具体数据
(4)写一段代码:
写一个程序获取ip(123.123.123.123)的地理位置信息,读取配置文件,返回结果ip \t loc_nation \t loc_pro \t loc_city
ip_num_start ip_num_end loc_nation loc_pro loc_city ISP
1910946943 1910946945 中国 辽宁 沈阳 联通
1910946947 1910946949 中国 辽宁 沈阳 联通
1910946950 1910946950 中国 辽宁 鞍山 联通
1910946951 1910946953 中国 辽宁 沈阳 联通
1910946959 1910946965 中国 辽宁 沈阳 联通
1910946966 1910946966 中国 辽宁 盘锦 联通
1910946967 1910946985 中国 辽宁 沈阳 联通
1910946986 1910946986 中国 辽宁 大连 联通
1910946995 1910947033 中国 辽宁 沈阳 联通

sc.read(“input/.txt”)
.mapPartition(data=>{
val splitdata = data.split(“\t”)
ip_num_start = splitdata(0)
ip_num_end = splitdata(1)
loc_nation = splitdata(2)
loc_pro = splitdata(3)
loc_city = splitdata(4)
ISP = splitdata(5)
(ip_num_start, ip_num_end, loc_nation, loc_pro, loc_city)
})
.map(data=>{
if(ip ){
(data.loc_nation,data.loc_pro,data.loc_city)
}
})
针对上面代码的一些问题:
A、上面那段代码中,如果文件是一个很大的文件,spark读取的时候用一个任务处理(单机),怎样可以让它读取的效率更高一点?
答:提高并行度?

B、MapPartition的原理是什么?
(5)MapReduce过程
(6)自己写过MapReduce吗?怎么写的?
(7)Shuffle源码?其中Reduce的分区是怎么设置的,针对每个key,怎么把它放到对应的分区中?
(8)你了解的Hadoop生态圈的框架,及其大概在怎样的一个位置?
(9)MapReduce、Tez和Spark的区别?
(10)Spark读取文件如果内存不够的话,怎么处理?
(11)最近七天连续三天活跃用户怎么实现的?手写一个各区域top10商品统计程序?
(12)平时遇到的数据倾斜的问题,怎么解决的?
(13)大表join大表怎么解决?
(14)每一层大概有多少张表?表的字段也需要记
(15)UDF、UDTF、UDAF区别?
(16)二叉树的前中后序遍历?
(17)排序算法了解过吗?
(18)快排的时间空间复杂度?快排原理
(19)冒泡的时间空间复杂度?原理

大数据面试之360面试题相关推荐

  1. LinkedList和 ArrayList的大数据面试资料(面试题)

    Day01Java-API-List 1. 以下代码用于测试List的基本方法 add\get\size\contains等 List<String> list = new ArrayLi ...

  2. 大数据面试之新浪面试题

    大数据面试之新浪面试题 学长1 一面 1)自我介绍 叫什么名字,来自哪里,本科哪个学校,硕士哪个学校,大数据做了多长时间,对Hadoop生态圈以及Spark生态圈中的哪些技术比较了解(很简单的一句就带 ...

  3. 大数据面试-06-大数据工程师面试题

    3.14 1.一个Hadoop环境,整合了HBase和Hive,是否有必要给HDFS和Hbase都分别配置压缩策略?请给出对压缩策略的建议. hdfs在存储的时候不会将数据进行压缩,如果想进行压缩,我 ...

  4. python人工智能面试题爱奇艺面试题_【爱奇艺Python面试】爱奇艺大数据面试 python-看准网...

    爱奇艺大数据面试 python 通知的今天上午11点爱奇艺一轮面试,今天!周末!周末!周末!竟然还要面试,内心很无语,上个星期人家腾讯还是周一面试呢,但是,想想宿舍的一个小伙伴今天上午9点半的面试,庆 ...

  5. 大数据【企业级360°全方位用户画像】之USG模型和决策树分类算法

    在之前的一篇博客<大数据[企业级360°全方位用户画像]之RFM模型和KMeans聚类算法>中,博主为大家带来了KMeans聚类算法的介绍.并在之后,基于不同的模型开发标签,例如RFM,R ...

  6. 大数据面试求职经验总结

    写在前面:空杯心态,多投多改,把握好校招机会,它是你最容易通往大厂的机会. 面试经验分享: 1. 提前了解应聘公司信息,知道该公司是做什么的,发展情况,招聘的岗位的要求等 : 2.面试不要说自己是培训 ...

  7. 精选大数据面试真题10道(附答案详细解析)

    大数据笔面试系列文章分为两种类型:混合型(即一篇文章中会有多个框架的知识点-融会贯通):专项型(一篇文章针对某个框架进行深入解析-专项演练). 此篇文章为系列文章的第一篇(混合型) 第一题:大数据笔试 ...

  8. 大数据面试3分钟自我介绍_大数据面试要注意哪些方面?大数据面试准备三大攻略...

    大数据面试要注意哪些方面?一般来说,求职者要做好自我介绍.面试提问和专业考题三大方面的准备.下面是小编专门为大数据求职者整理的面试攻略,希望对大家找工作有所帮助. 一.大数据面试的自我介绍. 面试一开 ...

  9. 面试系列一:精选大数据面试真题10道(混合型)-附答案详细解析

    本公众号(五分钟学大数据)将推出大数据面试系列文章-五分钟小面试,此系列文章将会深入研究各大厂笔面试真题,并根据笔面试题扩展相关的知识点,助力大家都能够成功入职大厂! 大数据笔面试系列文章分为两种类型 ...

最新文章

  1. java openssl 开发_java openssl
  2. jenkins pipeline python_【python3-4】Jenkins pipline集成参数自动化执行python脚本
  3. CentOS6.7安装mysql5.7
  4. 第一个Django应用程序_part1
  5. Codeforces Round #739 (Div. 3)(AK实况)
  6. Java commit()_Java XAResource.commit方法代码示例
  7. 2002勘察设计收费标准_上海装修设计师的收费标准是什么?
  8. Android Studio无线连接设备调试,比数据线更方便
  9. CVPR 2021 出自港中文,对抗变换提高对抗样本的可迁移性
  10. java编程 队列_5.1、顺序队列(java实现)
  11. C++四种强制类型转换解析
  12. java 短连接+MD5加密短链接
  13. Adopt Open JDK官方文档(五) Docker镜像
  14. 2019icpc计算机程序设计大赛,关于开展西安理工大学2019年程序设计竞赛暨ACM-ICPC大赛选拔赛的通知...
  15. windows7旗舰版序列号[经测试,第一枚即可完成升级!]
  16. C. Make it Increasing
  17. python基本写法_Python的表达式写法
  18. 海明校验码原来这样算!!!
  19. WebGIS学习教程资源
  20. 西安电子科技大学计算机研一水课答案整理

热门文章

  1. PSP 《真• 三国无双2》研究记录 1
  2. 怎么确定电磁波的相位
  3. 金融行业数据分析应用
  4. 最近联通iPhone4上市时间确认
  5. Java网络爬虫入门:第01课:网络爬虫原理
  6. linux ntpdate交叉编译,ARM-Linux使用ntpdate同步本机时间
  7. 简单理解sop,oop,aop,cop
  8. win10内存占用很高,关闭所有应用程序依然降不下来(win11)
  9. logrotate 的使用
  10. 《Android 应用案例开发大全(第3版)》——第2.5节 辅助绘制类