Hadoop阿里巴巴面试题目
前段时间接到阿里巴巴面试云计算,拿出来给我们共享下
1、hadoop运转的原理?
2、mapreduce的原理?
3、HDFS存储的机制?
4、举一个简略的比方阐明mapreduce是怎么来运转的 ?
5、面试的人给你出一些疑问,让你用mapreduce来完成?
比方:如今有10个文件夹,每个文件夹都有1000000个url.如今让你找出top1000000url。
6、hadoop中Combiner的效果?

(1) 解释“hadoop”和“hadoop生态系统”两个概念
(2) 说明Hadoop 2.0的基本构成
(3) 相比于HDFS1.0, HDFS 2.0最主要的改进在哪几方面?
(4) 试使用“步骤1,步骤2,步骤3…..”说明YARN中运行应用程序的基本流程
(5) “MapReduce 2.0”与“YARN”是否等同,尝试解释说明
(6) MapReduce 2.0中,MRAppMaster主要作用是什么,MRAppMaster如何实现任务容错的?

HADOOP核心组件
1.HDFS -C盘,D盘
2.YARN集群管理和调度,相当于WINDOWS,可以跑程序,管理进程
3.MAPREDUCE定义数据处理的基本操作,类似于visual studio开始开发自己软件

现在服务器这么多,日志分散在每个服务器上面,如果我好奇A今天又约了几个妹子,我得把几十台服务器的日志全部扫一遍才能知道,反正我只关心A到底约了几个不同的妹子,我用相同的程序扫描每台机器的日志,在里面找与A相关的聊天记录,把A发送的信息的收件人全部提出来,最后拿到一个地方汇总过滤一下不就好了嘛。每台服务器上面的日志文件太大了(大家小黄图发来发去)一次处理不完怎么办?反正我只关心A的相关记录,把大文件切割成小文件就好了嘛。这样的日志处理是把程序分布在每台电脑上运行,每台电脑上的处理程序都做相同的工作——找与A相关的聊天信息,然后把在所有服务器日志里面找到的信息集中发到一个服务器上,过滤汇总一下,就能知道A到底约了几炮啦。用来管理和执行这些分布式程序的软件系统,需要合理调度其控制的所有计算资源(比如其中一台电脑扫描完没事干了,不能让它闲下来,可以把别的电脑还没处理完的小文件发给它,让闲置的电脑来处理),最后得出结果。这样的分布式资源调度+分布式运算 的软件,就是HADOOP的另一个重要板块map-reduce,用来处理海量的文件,一开始也是GOOGLE搞出来的。

作者:麻仓叶
链接:https://www.zhihu.com/question/32326748/answer/57341870
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

HDFS
Namenode 管理者文件系统的Namespace命名空间。它维护着文件系统树(filesystem tree)以及文件树中所有的文件和文件夹的元数据(metadata)
[感谢石头的原创](http://developer.51cto.com/art/201301/376472.htm)

Datanode是文件系统的工作节点,他们根据客户端或者是namenode的调度存储和检索数据,并且定期向namenode发送他们所存储的块(block)的列表。

Namenode容错机制:
1. 第一种方式是将持久化存储在本地硬盘的文件系统元数据备份.
2. 第二种方式是运行一个辅助的Namenode(Secondary Namenode)

Mapreduce
任务过程被分为两个阶段:map阶段和reduce阶段,每个阶段都是用键值对(key/value)作为输入(input)和输出(output)。而程序员要做的就是定义好这两个阶段的函数:map函数和reduce函数。

Combiner
http://www.tuicool.com/articles/qAzUjav

YARN
http://blog.csdn.net/aaronhadoop/article/details/50980920
提交-jar处理机制
spark采用file cache而不是application cache的原因,是因为spark在每个NM上启动的是一个executor,每个task作为executor里的一个线程在运行。而只需要在executor启动时,在这个节点上用file cache机制分发一次jar包,然后在每个task执行时,能共享到通过file cache传过来的jar包。所以采用file cache机制的原因,是要在task之间共享jar包。
http://blog.csdn.net/amber_amber/article/details/42081045
任务调度
http://www.zezhi.net/409.html
http://blog.csdn.net/javastart/article/details/50674043
http://spark.apache.org/docs/latest/job-scheduling.html#fair-scheduler-pools

YARN vs Mesos
Mesos 可以由master来决定接受还是reject这个job
http://blog.csdn.net/xinghun_4/article/details/47907161

Hadoop1 vs Hadoop2
1. MRv1是一个独立的离线计算框架,而MRv2则是运行于YARN之上的MRv1
2. Hadoop 2.0中对HDFS进行了改进,使NameNode可以横向扩展成多个,其中,每个NameNode分管一部分目录,这不仅增强了HDFS的扩展性,也使HDFS具备了隔离性

Spark vs Hadoop
感谢用心阁的原创
Mapreduce是低层次抽象,类似于与非门,那么Spark中的RDD就相当于逻辑当中的编码器,包装了Mapreduce,有多种操作:flatmap, groupby, filter, union,join
Mapreduce只有两个阶段:Map和Reduce, 中间结果存入HDFS文件系统中,也就是磁盘中
而Spark 分成stages多个阶段,中间结果存在内存中

Ambari:
http://www.cnblogs.com/scotoma/archive/2013/05/18/3085248.html

可视化
http://www.csdn.net/article/2015-07-08/2825162

应聘-系统研发工程师相关推荐

  1. 「GoTeam 招聘时间」滴滴出行系统研发工程师(北京)

    本期招聘企业--滴滴出行 滴滴出行是卓越的一站式移动出行平台:为5.5亿用户提供出租车.快车.专车.豪华车.公交.代驾.企业级.共享单车.共享电单车.共享汽车.外卖等多元化的出行和运输服务.在滴滴平台 ...

  2. 白山云科技校招:系统研发、机器学习、数据挖掘工程师

    招聘邮箱:zhaopin@baishancloud.com 职位1:系统研发工程师 北京 岗位职责: 1.参与公司核心系统的设计.全网规划与布局: 2.独立完成系统的功能设计和开发,并对线上运行情况负 ...

  3. 年薪可达50万!上海交大SEIEE·云智AI创新应用研究中心招聘研发工程师

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 转载自:上海交大电院云智AI创新中心 岗位名称 无人系统研发工程师 招聘人数 2名 聘用方式 上海交通大学项 ...

  4. 研发工程师入门——Linux系统基础

    Linux操作系统是目前互联网研发工程师最常用的操作系统,无论是前端还是后端或者客户端同学,都会接触到.尤其对后端工程师来说,不了解linux系统,几乎寸步难行.我在面试中常常碰到应聘者连最基本的li ...

  5. 网易2020校招笔试 系统开发研发工程师(提前批)牛客练习 Apare_xzc

    网易2020校招笔试 系统开发研发工程师(提前批)练习 2020.9.4 10道选择,2道问答,4道编程 牛客链接<– 编程题: 1. 小易的英语软件 小易是班级的英语课代表, 他开发了一款软件 ...

  6. 01 | 研发工程师想提升面试竞争力,该具备这三个技术认知

    笔记原文: 研发工程师想提升面试竞争力,该具备这三个技术认知 研发工程师想提升面试竞争力,需要具备的三个技术认知是什么?架构设计认知.分析问题的认知.能力边界认知 大多数研发同学对自身技术发展的认知, ...

  7. 应聘Java开发工程师的基本要求是什么?

    应聘Java开发工程师的基本要求是什么?Java程序员的技术水平不同级别要求也不同,分为初级.中级.高级.资深等,不同级别的Java开发工程师企业的要求也是有区别,具体的要求需要结合企业的需求而定.作 ...

  8. 【招聘(上海)】To B数字化营销公司-市场易,直招.NET后端研发工程师

    [招聘背景] 公司:上海光潾网络科技有限公司成立于2016年,系上海市高新技术企业,2021年获数千万A轮融资 项目:公司自主研发营销自动化SaaS平台- 市场易 (Custouch) ,通过数字手段 ...

  9. 岗位招聘:前后端研发工程师

    一位好朋友的导师招人,有两个坑位,最近在找工作的朋友可以留意一下,下面是介绍和招聘要求,不明白的留言区问我: "语言资源高精尖创新中心"是获得北京市教委认定并依托北京语言大学进行建 ...

最新文章

  1. Tungsten Fabric SDN — 制作/分发 Local Docker Registry
  2. sscanf,sprintf,fscanf,fprintf 系列函数
  3. 意想不到的JavaScript(每日一题1)
  4. websocket文档_WebSocket推送 原理扫盲到上手实践
  5. html5标签属性大全_HTML5中video标签如何使用
  6. 系统学习 Java IO (六)----管道流 PipedInputStream/PipedOutputStream
  7. FAR,NEAR区别
  8. tkinter的可视化拖拽工具_拒绝丑图表,教你用最简单的方法做最炫酷的可视化图表!附教程...
  9. 20145305 《网络对抗》注入Shellcode并执行Return-to-libc 攻击实验
  10. 《Windows核心编程》之七 - 关于Windows 2000中内存的分区
  11. 综述: 通信雷达一体化中的信号处理
  12. html打印不弹出对话框,javascript,_打印网页(直接打印,不弹出打印预览或打印机选择窗口),javascript - phpStudy...
  13. 眼睛容易干燥疲劳怎么办?
  14. 优秀博士生和普通博士生差距能有多大?
  15. 更改Ubuntu 18.04的时区
  16. Android recyclerview item获焦时更新UI导致列表自动滚动到获焦处
  17. 2020美赛赛后感想总结
  18. 计算机名无法修改怎么办,win7系统计算机名字无法更改的解决方法
  19. iptables结合ipset禁止国外IP进行访问
  20. 电脑老是出现无法登陆的界面,怎么解决

热门文章

  1. 使用poi导入导出Excel(实测有效)
  2. 网红泡泡屋,是如何火爆餐饮、民宿及景区市场的?
  3. 我的世界java版刷雪球机,我的世界自动造雪机怎么做 无限刷雪球方法
  4. 计算机专业的数学应学到什么水平?应该学习数学的那些分支?
  5. 央行等八部门发文:规范发展供应链金融,运用区块链等防范风险
  6. 【1】相干光成像的精确计算及应用(李俊昌)
  7. VirtualBox 启动虚拟机失败 - NtCreateFile(\Device\VBoxDrvStub)
  8. Android多Flavor设置不同启动Activity
  9. Android插件化最佳方案--Phantom 实践指南
  10. python circle函数如何画圆_Python练习实例56 | 画图,学用circle画圆形