《尚硅谷大数据Hadoop》教程
尚硅谷大数据Hadoop教程
- 概论
- 入门
- HDFS
- MapReduce
- YARN
由于对这方面的知识只是做一个了解,所以详细的东西并不会做笔记。
概论
- 大数据的特点
海量、高速、多样、低价值密度
入门
概念
Apache基金会所开发的分布式系统基础架构。主要解决海量数据的存储和海量数据的分析计算问题。广义上说,Hadoop通常指一个更广泛的概念—Hadoop生态圈。Hadoop优势
高可用性、高扩展性、高效性、高容错性Hadoop组成
Hadoop1.x:Common(辅助工具)、HDFS(数据存储)、MapReduce(计算+资源调度)
Hadoop2.x:Common(辅助工具)、HDFS(数据存储)、MapReduce(计算)、Yarn(资源调度)
Hadoop3.x:组成没变HDFS:Hadoop Distribute File System。
NameNode(nn):存储文件的元数据
DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和
Secondary Namenode(2nn):每隔一段时间对NameNode元数据备份YARN:Yet Another Resource Negotiator:另一种资源协调者
管理CPU和内存。
Resource Manager(RM):整个集群资源的老大
Node Manager(NM):单个节点服务器资源的老大
Application Master(AM):单个任务运行的老大
Container:容器,相当于一台独立的服务器,里面封装了任务运行所需要的资源,如内存、CPU、磁盘、网络MapReduce
Map:并行处理输入数据
Reduce:对Map结果进行汇总大数据技术生态体系
数据层:数据库(结构化数据)、文件日志(半结构化数据)、视频等(非结构化数据)
数据传输、存储层:Kafka、HDFS、HBase
资源管理层:YARN
数据计算层:Hive、Spark、Flink、Storm
任务调度层:Oozie、Azkaban
ZooKeeper:数据平台配置和调度
业务层集群配置
NameNode和SecondaryNameNpde不要安装在同一台服务器
ResourceManager也很消耗内存,不要和NameNode、SecondaryNameNode配置在同一台机器上常用端口号
HDFS NameNode 内部通讯端口:8020/9000/9820
HDFS NameNode 对用户的查询端口:9870
Yarn查看任务运行情况:8088
历史服务器:19888其他有用的操作
集群时间同步、集群同步脚本sync,scp
HDFS
产生背景:解决海量数据存储的问题。通过目录树的方式来定位文件;其次,他是分布式的。HDFS适合一次写入,多次读出的场景
优缺点:
优点:高容错性,适合处理大数据、可构建在廉价机器上
缺点:不适合低延时数据访问、无法高效的对大量小文件进行存储、不支持并发写入、文件随机修改HDFS的组成
HDFS文件块大小
可以配置,通常为128M。寻址时间为传输时间的1%时为最佳状态。
为什么块不能设置为太大,也不能设置太小?太小,增加寻址时间。太大,传输时间太久。HDFS相关命令
主要是上传下载文件等文件操作,具体命令略。
HDFS相关Java API,这个查文档就能查到。HDFS写流程
HDFS读数据流程
NN和2NN的工作机制
DN工作机制
和NN之间的通讯有点像redis集群里面的主节点与从节点之间的关系。NN是主节点,DN是从节点。
MapReduce
定义
MapReduce是一个分布式运算程序框架,使用户”基于Hadoop的数据分析应用“的核心框架
优点:易于编程(因为他是一个框架)、良好扩展性、高容错性、适合海量数据计算(TB/PB级)
缺点:不擅长实时计算、不擅长流式计算、不擅长有向无环图计算核心编程思想
主要是分成两个阶段,即Map和Reduce。
序列化
将一个服务器内存中的数据传输到另一台服务器的内存,这个过程会用到序列化反序列化。原理
在shuffle阶段进行排序、压缩、分区、合并。
InputFormat可以决定如何处理输入数据,比如说按行,指定KV。
数据切片:逻辑上讲数据切片,但是物理上不会进行切片,一个数据切片对应一个MapTask
MapTask阶段:Read、Map、Collect、溢写、Merge
Reduce阶段:Copy、Sort、Reduce
- ETL
Extract-Transform-Load:数据清洗的三个阶段
YARN
如何管理集群资源?如何给任务合理分配资源?
概念
YARN是一个资源调度平台,负责为运行程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的程序。基础架构
工作机制
YARN常用命令
查看任务:yarn application -list
查看日志:yarn logs -applicationId
查看容器:yarn container -list
查看节点:yarn node -list
《尚硅谷大数据Hadoop》教程相关推荐
- 自己动手做聊天机器人教程
GitHub链接: https://github.com/warmheartli/ChatBotCourse
- 《自己动手做聊天机器人》教程
开篇在: http://www.shareditor.com/blogshow/?blogId=63 http://www.shareditor.com/blogshow/?blogId=65 htt ...
- 自己动手做聊天机器人 一-涉及知识【转】
转自:http://www.shareditor.com/blogshow/?blogId=63 人工智能一直以来是人类的梦想,造一台可以为你做一切事情并且有情感的机器人,像哆啦A梦一样,现在这已经不 ...
- 自己动手做聊天机器人 一-涉及知识
人工智能一直以来是人类的梦想,造一台可以为你做一切事情并且有情感的机器人,像哆啦A梦一样,现在这已经不是一个梦了:iPhone里会说话的siri.会下棋的阿法狗.小度机器人.大白......,他们都能 ...
- 自己动手做聊天机器人 二十九-重磅:近1GB的三千万聊天语料供出
Reference: http://www.shareditor.com/blogshow/?blogId=112 经过半个月的倾力打造,建设好的聊天语料库包含三千多万条简体中文高质量聊天语料,近1G ...
- 自己动手做聊天机器人 三-语料与词汇资源
当代自然语言处理都是基于统计的,统计自然需要很多样本,因此语料和词汇资源是必不可少的,本节介绍语料和词汇资源的重要性和获取方式 请尊重原创,转载请注明来源网站www.shareditor.com以及原 ...
- 做聊天机器人平台就是赌博
最开始并没有操作系统,软件运行时都是竞争的:直接请求硬件资源,造成竞争.而且多人用一个计算机时,这种情况更容易发生.然后人家开始做操作系统,你觉得不可能,那怎么可能呢. 后来操作系统使用很麻烦,面对冷 ...
- Rasa Stack:创建支持上下文的人工智能助理和聊天机器人教程
相关概念 Rasa Stack 是一组开放源码机器学习工具,供开发人员创建支持上下文的人工智能助理和聊天机器人: • Core = 聊天机器人框架包含基于机器学习的对话管理 • NLU = 用于自然语 ...
- PyTorch 1.0 中文官方教程:聊天机器人教程
译者:毛毛虫 作者: Matthew Inkawhich 在本教程中,我们探索了一个好玩和有趣的循环序列到序列的模型用例.我们将用 Cornell Movie-Dialogs Corpus处的电影剧本 ...
- 实践:动手搭建聊天机器人
什么是聊天机器人? 聊天机器人是一种人工智能系统,可以用文字或者语音和人类交流互动.简单的如询问现在的天气怎么样.最新的新闻是什么,复杂一点的如手机出问题了询问一下要如何解决等等. 不过聊天机器人现 ...
最新文章
- MATLAB【十四】————调用深度库生成exe,批量运行三层文件夹下图片,保存结果
- 计算机网络管理考核办法,开滦医院计算机网络管理考核细则
- 计蒜客(三角形的内点)
- SAP PO相关打印编程
- boost::contract模块实现customer and manager的测试程序
- 作者:吴东亚(1972-),女,中国电子技术标准化研究院信息技术研究中心高级工程师、副主任,国家OID注册中心副主任。...
- 819C - RAW文件系统、集成文件系统
- 车企建设CDP可能会遇到的坑和挑战,从CRM、SCRM到CDP
- 【SAS系列】SAS入门书籍推荐
- 案例|工业物联网解决方案·光伏电站
- 教师资格证报名网页打不开,解决新版IE浏览器无法打开教师资格证页面问题(不需要添加兼容性站点!)
- Thinkphp6 baiy/think-async redis 异步代码执行/异步延迟执行/异步事件订阅
- C-COT跟踪算法在OTB数据集上测试的接口函数
- Origin 图像复制到Word后字体变形
- iOS超全开源框架、项目和学习资料汇总
- 引读attention机制--个人理解
- EurekaCAP原理
- 服务器版本的ansys证书错误,关于ANSYS Workbench 出现证书错误的解决办法
- 第10章第6节:使用iSlide对幻灯片中的多张图片进行环形布局 [PowerPoint精美幻灯片实战教程]
- java短信验证码 60秒_Rxjava操作符飙车系列(三)验证码倒计时
热门文章
- JavaWeb 服务器与客户端储存
- ramdump,QPST
- Liunx系统编程篇—进程通信(二)无名管道(原理、创建、实战)命名管道(原理、创建、实战)
- docker 容器启动提示,ipv4不能被使用
- 操作演示 | 如何将示波器波形直接保存到PC端
- zabbix系列(十) 监控内存可用率
- matlab 非线性常微分方程,Matlab数值求解非线性常微分方程 - 仿真模拟 - 小木虫 - 学术 科研 互动社区...
- 百度关键词分析工具_【轰炸类】关键词百度首页分析【澳门XXX】【实战分析】...
- SQL Server 2014如何修改数据库名
- 魔百和CM311-1sa_ZG_S905L3A_安卓9.0_纯净线刷固件包