尚硅谷大数据Hadoop教程

  • 概论
  • 入门
  • HDFS
  • MapReduce
  • YARN

由于对这方面的知识只是做一个了解,所以详细的东西并不会做笔记。

概论

  1. 大数据的特点
    海量、高速、多样、低价值密度

入门

  1. 概念
    Apache基金会所开发的分布式系统基础架构。主要解决海量数据的存储和海量数据的分析计算问题。广义上说,Hadoop通常指一个更广泛的概念—Hadoop生态圈。

  2. Hadoop优势
    高可用性、高扩展性、高效性、高容错性

  3. Hadoop组成
    Hadoop1.x:Common(辅助工具)、HDFS(数据存储)、MapReduce(计算+资源调度)
    Hadoop2.x:Common(辅助工具)、HDFS(数据存储)、MapReduce(计算)、Yarn(资源调度)
    Hadoop3.x:组成没变

  4. HDFS:Hadoop Distribute File System。
    NameNode(nn):存储文件的元数据
    DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和
    Secondary Namenode(2nn):每隔一段时间对NameNode元数据备份

  5. YARN:Yet Another Resource Negotiator:另一种资源协调者
    管理CPU和内存。
    Resource Manager(RM):整个集群资源的老大
    Node Manager(NM):单个节点服务器资源的老大
    Application Master(AM):单个任务运行的老大
    Container:容器,相当于一台独立的服务器,里面封装了任务运行所需要的资源,如内存、CPU、磁盘、网络

  6. MapReduce
    Map:并行处理输入数据
    Reduce:对Map结果进行汇总

  7. 大数据技术生态体系
    数据层:数据库(结构化数据)、文件日志(半结构化数据)、视频等(非结构化数据)
    数据传输、存储层:Kafka、HDFS、HBase
    资源管理层:YARN
    数据计算层:Hive、Spark、Flink、Storm
    任务调度层:Oozie、Azkaban
    ZooKeeper:数据平台配置和调度
    业务层

  8. 集群配置
    NameNode和SecondaryNameNpde不要安装在同一台服务器
    ResourceManager也很消耗内存,不要和NameNode、SecondaryNameNode配置在同一台机器上

  9. 常用端口号
    HDFS NameNode 内部通讯端口:8020/9000/9820
    HDFS NameNode 对用户的查询端口:9870
    Yarn查看任务运行情况:8088
    历史服务器:19888

  10. 其他有用的操作
    集群时间同步、集群同步脚本sync,scp

HDFS

  1. 产生背景:解决海量数据存储的问题。通过目录树的方式来定位文件;其次,他是分布式的。HDFS适合一次写入,多次读出的场景

  2. 优缺点:
    优点:高容错性,适合处理大数据、可构建在廉价机器上
    缺点:不适合低延时数据访问、无法高效的对大量小文件进行存储、不支持并发写入、文件随机修改

  3. HDFS的组成

  4. HDFS文件块大小
    可以配置,通常为128M。寻址时间为传输时间的1%时为最佳状态。
    为什么块不能设置为太大,也不能设置太小?太小,增加寻址时间。太大,传输时间太久。

  5. HDFS相关命令
    主要是上传下载文件等文件操作,具体命令略。
    HDFS相关Java API,这个查文档就能查到。

  6. HDFS写流程

  7. HDFS读数据流程

  8. NN和2NN的工作机制

  9. DN工作机制

    和NN之间的通讯有点像redis集群里面的主节点与从节点之间的关系。NN是主节点,DN是从节点。

MapReduce

  1. 定义
    MapReduce是一个分布式运算程序框架,使用户”基于Hadoop的数据分析应用“的核心框架
    优点:易于编程(因为他是一个框架)、良好扩展性、高容错性、适合海量数据计算(TB/PB级)
    缺点:不擅长实时计算、不擅长流式计算、不擅长有向无环图计算

  2. 核心编程思想

主要是分成两个阶段,即Map和Reduce。

  1. 序列化
    将一个服务器内存中的数据传输到另一台服务器的内存,这个过程会用到序列化反序列化。

  2. 原理

    在shuffle阶段进行排序、压缩、分区、合并。
    InputFormat可以决定如何处理输入数据,比如说按行,指定KV。
    数据切片:逻辑上讲数据切片,但是物理上不会进行切片,一个数据切片对应一个MapTask


MapTask阶段:Read、Map、Collect、溢写、Merge
Reduce阶段:Copy、Sort、Reduce

  1. ETL
    Extract-Transform-Load:数据清洗的三个阶段

YARN

如何管理集群资源?如何给任务合理分配资源?

  1. 概念
    YARN是一个资源调度平台,负责为运行程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的程序。

  2. 基础架构

  3. 工作机制

  4. YARN常用命令
    查看任务:yarn application -list
    查看日志:yarn logs -applicationId
    查看容器:yarn container -list
    查看节点:yarn node -list

《尚硅谷大数据Hadoop》教程相关推荐

  1. 自己动手做聊天机器人教程

    GitHub链接: https://github.com/warmheartli/ChatBotCourse

  2. 《自己动手做聊天机器人》教程

    开篇在: http://www.shareditor.com/blogshow/?blogId=63 http://www.shareditor.com/blogshow/?blogId=65 htt ...

  3. 自己动手做聊天机器人 一-涉及知识【转】

    转自:http://www.shareditor.com/blogshow/?blogId=63 人工智能一直以来是人类的梦想,造一台可以为你做一切事情并且有情感的机器人,像哆啦A梦一样,现在这已经不 ...

  4. 自己动手做聊天机器人 一-涉及知识

    人工智能一直以来是人类的梦想,造一台可以为你做一切事情并且有情感的机器人,像哆啦A梦一样,现在这已经不是一个梦了:iPhone里会说话的siri.会下棋的阿法狗.小度机器人.大白......,他们都能 ...

  5. 自己动手做聊天机器人 二十九-重磅:近1GB的三千万聊天语料供出

    Reference: http://www.shareditor.com/blogshow/?blogId=112 经过半个月的倾力打造,建设好的聊天语料库包含三千多万条简体中文高质量聊天语料,近1G ...

  6. 自己动手做聊天机器人 三-语料与词汇资源

    当代自然语言处理都是基于统计的,统计自然需要很多样本,因此语料和词汇资源是必不可少的,本节介绍语料和词汇资源的重要性和获取方式 请尊重原创,转载请注明来源网站www.shareditor.com以及原 ...

  7. 做聊天机器人平台就是赌博

    最开始并没有操作系统,软件运行时都是竞争的:直接请求硬件资源,造成竞争.而且多人用一个计算机时,这种情况更容易发生.然后人家开始做操作系统,你觉得不可能,那怎么可能呢. 后来操作系统使用很麻烦,面对冷 ...

  8. Rasa Stack:创建支持上下文的人工智能助理和聊天机器人教程

    相关概念 Rasa Stack 是一组开放源码机器学习工具,供开发人员创建支持上下文的人工智能助理和聊天机器人: • Core = 聊天机器人框架包含基于机器学习的对话管理 • NLU = 用于自然语 ...

  9. PyTorch 1.0 中文官方教程:聊天机器人教程

    译者:毛毛虫 作者: Matthew Inkawhich 在本教程中,我们探索了一个好玩和有趣的循环序列到序列的模型用例.我们将用 Cornell Movie-Dialogs Corpus处的电影剧本 ...

  10. 实践:动手搭建聊天机器人

    什么是聊天机器人? 聊天机器人是一种人工智能系统,可以用文字或者语音和人类交流互动.简单的如询问现在的天气怎么样.最新的新闻是什么,复杂一点的如手机出问题了询问一下要如何解决等等. 不过聊天机器人现 ...

最新文章

  1. MATLAB【十四】————调用深度库生成exe,批量运行三层文件夹下图片,保存结果
  2. 计算机网络管理考核办法,开滦医院计算机网络管理考核细则
  3. 计蒜客(三角形的内点)
  4. SAP PO相关打印编程
  5. boost::contract模块实现customer and manager的测试程序
  6. 作者:吴东亚(1972-),女,中国电子技术标准化研究院信息技术研究中心高级工程师、副主任,国家OID注册中心副主任。...
  7. 819C - RAW文件系统、集成文件系统
  8. 车企建设CDP可能会遇到的坑和挑战,从CRM、SCRM到CDP
  9. 【SAS系列】SAS入门书籍推荐
  10. 案例|工业物联网解决方案·光伏电站
  11. 教师资格证报名网页打不开,解决新版IE浏览器无法打开教师资格证页面问题(不需要添加兼容性站点!)
  12. Thinkphp6 baiy/think-async redis 异步代码执行/异步延迟执行/异步事件订阅
  13. C-COT跟踪算法在OTB数据集上测试的接口函数
  14. Origin 图像复制到Word后字体变形
  15. iOS超全开源框架、项目和学习资料汇总
  16. 引读attention机制--个人理解
  17. EurekaCAP原理
  18. 服务器版本的ansys证书错误,关于ANSYS Workbench 出现证书错误的解决办法
  19. 第10章第6节:使用iSlide对幻灯片中的多张图片进行环形布局 [PowerPoint精美幻灯片实战教程]
  20. java短信验证码 60秒_Rxjava操作符飙车系列(三)验证码倒计时

热门文章

  1. JavaWeb 服务器与客户端储存
  2. ramdump,QPST
  3. Liunx系统编程篇—进程通信(二)无名管道(原理、创建、实战)命名管道(原理、创建、实战)
  4. docker 容器启动提示,ipv4不能被使用
  5. 操作演示 | 如何将示波器波形直接保存到PC端
  6. zabbix系列(十) 监控内存可用率
  7. matlab 非线性常微分方程,Matlab数值求解非线性常微分方程 - 仿真模拟 - 小木虫 - 学术 科研 互动社区...
  8. 百度关键词分析工具_【轰炸类】关键词百度首页分析【澳门XXX】【实战分析】...
  9. SQL Server 2014如何修改数据库名
  10. 魔百和CM311-1sa_ZG_S905L3A_安卓9.0_纯净线刷固件包