Hadoop 入门简介
如果对您有帮助 ,请多多支持.多少都是您的心意与支持,一分也是爱,再次感谢!!!
支付宝赞赏:
铺垫
- 人产生数据的速度越来越快,机器则更加快,more data usually beats better algorithms,所以需要另外的一种处理数据的方法。
- 硬盘的容量增加了,但性能没有跟上,解决办法是把数据分到多块硬盘,然后同时读取。但带来一些问题:
硬件问题:复制数据解决(RAID)
分析需要从不同的硬盘读取数据:MapReduce
而Hadoop提供了
1.可靠的共享存储(分布式存储) 2.抽象的分析接口(分布式分析)
大数据
概念
不能使用一台机器进行处理的数据
大数据的核心是样本=总体
特性
- 大量性(volume): 一般在大数据里,单个文件的级别至少为几十,几百GB以上
- 快速性(velocity): 反映在数据的快速产生及数据变更的频率上
- 多样性(variety): 泛指数据类型及其来源的多样化,进一步可以把数据结构归纳为结构化(structured),半结构化(semi-structured),和非结构化(unstructured)
- 易变性: 伴随数据快速性的特征,数据流还呈现一种波动的特征。不稳定的数据流会随着日,季节,特定事件的触发出现周期性峰值
- 准确性: 又称为数据保证(data assurance)。不同方式,渠道收集到的数据在质量上会有很大差异。数据分析和输出结果的错误程度和可信度在很大程度上取决于收集到的数据质量的高低
- 复杂性: 体现在数据的管理和操作上。如何抽取,转换,加载,连接,关联以把握数据内蕴的有用信息已经变得越来越有挑战性
关键技术
1.数据分布在多台机器
可靠性:每个数据块都复制到多个节点
性能:多个节点同时处理数据
2.计算随数据走
网络IO速度 << 本地磁盘IO速度,大数据系统会尽量地将任务分配到离数据最近的机器上运行(程序运行时,将程序及其依赖包都复制到数据所在的机器运行)
代码向数据迁移,避免大规模数据时,造成大量数据迁移的情况,尽量让一段数据的计算发生在同一台机器上
3.串行IO取代随机IO
传输时间 << 寻道时间,一般数据写入后不再修改
Hadoop - 简介
Hadoop可运行于一般的商用服务器上,具有高容错、高可靠性、高扩展性等特点
特别适合写一次,读多次的场景
适合
- 大规模数据
- 流式数据(写一次,读多次)
- 商用硬件(一般硬件)
不适合
- 低延时的数据访问
- 大量的小文件
- 频繁修改文件(基本就是写1次)
Hadoop架构
- HDFS: 分布式文件存储
- YARN: 分布式资源管理
- MapReduce: 分布式计算
- Others: 利用YARN的资源管理功能实现其他的数据处理方式
Hadoop安装
单节点安装
所有服务运行在一个JVM中,适合调试、单元测试
伪集群
所有服务运行在一台机器中,每个服务都在独立的JVM中,适合做简单、抽样测试
多节点集群
服务运行在不同的机器中,适合生产环境
配置公共帐号
方便主与从进行无密钥通信,主要是使用公钥/私钥机制 所有节点的帐号都一样 在主节点上执行 ssh-keygen -t rsa生成密钥对 复制公钥到每台目标节点中
这里仅仅是一个参考,可能暂时资料不全,如需要学习的请自行在网上查询,相信你能找到更好的资料学习。
如果对您有帮助 ,请多多支持.多少都是您的心意与支持,一分也是爱,再次感谢!!!
支付宝赞赏:
Hadoop 入门简介相关推荐
- 大数据与Hadoop有什么关系?大数据Hadoop入门简介
学习着数据科学与大数据技术专业(简称大数据)的我们,对于"大数据"这个词是再熟悉不过了,而每当我们越去了解大数据就越发现有个词也会一直被提及那就是--Hadoop 那Hadoop与 ...
- hadoop入门简介
Hadoop这个名字不是一个缩写,它是一个虚构的名字.该项目的创建者,Doug Cutting如此解释Hadoop的得名:"这个名字是我孩子给一个棕黄色的大象样子的填充玩具命名的.我的命名标 ...
- 大数据Hadoop入门简介
hadoop是什么 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS.HDFS有高容错性的特点,并且设计用来部署在低廉的硬件上:而且它 ...
- 分布式文件系统—HDFS—入门简介
原文作者:Zh_Y_G 原文地址:HDFS入门简介 目录 HDFS是什么? 设计目标: 安装配置 HDFS读写流程图解 CheckPoint HDFS是什么? 易于扩展的分布式文件系统 运行在大量普通 ...
- [学习笔记]黑马程序员-Hadoop入门视频教程
文章目录 参考资料 第一章:大数据导论与Linux基础(p1-p17) 1.1 大数据导论 1.1.1 企业数据分析方向 1.1.2 数据分析基本流程步骤 明确分析的目的和思路 数据收集 数据处理 数 ...
- 橙子01-大数据基础入门简介
橙子01-大数据基础入门简介 大数据的概念 volume variety velocity value 大数据技术 大数据处理的基本流程 云计算的三个关键技术 大数据的应用 相关视频内容可在b站观看大 ...
- 大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
Technorati 标记: hadoop,生态圈,ecosystem,yarn,spark,入门 1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用 ...
- 大数据入门简介(一)了解大数据
大数据入门简介(一) 首先我们先想想为什么会大数据,或者说它能干什么? 与常规数据比较,大数据体现在什么地方?大数据大数据,关键是什么,大!!!就是这么浅显,大,什么大,数据大呗.下面我们就围绕这个大 ...
- 【Hadoop生态圈】1.Hadoop入门教程及集群环境搭建
文章目录 1.简介 2.环境准备 3.安装hadoop 3.修改Hadoop配置文件 3.1.hadoop-env.sh配置 3.2.core-site.xml配置 3.3.hdfs-site.xml ...
最新文章
- jQuery之父强烈推荐之jQuery实战
- opencv 取roi_利用OpenCV 识别两张相似的图片
- 【设计模式 03】装饰模式——俄罗斯套娃?
- mysql sumif条件求和_sumif与sumifs条件求和函数详解,小白到大神的必经之路
- 这才是真正的用户增长
- 容器编排技术 -- Kubernetes 给容器和Pod分配CPU资源
- java 动态编译_老生常谈Java动态编译(必看篇)
- centos打开 mysql数据库文件_centos安装mysql数据库和配置mysql数据库
- 机器视觉:远心光学探秘
- 实习学习:项目用的DDD,什么是DDD开发?
- Native method not found: com.autonavi.amap.mapcore.MapProjection.nativeLonLat2Geo:(DDLcom/autonavi/a
- 2020年居家实习日志
- 详细版【循环神经网络RNN】(邱锡鹏)
- linux命令看进程的tcp链接,Linux下查看TCP连接的状态的shell命令
- 图灵学院Java架构师课程,基于java
- 【正点原子I.MX6U-MINI应用篇】5、嵌入式Linux在LCD上显示BMP、JPG、PNG图片
- 【blue bridge cup】笔记
- wht can't i allocate a new log
- JWT 做 token 签发
- 【蓝桥杯集训100题】scratch生日蛋糕 蓝桥杯scratch比赛专项预测编程题 模拟练习题第03题
热门文章
- 全国各地土特产一览表4
- 某外卖企业借助垄断霸权意图在共享充电宝大开杀戒,将搅乱该市场
- 《Curriculum-Meta Learning for Order-Robust Continual Relation Extraction》论文笔记
- 【houdini vex】极径动画
- 计算机数据存储的变迁,【IT产业20年变迁】从0到1的二进制世界,存储设备20年发展历程...
- 公务员体检视力要求最新标准(2022)
- linux的磁盘磁头瓷片作用,硬盘中磁头、扇区、柱面的概念简单介绍
- 软件测试学习——等价类划分法
- 谁能担当中小企业“总CEO”
- 训练自己的ChatGPT-OpenAI 微调模型