初识Hadoop:大数据与Hadoop概述
1、大数据概述
大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据的主要特点(4V)是:
- 数据量大(Volume)
- 数据类别复杂(Variety)
- 数据处理速度快(Velocity)
- 和数据真实性高(Veracity)
还有的将大数据特点定义为6V模型,即增加了Valence(连接)、Value(价值)2V。
大数据相关的技术、框架:
- 计算框架 离线计算:Hadoop MapReduce、Spark 实时计算:Storm、Spark Streaming、Flink
- 存储框架 文件存储:Hadoop HDFS、Tachyon、KFS NOSQL数据库:HBase、MongoDB、Redis 全文检索:ES、Solr
- 资源管理 YARN、Mesos
- 日志收集 Flume、Logstash
- 消息系统 Kafka、StormMQ、ZeroMQ、RabbitMQ
- 查询分析 Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Kylin、Druid
2、Hadoop
Hadoop 在大数据技术体系中的地位至关重要,Hadoop 是大数据技术的基础,对Hadoop基础知识的掌握的扎实程度,会决定在大数据技术道路上走多远。
hadoop是什么?
- Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
- 主要解决数据存储和海量数据的分析计算问题。
- 广义上说,Hadoop通常指一个广泛的概念——Hadoop生态圈。
Hadoop的优势!
- 高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
- 高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
- 高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
- 高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
- 低成本。与一体机、商用数据仓库以及QlikView、Yonghong
Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。
Hadoop带有用Java语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。
hadoop的组成!
- HDFS: Hadoop Distributed File System 分布式文件系统
- YARN: Yet Another Resource Negotiator 资源管理调度系统
- Mapreduce:分布式运算框架
初识Hadoop:大数据与Hadoop概述相关推荐
- hadoop 单机单间_零基础入门hadoop大数据四——Hadoop框架前奏,JDK环境配置
~~~~~~~~~一天更新两篇~~~~~~ 一.本章节完成的内容 1.使用secureCRT工具连接linux主机(配置非常方便,方便粘贴) 2.上传安装包到linux上(用filezilla) 3. ...
- 猿创征文|Hadoop大数据技术
Hadoop大数据技术 Hadoop背景 Hadoop生态圈 Hadoop模式 HDFS 概述 优点 缺点 基本组成 NameNode Secondary NameNode DataNode YARN ...
- 打怪升级之小白的大数据之旅(四十一)<大数据与Hadoop概述>
打怪升级之小白的大数据之旅(四十) Hadoop概述 上次回顾 好了,经过了java,mysql,jdbc,maven以及Linux和Shell的洗礼,我们终于开始正式进入大数据阶段的知识了,首先我会 ...
- 初识大数据--Hadoop大数据平台架构与实践
Hadoop大数据平台架构与实践 推荐书籍: ⭐大数据存储与处理技术的原理(理论) ⭐Hadoop的使用和开发能力(实践) 预备知识: Linux常用命令 Java基础编程 1.大数据相关概念 无 ...
- 【快速入门大数据】hadoop和它的hdfs、yarn、mapreduce
文章目录 导学 大数据概述 初识Hadoop 概述 核心组件 HDFS分布式文件系统 资源调度系统YARN MapReduce 优势 发展史 生态系统 发行版本选择 企业应用案例 第3章 分布式文件系 ...
- Hadoop大数据零基础高端实战培训系列配文本挖掘项目
<Hadoop大数据零基础高端实战培训系列配文本挖掘项目(七大亮点.十大目标)> 课程讲师:迪伦 课程分类:大数据 适合人群:初级 课时数量:230课时 用到技术:部署Hadoop集群 涉 ...
- Hadoop专业解决方案-第1章 大数据和Hadoop生态圈
一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章 大数据和Hadoop生态圈小组已经翻译完成,在此 ...
- 大数据之Hadoop简介及环境搭建
第1章 大数据概论 1.1 大数据概念 大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的 ...
- Hadoop大数据平台开发与案例分析
关于举办"Hadoop大数据平台开发与案例分析 "高级工程师 一.课程介绍 1. 需求理解 Hadoop 设计之初的目标就定位于高可靠性.高可拓展性.高容错性和高效性,正是这些设计 ...
- 大数据之Hadoop——1概念
1 Hadoop是什么 1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 2)主要解决海量数据的存储和海量数据的分析计算问题. 3)广义上来说,Hadoop通常是指一个更广泛的概 ...
最新文章
- 【C++11】30分钟了解C++11新特性
- 学习vue中遇到的报错,特此记录下来
- 迎战双十一,阿里集聚500多家外部合作伙伴进行系统压力测试
- 多源最短路径Floyd、Floyd求最小环【模板】
- 高等数学:第六章 定积分的应用(1)定积分的应用 平面图形的面积 立体体积
- linux学习笔记之--vim 程序编辑器
- Fiori Launchpad server side config json
- OpenCV学习笔记(五):线性滤波-方框、均值、高斯:boxFilter(),blur(),GaussianBlur()
- java运行时内存分配详解
- Node有什么特点?
- Iptable与firewalld防火墙
- HTML页面浏览历史,浏览历史记录功能
- kali 安装 netspeed 扩展
- app上线——“游手乐”懂你的手游平台
- centos php-fpm 位置,centos 如何安装 php-fpm
- 从零构建知识图谱-第二章知识图谱技术体系
- 【verilog学习】Verilog语言中的或(|和||)
- Smells and Heuristics
- 共享内存(shmget,shmat,shmdt,shmctl)
- 双面之殇:分布式光伏如何应对“冰火两重天”?
热门文章
- 国家开放大学计算机应用模块3客观题答案,国家开放大学《计算机应用基础》考试与答案形考任务模块3模块3Excel2010电子表格系统—客观题答案.pdf...
- 判断单链表是否带环?若带环,求环的长度?求环的入口点?(C语言)
- 计算机启用时间 查找方式,电脑实用知识技巧 篇六:不需要第三方软件,这种方法查看系统启动时间...
- linux服务器做页面,linux服务器搭建在线预览环境
- 计算机应用基础自考,自考计算机应用基础
- python下载晚上excel_Python自动操控excel,一小时解决你一天的工作
- 计算机控制常用数据通信标准,计算机系统第6章通信ppt课件.ppt
- java8收集器,Java 8中的收集器collectionAndThen()方法
- php异步处理任务工具,PHP实现异步任务分发处理利器-Gearman
- JDBC实现图书管理小案例