1、大数据概述

大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的主要特点(4V)是:

  1. 数据量大(Volume)
  2. 数据类别复杂(Variety)
  3. 数据处理速度快(Velocity)
  4. 和数据真实性高(Veracity)

还有的将大数据特点定义为6V模型,即增加了Valence(连接)、Value(价值)2V。

大数据相关的技术、框架:

  • 计算框架 离线计算:Hadoop MapReduce、Spark 实时计算:Storm、Spark Streaming、Flink
  • 存储框架 文件存储:Hadoop HDFS、Tachyon、KFS NOSQL数据库:HBase、MongoDB、Redis 全文检索:ES、Solr
  • 资源管理 YARN、Mesos
  • 日志收集 Flume、Logstash
  • 消息系统 Kafka、StormMQ、ZeroMQ、RabbitMQ
  • 查询分析 Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Kylin、Druid

2、Hadoop

Hadoop 在大数据技术体系中的地位至关重要,Hadoop 是大数据技术的基础,对Hadoop基础知识的掌握的扎实程度,会决定在大数据技术道路上走多远。

hadoop是什么?

  • Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
  • 主要解决数据存储和海量数据的分析计算问题。
  • 广义上说,Hadoop通常指一个广泛的概念——Hadoop生态圈。

Hadoop的优势!

  • 高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
  • 高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
  • 高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
  • 高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
  • 低成本。与一体机、商用数据仓库以及QlikView、Yonghong
    Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。

Hadoop带有用Java语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。

hadoop的组成!

  • HDFS: Hadoop Distributed File System 分布式文件系统
  • YARN: Yet Another Resource Negotiator 资源管理调度系统
  • Mapreduce:分布式运算框架

初识Hadoop:大数据与Hadoop概述相关推荐

  1. hadoop 单机单间_零基础入门hadoop大数据四——Hadoop框架前奏,JDK环境配置

    ~~~~~~~~~一天更新两篇~~~~~~ 一.本章节完成的内容 1.使用secureCRT工具连接linux主机(配置非常方便,方便粘贴) 2.上传安装包到linux上(用filezilla) 3. ...

  2. 猿创征文|Hadoop大数据技术

    Hadoop大数据技术 Hadoop背景 Hadoop生态圈 Hadoop模式 HDFS 概述 优点 缺点 基本组成 NameNode Secondary NameNode DataNode YARN ...

  3. 打怪升级之小白的大数据之旅(四十一)<大数据与Hadoop概述>

    打怪升级之小白的大数据之旅(四十) Hadoop概述 上次回顾 好了,经过了java,mysql,jdbc,maven以及Linux和Shell的洗礼,我们终于开始正式进入大数据阶段的知识了,首先我会 ...

  4. 初识大数据--Hadoop大数据平台架构与实践

    Hadoop大数据平台架构与实践 推荐书籍: ⭐大数据存储与处理技术的原理(理论) ⭐Hadoop的使用和开发能力(实践) 预备知识: Linux常用命令 Java基础编程 1.大数据相关概念 ​ 无 ...

  5. 【快速入门大数据】hadoop和它的hdfs、yarn、mapreduce

    文章目录 导学 大数据概述 初识Hadoop 概述 核心组件 HDFS分布式文件系统 资源调度系统YARN MapReduce 优势 发展史 生态系统 发行版本选择 企业应用案例 第3章 分布式文件系 ...

  6. Hadoop大数据零基础高端实战培训系列配文本挖掘项目

    <Hadoop大数据零基础高端实战培训系列配文本挖掘项目(七大亮点.十大目标)> 课程讲师:迪伦 课程分类:大数据 适合人群:初级 课时数量:230课时 用到技术:部署Hadoop集群 涉 ...

  7. Hadoop专业解决方案-第1章 大数据和Hadoop生态圈

    一.前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章 大数据和Hadoop生态圈小组已经翻译完成,在此 ...

  8. 大数据之Hadoop简介及环境搭建

    第1章 大数据概论 1.1 大数据概念 大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合,是需要新处理模式才能具有更强的决策力.洞察发现力和流程优化能力的 ...

  9. Hadoop大数据平台开发与案例分析

    关于举办"Hadoop大数据平台开发与案例分析 "高级工程师 一.课程介绍 1. 需求理解 Hadoop 设计之初的目标就定位于高可靠性.高可拓展性.高容错性和高效性,正是这些设计 ...

  10. 大数据之Hadoop——1概念

    1 Hadoop是什么 1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 2)主要解决海量数据的存储和海量数据的分析计算问题. 3)广义上来说,Hadoop通常是指一个更广泛的概 ...

最新文章

  1. 【C++11】30分钟了解C++11新特性
  2. 学习vue中遇到的报错,特此记录下来
  3. 迎战双十一,阿里集聚500多家外部合作伙伴进行系统压力测试
  4. 多源最短路径Floyd、Floyd求最小环【模板】
  5. 高等数学:第六章 定积分的应用(1)定积分的应用 平面图形的面积 立体体积
  6. linux学习笔记之--vim 程序编辑器
  7. Fiori Launchpad server side config json
  8. OpenCV学习笔记(五):线性滤波-方框、均值、高斯:boxFilter(),blur(),GaussianBlur()
  9. java运行时内存分配详解
  10. Node有什么特点?
  11. Iptable与firewalld防火墙
  12. HTML页面浏览历史,浏览历史记录功能
  13. kali 安装 netspeed 扩展
  14. app上线——“游手乐”懂你的手游平台
  15. centos php-fpm 位置,centos 如何安装 php-fpm
  16. 从零构建知识图谱-第二章知识图谱技术体系
  17. 【verilog学习】Verilog语言中的或(|和||)
  18. Smells and Heuristics
  19. 共享内存(shmget,shmat,shmdt,shmctl)
  20. 双面之殇:分布式光伏如何应对“冰火两重天”?

热门文章

  1. 国家开放大学计算机应用模块3客观题答案,国家开放大学《计算机应用基础》考试与答案形考任务模块3模块3Excel2010电子表格系统—客观题答案.pdf...
  2. 判断单链表是否带环?若带环,求环的长度?求环的入口点?(C语言)
  3. 计算机启用时间 查找方式,电脑实用知识技巧 篇六:不需要第三方软件,这种方法查看系统启动时间...
  4. linux服务器做页面,linux服务器搭建在线预览环境
  5. 计算机应用基础自考,自考计算机应用基础
  6. python下载晚上excel_Python自动操控excel,一小时解决你一天的工作
  7. 计算机控制常用数据通信标准,计算机系统第6章通信ppt课件.ppt
  8. java8收集器,Java 8中的收集器collectionAndThen()方法
  9. php异步处理任务工具,PHP实现异步任务分发处理利器-Gearman
  10. JDBC实现图书管理小案例