hadoop是什么?

(1)Hadoop就是一个分布式计算的解决方案,也就是帮助我们把 一个任务分到很多台计算机来运算。

(2)Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。

Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理)

Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的处理能力,不管任何数据形式最终会转化为key/value,key/value是基本数据单元。用函数式变成Mapreduce代替SQL,SQL是查询语句,而Mapreduce则是使用脚本和代码,而对于适用于关系型数据库,习惯SQL的Hadoop有开源工具hive代替。

hadoop能做什么?

hadoop可以解决运算时间长等问题

举例来说,我之前有一个运算任务,是对比几个网站之间的数据。
假设每个网站有5W条数据,2个网站之间需要比较25W次。随着网站的增加,比较次数增长很快。
如果用1台机子来进行运算,即使用上多线程,因为单机的性能瓶颈,可能需要5天。
但是我们如果用2台机子来运算,可能需要2.5天(理想状态),但是需要手动分割任务
如果用5台,10台++就可能把时间缩短到1天 甚至几个小时即可运算完成。
这就是分布式运算
但是传统的分布式运算  需要我们人工的去切分任务。
hadoop则 具有一定的策略,只要我们设置相关配置,只需要一次 输入这几个网站的所有数据 就可以帮助我们很方便的进行自动分类,任务分配,进行运算。

hadoop擅长日志分析

facebook就用Hive来进行日志分析,2009年时facebook就有非编程人员的30%的人使用HiveQL进行数据分析;淘宝搜索中    的 自定义筛选也使用的Hive;利用Pig还可以做高级的数据处理,包括Twitter、LinkedIn 上用于发现您可能认识的人,可以实现类似Amazon.com的协同过滤的推荐效果。淘宝的商品推荐也是!在Yahoo!的40%的Hadoop作业是用pig运行的,包括垃圾邮件的识别和过滤,还有用户特征建模。(2012年8月25新更新,天猫的推荐系统是hive,少量尝试mahout!)

hadoop的运用场景

大数据量存储:分布式存储日志处理: Hadoop擅长这个海量计算: 并行计算ETL:数据抽取到oracle、mysql、DB2、mongdb及主流数据库使用HBase做数据分析: 用扩展性应对大量的写操作—Facebook构建了基于HBase的实时数据分析系统机器学习: 比如Apache Mahout项目搜索引擎:hadoop + lucene实现数据挖掘:目前比较流行的广告推荐大量地从文件中顺序读。HDFS对顺序读进行了优化,代价是对于随机的访问负载较高。数据支持一次写入,多次读取。对于已经形成的数据的更新不支持。数据不进行本地缓存(文件很大,且顺序读没有局部性)任何一台服务器都有可能失效,需要通过大量的数据复制使得性能不会受到大的影响。
用户细分特征建模个性化广告推荐智能仪器推荐

hadoop的一些案例

  • 面向智能交通的大数据和英特尔® 智能系统解决方案
  • 物联网商机和技术挑战(英特尔)
  • 大数据在医疗行业的应用
  • 英特尔IT开源混合云

hadoop生态圈

我们经常一提到hadoop,就会听别人说到Hive, Pig, HBase, Sqoop, Mahout, Zookeeper等等。
其实这些项目都是hadoop的一些相关项目。
它们有些是hadoop的组件,有些是新的hadoop框架(基于hadoop原理的架构)。
尽管Hadoop因MapReduce及其分布式文件系统(HDFS,由NDFS改名而来)而出名,但Hadoop这个名字也用于一组相关项目的统称,这些相关项目都使用这个基础平台进行分布式计算和海量数据处理。
下面是一些常用的组件:
还有一些新的组件框架可查看
http://blog.cloudera.com/blog/2013/01/apache-hadoop-in-2013-the-state-of-the-platform/
Common
    一组分布式文件系统和通用I/O的组件与接口(序列化、Java RPC和持久化数据结构)。

Avro
    一种支持高效、跨语言的RPC以及永久存储数据的序列化系统。

MapReduce
    分布式数据处理模型和执行环境,运行于大型商用机集群。

HDFS
    分布式文件系统,运行于大型商用机集群。

Pig
   一种数据流语言和运行环境,用以检索非常大的数据集。Pig运行在MapReduce和HDFS的集群上。     

Hive
   一个分布式、按列存储的数据仓库。Hive管理HDFS中存储的数据,并提供基于SQL的查询语言(由运行时引擎翻译成MapReduce作业)用以查询数据。

HBase
    一个分布式、按列存储数据库。HBase使用HDFS作为底层存储,同时支持MapReduce的批量式计算和点查询(随机读取)。

ZooKeeper
    一个分布式、可用性高的协调服务。ZooKeeper提供分布式锁之类的基本服务用于构建分布式应用。

Sqoop
    在数据库和HDFS之间高效传输数据的工具。

hadoop基础----hadoop理论----Hadoop简介相关推荐

  1. hadoop基础一:Hadoop简介、安装

    你的点赞与评论是我最大的创作动力! hadoop简介: hadoop平台是一个可靠的.可扩展的.可分布式计算的开源软件. Apache Hadoop平台是一个框架,允许使用简单的编程模型.该平台被设计 ...

  2. Hadoop 基础系列一Hadoop 系列之 1.0 和2.0 架构

    精选30+云产品,助力企业轻松上云!>>> Hadoop 系列之 1.0 和2.0 架构 自学大数据有一段时间了,找工作历时一周,找到一家大厂,下周入职,薪资待遇还不错,公司的业务背 ...

  3. hadoop生态圈面试精华之Hadoop基础

    Hadoop基础 介绍下Hadoop 回答技巧:说下Hadoop核心组件,讲下HDFS原理.MapReduce过程等,也可以在介绍完组件部分后, 看看面试官会不会继续往下问(比如让你说下HDFS读写流 ...

  4. hadoop基础----hadoop理论(四)-----hadoop分布式并行计算模型MapReduce详解

    我们在前一章已经学习了HDFS: hadoop基础----hadoop理论(三)-----hadoop分布式文件系统HDFS详解 我们已经知道Hadoop=HDFS(文件系统,数据存储技术相关)+ M ...

  5. 【大数据】Hadoop—— 三大核心组件理论入门 | 完全分布式集群搭建 | 入门项目实战

    文章目录 前言 大数据概述 时代背景 4V特点 大数据思维 核心技术 储存 计算 相关技术 云计算 物联网 Hadoop简介 简介 版本之分 项目生态结构 安装和部署 HDFS 简介 集群结构 实现目 ...

  6. Hadoop生态圈-Ambari控制台功能简介

    Hadoop生态圈-Ambari控制台功能简介 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 在经历一系列安装过程之后(部署过HDP后我终于发现为什么大家喜欢用它了,部署比CDH简 ...

  7. #CSDN软件工程师能力认证学习精选# Hadoop基础知识学习

    CSDN软件工程师能力认证是由CSDN制定并推出的一个能力认证标准,宗旨是让一流的技术人才凭真才实学进大厂拿高薪,同时为企业节约大量招聘与培养成本,使命是提升高校大学生的技术能力,为行业提供人才储备, ...

  8. hadoop基础----hadoop实战(七)-----hadoop管理工具---使用Cloudera Manager安装Hadoop---Cloudera Manager和CDH5.8离线安装

    hadoop基础----hadoop实战(六)-----hadoop管理工具---Cloudera Manager---CDH介绍 简介 我们在上篇文章中已经了解了CDH,为了后续的学习,我们本章就来 ...

  9. hadoop基础----hadoop实战(二)-----hadoop操作hdfs---hdfs文件系统常用命令

    我们在前面已经介绍过了 hadoop 1.0是由2大部分组成的: hdfs + mapreduce 也对hdfs做了相关介绍. hadoop基础----hadoop理论(三)-----hadoop分布 ...

  10. Hadoop基础-Idea打包详解之手动添加依赖(SequenceFile的压缩编解码器案例)

    Hadoop基础-Idea打包详解之手动添加依赖(SequenceFile的压缩编解码器案例) 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.编辑配置文件(pml.xml)(我 ...

最新文章

  1. Django 缓存6.2
  2. 服务被干爆了!竟然是日志的锅!!
  3. ajax send上传出错,Ajax在xmlhttp.send上出错
  4. double java 坑,Java中四则运算的那些坑
  5. python小项目实例流程-python实现的简单RPG游戏流程实例
  6. 【UVA1378】A Funny Stone Game (博弈-求SG值-输出方案)
  7. 05.full_text match_bool_prefix match_phrase_prefix 查询
  8. python输出所有素数_Python程序打印一个区间内所有质数
  9. html 嵌入 excel_用了这么久Excel,你了解它的前世今生吗?
  10. 字符设备驱动程序之poll机制(韦大仙)
  11. 伸展树(splay tree)
  12. php中怎么判断输入密码与原密码一致_「每周FPGA案例」电子密码锁设计
  13. 详解多维数组与指针之间的关系
  14. PHP设计模式——组合器模式
  15. Exchange 2016 体系结构
  16. 网易云音乐 最美的评论
  17. win10系统怎样安装/更新独立显卡驱动
  18. kibana报表展示
  19. XMLHttpRequest.readyState 状态
  20. linux运行同花顺,wine打不开同花顺软件

热门文章

  1. 有的网线接口为什么做不到轻薄化?
  2. 有没有用过苹果手机的人,使用后放弃苹果
  3. 虚电路网络和数据报网络
  4. Apache目录介绍
  5. oracle ola_Ola HallengrenSQL Server维护解决方案–安装和SQL Server备份解决方案
  6. sql还原数据库备份数据库_有关数据库备份,还原和恢复SQL面试问题–第IV部分
  7. MySQL数据库和表名大小写敏感开关的打开办法
  8. hibernate课程 初探单表映射1-2 ORM定义
  9. 原DTCoreText学习(三)-自定义DTAttributedTextCell
  10. python中weekday_Python calendar firstweekday()用法及代码示例