原文博客出自于:http://blog.fens.me/hadoop-hive-roadmap/      感谢!

Hive学习路线图

Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。

从2011年开始,中国进入大数据风起云涌的时代,以Hadoop为代表的家族软件,占据了大数据处理的广阔地盘。开源界及厂商,所有数据软件,无一不向Hadoop靠拢。Hadoop也从小众的高富帅领域,变成了大数据开发的标准。在Hadoop原有技术基础之上,出现了Hadoop家族产品,通过“大数据”概念不断创新,推出科技进步。

作为IT界的开发人员,我们也要跟上节奏,抓住机遇,跟着Hadoop一起雄起!

关于作者:

  • 张丹(Conan), 程序员Java,R,PHP,Javascript
  • weibo:@Conan_Z
  • blog: http://blog.fens.me
  • email: bsspirit@gmail.com

转载请注明出处:
http://blog.fens.me/hadoop-hive-roadmap/

前言

Hive是Hadoop家族中一款数据仓库产品,Hive最大的特点就是提供了类SQL的语法,封装了底层的MapReduce过程,让有SQL基础的业务人员,也可以直接利用Hadoop进行大数据的操作。就是这一个点,解决了原数据分析人员对于大数据分析的瓶颈。

让我们把Hive的环境构建起来,帮助非开发人员也能更好地了解大数据。

目录

  1. Hive介绍
  2. Hive学习路线图
  3. 我的使用经历
  4. Hive的使用案例

1. Hive介绍

  Hive起源于Facebook,它使得针对Hadoop进行SQL查询成为可能,从而非程序员也可以方便地使用。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务运行。

Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

详细地Hive的安装和使用介绍,请参考文章:Hive安装及使用攻略

2. Hive学习路线图

Hive的知识点,我已经列在图中,希望帮助其他人更好的了解Hive。

接下来,是我的使用经历,谁都没有捷径。把心踏实下来,就不那么难了。

3. 我的使用经历

我使用Hive有两个考虑:

  • 1. 帮助无开发经验的数据分析人员,有能力处理大数据
  • 2. 构建标准化的MapReduce开发过程

1). 帮助无开发经验的数据分析人员,有能力处理大数据

完全符合与Hive的设计理念,一直在强调,无需多言。

2). 构建标准化的MapReduce开发过程

这个方面是我们需要努力的方向。

首先,Hive已经用类SQL的语法封装了MapReduce过程,这个封装过程就是MapReduce的标准化的过程。

我们在做业务或者工具时,会针对场景用逻辑封装,这是第二层封装是在Hive之上的封装。在第二层封装时,我们要尽可能多的屏蔽Hive的细节,让接口单一化,低少灵活性,再次精简HQL的语法结构。只满足我们的系统要求,专用的接口。

在使用二次封装的接口时,我们已经可以不用知道Hive是什么, 更不用知道Hadoop是什么。我们只需要知道,SQL查询(SQL92标准),怎么写效率高,怎么写可以完成业务需要就可以了。

当我们完成了Hive的二次封装后,我们可以构建标准化的MapReduce开发过程。

通过上图的思路,我们可以统一企业内部各种应用对于Hive的依赖,并且当人员素质升高后,有可以剥离Hive,用更优秀的底层解决方案来替换,如果封装的接口的不变,甚至替换Hive时业务使用都不知道,我们已经替换了Hive。

这个过程是需要经历的,也是有意义的。当我在考虑构建Hadoop分析工具时,以Hive作为Hadoop访问接口是最有效的。

3). 有关Hive的运维:
因为Hive是基于Hadoop构建的,简单地说就是一套Hadoop的访问接口,Hive本身并没有太多的东西,所以运维上面我们注意下面几个问题就行了。

  • 1. 使用单独的数据库存储元数据
  • 2. 定义合理的表分区和键
  • 3. 设置合理的bucket数据量
  • 4. 进行表压缩
  • 5. 定义外部表使用规范
  • 6. 合理的控制Mapper, Reducer数量

4. Hive的使用案例

已经整理成文章的案例

  • Hive安装及使用攻略
  • Hive导入10G数据的测试
  • R利剑NoSQL系列文章 之 Hive
  • 用RHive从历史数据中提取逆回购信息

相关文章:
Hadoop家族产品学习路线图

转载请注明出处:
http://blog.fens.me/hadoop-hive-roadmap/

转载于:https://www.cnblogs.com/zlslch/p/6039358.html

【转】Hive学习路线图相关推荐

  1. Hadoop家族学习路线图--转载

    原文地址:http://blog.fens.me/hadoop-family-roadmap/ Sep 6, 2013 Tags: Hadoophadoop familyroadmap Comment ...

  2. Hadoop家族学习路线图

    Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, ...

  3. Hadoop的学习路线图

    目录: .1.Hadoop家族产品 2.Hadoop家族学习路线图 Hadoop家族产品 截止到2013年,根据cloudera的统计,Hadoop家族产品已经达到20个! 接下来,我把这20个产品, ...

  4. Hadoop 学习路线图

    主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项 ...

  5. [转]Hadoop家族学习路线图

    Hadoop家族学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, ...

  6. Mahout学习路线图

    Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, ...

  7. 大数据主要学些什么?(大数据学习路线图)

    在程序员的赛道上,也不只是有Java.Python和前端,大数据也是一个不错的就业方向. 不同于其他赛道,大数据这个岗位因为本身学习有难度,毕竟对学历有一定的要求(本科及以上),所以目前这个岗位的需求 ...

  8. 大数据学习路线图(知识体系整理)

    概述 本文针对想学习大数据技术从事大数据开发的人员总结了一套专业的学习路线图.大体可以分为以下个阶段七个阶段:入门知识学习阶段 → 基础程序语音学习 → Hadoop生态体系学习 → 分布式计算框架( ...

  9. 大数据学习路线图(2023完整版)适合收藏

    大数据开发是一门涉及处理和分析大规模数据的技术领域,随着大数据技术的不断发展和应用,对大数据开发人员的需求也在逐渐增加.就业前景相对较好,尤其在科技行业和数据驱动型企业中.大数据开发的前景还是有很多优 ...

最新文章

  1. 双一流博士导师整理:最新的计算机视觉学习路线(含时间分配建议)
  2. code vs 把所有行拼接成一行_关于SQL Server将一列的多行内容拼接成一行的问题讨论...
  3. linux下cmake命令行,深入理解CMake(1): CMake命令行参数
  4. deepin/win10双系统deepin下其他盘带锁解决
  5. OpenCASCADE:常用Inspector控件之树视图
  6. WinForm程序设计-根据工具栏上按钮的标题调用不同的功能表单
  7. mysql 查询分组平均数_9、mysql分组查询-----group by 和 having
  8. Nemo(Nightwish乐队)
  9. 苹果“炸场”发布会:搭载刘海屏的MacBook Pro来了,还有AirPods 3...
  10. 斐波那契序列 Fibonacci
  11. 用C++计算圆周长和面积
  12. Openpose官方编译及其训练模型
  13. 如何使用保存实例状态保存活动状态?
  14. InstallShield软件详解
  15. PG中XLOG日志结构
  16. 移动机器人传感器——GNSS
  17. 软件工程专业画图工具Jude的安装与Windows找不到javaw文件的解决办法
  18. 计算机三级网络技术笔记
  19. 查看临时表空间的使用情况(以此为准)
  20. 辐射强度、辐亮度、辐照度——一文搞定

热门文章

  1. EOS 执行合约报错, CODE: 3090003
  2. 怎么做网络营销在网站优化中能快速提升搜索引擎信任的方法!
  3. 网络营销激烈竞争下,网站被黑了怎么办?
  4. 网络营销外包中那些超有效的网络营销方法有进一步了解过吗?
  5. 浅析网站如何才能最大化获得用户访问量?
  6. 纽曼皮尔逊准则Matlab实现,基于聂曼-皮尔逊准则的skip模式快速选择方法
  7. 0x000000f怎么修复 win10_win10无法启动也能进安全模式?用这个方法就OK
  8. android 第三方加密软件,Android实用图文教程之代码混淆、第三方平台加固加密、渠道分发...
  9. 天龙固件U盘更新_硅格T18D量产工具下载_硅格T18D量产工具官方版下载[u盘格式化]...
  10. excel 科学计数法转换成文本完整显示_避免万次暴击,巧办法解决数字和文本之间的快速转化...