大数据分析 es hive

每个JJ Abrams的电视连续剧疑犯追踪从主要人物芬奇先生一个下列叙述情节开始:“ 你是被监视。 政府拥有一个秘密系统-每天每天每小时都会对您进行监视的机器。 我知道是因为...我建造了它。 “当然,我们的技术人员知道得更多。 庞大的电气和软件工程师团队需要花费多年的时间来制造如此高性能的机器,而预算却是无法想象的……或者不是吗? 等一下,我们有了Hadoop ! 现在,由于有了Hadoop ,我们每个人都可以成为Finch先生,预算不高。

在JCG文章“ Hadoop模式介绍-独立,伪分布式,分布式 ”中,JCG合作伙伴Rahul Patodi解释了如何设置Hadoop 。 Hadoop项目已经产生了许多用于分析半结构化数据的工具,但是Hive也许是其中最直观的工具,因为它允许具有SQL背景的任何人提交被描述为SQL查询的MapReduce作业。 Hive可以从命令行界面执行,也可以在服务器模式下运行,而Thrift客户端充当JDBC / ODBC接口,可以访问数据分析和报告应用程序。

在本文中,我们将设置一个Hive服务器,创建一个表,使用文本文件中的数据加载它,然后使用iReport创建一个Jasper Resport。 Jasper报表在Hive服务器上执行SQL查询,然后将其转换为Hadoop执行的MapReduce作业。

注意:我使用的是运行OpenSuSE 12.1 Linux且安装了MySQL 5.5的Hadoop版本0.20.205,Hive版本0.7.1和iReport版本4.5。

假设你已经安装了Hadoop的下载和安装蜂巢下面的蜂巢 入门维基指令。 默认情况下, Hive是在独立Hadoop模式下运行的CLI模式下安装的。

制作多用户Hive Metastore

默认的Hive安装使用derby嵌入式数据库作为其元存储。 Metastore是Hive维护我们要通过SQL访问的数据的描述的地方。 为了使metastore同时可以从许多用户访问,必须将其移动到独立数据库中。 这是安装MySQL Metastore的方法。

  1. 将MySQL JDBC驱动程序 jar文件复制到〜/ hive-0.7.1-bin / lib目录
  2. 更改〜/ hive-0.7.1-bin / conf目录中的文件hive-default.xml中的以下属性:
    <property><name>javax.jdo.option.ConnectionURL</name><value>jdbc:mysql://hyperion/metastore?createDatabaseIfNotExist=true</value><description>JDBC connect string for a JDBC metastore</description>
    </property><property><name>javax.jdo.option.ConnectionDriverName</name><value>com.mysql.jdbc.Driver</value><description>Driver class name for a JDBC metastore</description>
    </property><property><name>javax.jdo.option.ConnectionUserName</name><value>foo</value><description>Username to connect to the database</description>
    </property><property><name>javax.jdo.option.ConnectionPassword</name><value>bar</value><description>Password to connect to the database</description>
    </property>
  3. 使用MySQL工作台或MySQL命令行实用程序使用latin1字符集创建架构。 如果Hive找不到模式,它将使用MySQL的默认字符集自行创建模式。 在我的情况下,这是UTF-8,并生成了jdbc错误。 如果要使用命令行实用程序,请键入:
    mysql> CREATE DATABASE  IF NOT EXISTS `metastore` DEFAULT CHARACTER SET latin1 COLLATE latin1_bin;
  4. 在命令提示符下键入Hive以输入Hive CLI并键入:
    hive> SHOW TABLES;
    OK
    testlines
    Time taken: 3.654 seconds
    hive>

    这将填充您新创建的metastore模式。 如果看到任何错误,请检查hive-default.xml配置,并确保您的数据库模式被命名为“ metastore”,其中latin1作为默认字符集。



现在让我们用一些数据填充Hadoop Hive

我们只创建两个名为file01file02的文本文件,每个文件包含:

file01
你好世界再见世界
大家好再见大家

file02
您好Hadoop再见Hadoop
大家好,大家再见

将这些文件从本地文件系统复制到HDFS:

$ hadoop fs -mkdir HiveExample
$ hadoop fs -copyFromLocal ~/file* /user/ssake/HiveExample

转到Hive CLI并创建一个名为testlines的表,该表将在字符串数组中包含每一行的单词:

hive> create table testlines (line array<string>) row format delimited collection items terminated by ' ';

将文本文件加载到Hive中:

hive> load data inpath "/user/ssake/HiveExample/file01" INTO table testlines;
hive> load data inpath "/user/ssake/HiveExample/file02" INTO table testlines;

检查测试行现在是否包含每行的单词:

hive> select * from testlines;
OK
["Hello","World","Bye","World"]
["Hello","Everybody","Bye","Everybody"]
["Hello","Hadoop","Goodbye","Hadoop"]
["Hello","Everybody","Goodbye","Everybody"]
Time taken: 0.21 seconds

现在我们有了一个包含数据的Hive,我们可以在端口10000中将其作为服务器运行,这通常是运行hive服务器的方式:

$ HIVE_PORT=10000
$ hive --service hiveserver

通过此设置,可能有多个Thrift客户端访问我们的Hive服务器。 但是,根据Apache Hive博客 ,多线程Hive功能尚未经过全面测试,因此每个Thrift客户端使用单独的端口和Hive实例更为安全。

创建“字数统计”报告

iReport 4.5支持配置单元数据源,因此让我们使用它来创建一个以配置单元服务器作为数据源运行的报表:

1.创建一个连接到配置单元服务器的数据源

2.使用报告向导生成报告

3.在“ HiveQL查询”输入框中键入以下内容:

select word,count(word) from testlines lateral view explode(line) words as word group by word

让我们简要解释一下上述查询的作用:

我们的源表“ testlines”表只有一个名为“ line”的列,其中包含字符串数组形式的数据。 每个字符串数组代表在导入文件“ file01 ”和“ file02 ”中找到的句子中的单词。

为了正确计算所有输入文件中每个不同单词的出现次数,我们必须将源表中的字符串数组“分解”为一个新单词,其中应包含每个单词。 为此,我们将“侧视图”与HiveQL命令“ explode()”结合使用,如上所示。

在上面的HiveQL查询中,我们创建了一个名为“ words”的新图标表,该表具有一个名为“ word”的列,其中包含从“ testlines”表的每个字符串数组中找到的所有单词。

4.单击…按钮以选择所有文件,然后单击下一步。

5.在设计器视图中,单击“预览”选项卡以执行HiveQL报告

这是我们的报告:

现在,您已经准备好构建使用熟悉的JDBC接口访问Hadoop数据的应用程序!

参考:我们的W4G合作伙伴 Spyros Sakellariou 使用Hive和iReport进行大数据分析

翻译自: https://www.javacodegeeks.com/2012/02/big-data-analytics-with-hive-and.html

大数据分析 es hive

大数据分析 es hive_使用Hive和iReport进行大数据分析相关推荐

  1. 使用Hive和iReport进行大数据分析

    每个JJ Abrams的电视连续剧疑犯追踪从主要人物芬奇先生一个下列叙述情节开始:" 你是被监视. 政府拥有一个秘密系统-每天每天每小时都会对您进行监视的机器. 我知道是因为...我建造了它 ...

  2. 达观数据分析平台架构和Hive实践

    http://www.infoq.com/cn/articles/hadoop-ten-years-part03 编者按:Hadoop于2006年1月28日诞生,至今已有10年,它改变了企业对数据的存 ...

  3. hive udaf_谈笑间学会大数据初识Hive

    你可以不够优秀,但不要甘于平凡 Hive 是什么呢? hive是基于Hadoop构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据:可以将结构化的数 ...

  4. 大数据学习之路-Hive

    Hive 1. Hive基本概念 1.1 什么是Hive 1.2 Hive的优缺点 1.2.1 优点 1.2.2 缺点 1.3 Hive架构原理 1.4 Hive和 数据库比较 1.4.1 查询语言 ...

  5. 大数据系列之数据仓库Hive命令使用及JDBC连接

    Hive系列博文,持续更新~~~ 大数据系列之数据仓库Hive原理 大数据系列之数据仓库Hive安装 大数据系列之数据仓库Hive中分区Partition如何使用 大数据系列之数据仓库Hive命令使用 ...

  6. 图解大数据 | 海量数据库查询-Hive与HBase详解

    Python微信订餐小程序课程视频 https://edu.csdn.net/course/detail/36074 Python实战量化交易理财系统 https://edu.csdn.net/cou ...

  7. hive基于新浪微博的日志数据分析——项目及源码

    有需要本项目的全套资源资源以及部署服务可以私信博主!!! 该系统的目的是利用大数据技术,分析新浪微博的日志数据,从而探索用户行为.内容传播和移动设备等各个层面的特性和动向.这项研究为公司和个人在制定营 ...

  8. 大数据技术Hbase 和 Hive 详解

    目录 两者的特点 各自的限制 应用场景 大数据技术Hbase 和 Hive 详解, 今天给大家介绍一下关于零基础学习大数据视频教程之HBASE 和 HIVE 是多么重要的技术,那么两者有什么区别呢 ? ...

  9. 试图加载格式不正确的程序_好程序员大数据学习路线之hive存储格式

    好程序员大数据学习路线之hive存储格式,hive的存储格式通常是三种:textfile . sequencefile . rcfile . orc .自定义 set hive.default.fil ...

最新文章

  1. VC模仿超炫QQ界面的实现
  2. SVN代码冲突解决方案小集合
  3. python基础代码事例-python基础示例
  4. Windows7无损分区
  5. 常见的两个面试题以及面试的心态
  6. 计算机特殊符号大全集,{精心收藏}电脑输入特殊字符大全
  7. 「职业生涯规划」真的有必要做吗?
  8. HDU 1022 Train Problem I stack 基础题
  9. java 权限管理都用什么_java权限管理框架有哪些?
  10. 班迪录屏算法注册机!
  11. Decorate 模式
  12. 基于80x86汇编的俄罗斯方块游戏
  13. 【单片机】msp430几种不同开发平台的对比
  14. 三维空间刚体运动——(1)齐次坐标与旋转矩阵
  15. 自定义动画实现左右摇摆
  16. 计算机视觉经典书目清单
  17. 搭建 ownCloud 私有云教程
  18. JQuery超级浓缩版HQuery v1.0版
  19. Tomcat 降权操作
  20. arcgis将矢量线转化成面,并计算面的面积

热门文章

  1. 最近流行的12个笑话,好笑又有道理
  2. jquery对象和DOM对象的相互转换详解
  3. php面试心得,php面试题的总结
  4. springboot 订单重复提交_瞬间几千次的重复提交,我用Spring Boot+Redis扛住了
  5. dom4j-cookbook
  6. JavaWeb项目:简易小米商城系统
  7. java 正则表达式 开头_如何在Java中修复表达式的非法开头
  8. 部署被测软件应用和中间件_使用FlexDeploy对融合中间件应用程序进行自动化软件测试...
  9. jar 、war、ear_在命令行上操作JAR,WAR和EAR
  10. junit:junit_简而言之,JUnit:Hello World