Zeppelin介绍

Apache Zeppelin提供了web版的类似ipython的notebook,用于做数据分析和可视化。背后可以接入不同的数据处理引擎,包括Spark, Hive, tajo等,原生支持Scala, Java, shell, markdown等。它的整体展现和使用形式和Databricks Cloud是一样的,就是来自于当时的demo。

Zeppelin可实现你所需要的: 
- 数据采集 
- 数据发现 
- 数据分析 
- 数据可视化和协作

支持多种语言,默认是scala(背后是spark shell),SparkSQL, Markdown 和 Shell。 
 
甚至可以添加自己的语言支持。如何写一个zeppelin解释器

Zeppelin特性

Apache Spark 集成

Zeppelin 提供了内置的 Apache Spark 集成。你不需要单独构建一个模块、插件或者库。 
Zeppelin的Spark集成提供了: 
- 自动引入SparkContext 和 SQLContext 
- 从本地文件系统或maven库载入运行时依赖的jar包。更多关于依赖载入器 
- 可取消job 和 展示job进度

数据可视化

一些基本的图表已经包含在Zeppelin中。可视化并不只限于SparkSQL查询,后端的任何语言的输出都可以被识别并可视化。 
Bank 

动态表格 
Zeppelin 可以在你的笔记本中动态地创建一些输入格式。 

协作 
Notebook 的 URL 可以在协作者间分享。 Zeppelin 然后可以实时广播任何变化,就像在 Google docs 中一样。 

发布 
Zeppelin提供了一个URL用来仅仅展示结果,那个页面不包括Zeppelin的菜单和按钮。这样,你可以轻易地将其作为一个iframe集成到你的网站。 

Zeppelin的安装部署

由于Zeppelin目前不提供binary安装包,所以这里Zeppelin的安装需要自己编译。 
这里可以参考Zeppelin Github和Install Zeppelin

准备工作

需要 
Java 1.7 
Tested on Mac OSX, Ubuntu 14.X, CentOS 6.X 
Maven (if you want to build from the source code) 
Node.js Package Manager

在Ubuntu环境下可以这样安装:

sudo apt-get update
sudo apt-get install openjdk-7-jdk
sudo apt-get install git
sudo apt-get install maven
sudo apt-get install npm
  • 1
  • 2
  • 3
  • 4
  • 5
  • 1
  • 2
  • 3
  • 4
  • 5

注意:这里的maven工具如果不是最新的源的话,可能只是maven2,zeppelin的编译需要maven3,不然一些工具的下载会受到影响,可以从maven官网下载二进制压缩包,直接使用。 
这里还需要node命令,apt-get安装npm时候会自动安装nodejs命令,这里只需要建立一个链接就可以:sudo ln -s /usr/bin/nodejs /usr/bin/node

zeppelin-web项目的安装配置

我在之前对zeppelin整个项目进行maven部署的时候总是出现zeppelin-web项目的失败,不得其解,参照网上的方法,对zeppelin-web项目进行单独的安装配置。 
这里每一步都很关键,我在这里的配置安装折腾了很多次,最终才能正常的完成安装,下面一一道来。

删除zeppelin-web项目的pom.xml下面给出的内容,换做手动安装:

<plugin><groupId>com.github.eirslett</groupId><artifactId>frontend-maven-plugin</artifactId><version>0.0.23</version><executions><execution><id>install node and npm</id><goals><goal>install-node-and-npm</goal></goals><configuration><nodeVersion>v0.10.18</nodeVersion><npmVersion>1.3.8</npmVersion></configuration></execution><execution><id>npm install</id><goals><goal>npm</goal></goals></execution><execution><id>bower install</id><goals><goal>bower</goal></goals><configuration><arguments>--allow-root install</arguments></configuration></execution><execution><id>grunt build</id><goals><goal>grunt</goal></goals><configuration><arguments>--no-color --force</arguments></configuration></execution></executions></plugin>
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27
  • 28
  • 29
  • 30
  • 31
  • 32
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • 40
  • 41
  • 42
  • 43
  • 44

手动安装步骤: 
1. 安装好npm和node 
2. 进入zeppelin-web目录下,执行npm install。它会根据package.json的描述安装一些grunt的组件,安装bower,然后再目录下生产一个node_modules目录。 
3. 执行bower –-allow-root install,会根据bower.json安装前段库依赖,有点类似于java的mvn。 
4. 执行grunt --no-color –-force,会根据Gruntfile.js整理web文件。 
第3、4步要注意,本来给定的bower和grunt文件中使用的"node/node"命令,因为使用maven自动安装时,会在当前目录下生成node目录,其中包含node命令。我们之前已经安装了nodejs命令,并新链接了命令node,所以这里需要将其修改为"node"。 
5. 执行mvn install -DskipTests,把web项目打包,在target目录下会生成war 
pom.xml在生成war包的时候,要参照dist\WEB-INF\web.xml文件,所以在执行该步骤之前,要明确zeppelin-web目录下由dist目录,才能最终生成正确的war包。

其他zeppelin项目的编译

其他项目的编译依照正常程序进行就可以,安装文档:http://zeppelin.incubator.apache.org/docs/install/install.html

根据自己的方式进行编译: 
Local mode: 
mvn install -DskipTests 
Cluster mode: 
mvn install -DskipTests -Dspark.version=1.1.0 -Dhadoop.version=2.2.0

配置

配置文件为环境变量文件(conf/zeppelin-env.sh)和Java属性文件(conf/zeppelin-site.xml)。根据自己的要求进行配置。

启动、关闭

启动、关闭Zeppelin进程命令为: 
bin/zeppelin-daemon.sh start 
bin/zeppelin-daemon.sh stop

参考资料

Apache Zeppelin安装及介绍

转载请注明作者Jason Ding及其出处 
GitCafe博客主页(http://jasonding1354.gitcafe.io/) 
Github博客主页(http://jasonding1354.github.io/) 
CSDN博客(http://blog.csdn.net/jasonding1354) 
简书主页(http://www.jianshu.com/users/2bd9b48f6ea8/latest_articles)

Google搜索jasonding1354进入我的博客主页

-------------

更多的Java,Angular,Android,大数据,J2EE,Python,数据库,Linux,Java架构师,:

http://www.cnblogs.com/zengmiaogen/p/7083694.html

Spark交互式分析平台Apache Zeppelin的安装相关推荐

  1. 【大数据】Spark开源REST服务--Apache Livy的安装和使用

    安装 前提:需要安装HADOOP/HDFS/YARN.SPARK等组件,并且配置环境变量 1. 下载livy安装包 从 livy官网下载界面 cd /opt wget https://dlcdn.ap ...

  2. 超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

    简介: 5分钟读懂 Databricks 数据洞察 ~ 更多详细信息可登录 Databricks 数据洞察 产品链接:https://www.aliyun.com/product/bigdata/sp ...

  3. Zeta:eBay 基于 Apache Spark 开发的新一代数据开发分析平台

    供稿 | eBay DSS Team 作者 | 田川晓阳 编辑 | 顾欣怡 本文4490字,预计阅读时间14分钟 导读 新一代数据开发分析平台Zeta由eBay DSS(Data Services a ...

  4. zeppelin k8s安装部署和基本使用教程(在线的分析工具)

    全栈工程师开发手册 (作者:栾鹏) 架构系列文章 官网地址: http://zeppelin.apache.org/docs/0.8.2/ k8s安装部署 官网地址:http://cwiki.apac ...

  5. Apache Zeppelin安装及介绍

    背景 Apache Zeppelin提供了web版的类似ipython的notebook,用于做数据分析和可视化.背后可以接入不同的数据处理引擎,包括spark, hive, tajo等,原生支持sc ...

  6. doris历程_基于 Apache Doris 的小米增长分析平台实践

    1.背景 随着小米互联网业务的发展,各个产品线利用用户行为数据对业务进行增长分析的需求越来越迫切.显然,让每个业务产品线都自己搭建一套增长分析系统,不仅成本高昂,也会导致效率低下.我们希望能有一款产品 ...

  7. spark项目实战:电商分析平台之各个范围Session步长、访问时长占比统计(需求一)

    spark项目实战:电商分析平台之各个范围Session步长.访问时长占比统计(需求一) 项目基本信息,架构,需要一览 各个范围Session步长.访问时长占比统计概述 各个范围Session步长.访 ...

  8. Apache Zeppelin:可能是开源届最好的Flink开发平台

    原文:https://www.codenong.com/cs106935099/ 这个集成有点类似后来dinky 开源项目. 如果你是Flink的学习者或者爱好者,除了学习Flink本身之外,你是否在 ...

  9. NBT:可重复交互式的微生物组分析平台QIIME 2(2021.4发布)

    QIIME 2021.4版本发布:https://docs.qiime2.org/2021.4/ 本文是软件介绍,接下来将更新软件中文使用教程 2010年发表于Nature Methods的QIIME ...

最新文章

  1. Python Socket编程基础篇
  2. redux middleware 源码分析
  3. 25岁以上程序员单身手册
  4. Pandas实战教程 | DataFrame连接 pd.concat()
  5. 04-String——课后作业1:字串加密
  6. w ndows无法识别usb,电脑无法识别usb设备的解决方法
  7. ActiveMQ –经纪人网络解释–第2部分
  8. 2048. 下一个更大的数值平衡数
  9. 00600 ora 关闭oracle_Oracle集群高可用故障切换
  10. 快来一起玩转LiteOS组件:Curl
  11. Win2K8R2IIS7命令添加服务器角色
  12. 如何将 KVM 异构虚拟机启动效率提升 6~10 倍?
  13. 使用Latex排版一篇IEEE Robotics and Automation Letters期刊文章
  14. 计算机毕业设计java+ssm酒店管理系统(源码+系统+mysql数据库+Lw文档)
  15. Windows 标准控件 ComboBox 的改造
  16. react类组件中父组件调用子组件函数
  17. Selenium实现全自动打字
  18. 计算机主机房的消防配置,计算机机房火灾报警及消防设施要求
  19. 助记词创建以太坊钱包源码_技术指南 | 以太坊钱包开发:生成账户地址、私钥、keystore、助记词...
  20. BSidesSF 2019 部分writeup

热门文章

  1. mysql 跨实例复制数据_社区投稿 | MySQL 跨实例 copy 大表解决方案
  2. 俄亥俄州立大学计算机科学转学成功,俄亥俄州立大学转学成功率83.38%!!
  3. Hello,My first blog!
  4. linux x86-64下,Linux x86_64下安装Flash Player 9
  5. java newfile() bug_java初学者小白?遇到BUG就慌了?有关java异常的十大问题详解!...
  6. php数组无限文类,php把无限级分类生成数组的类
  7. dbv mysql_MariaDB与MySQL对比 --- 对分布式事务的支持
  8. phpcms移动端和pc端_移动端调试大法
  9. qtcreator摄像头显示时间_三星Galaxy S11 +渲染器展现出巨大的相机凹凸和四边形曲面显示...
  10. linux对硬盘进行分区吗,Linux下如何对硬盘进行分区