Spark 0.8 集群(CentOS6.4)-简单统计测试

环境:CentOS 6.4, hadoop-2.0.0-cdh4.2.0, JDK 1.6, spark-0.8.0-incubating-bin-cdh4.tar.gz,Scala 2.9.3

1. 安装、部署集群环境

参考前章《安装Spark 0.8集群(CentOS6.4) - 大数据之内存计算》

　2. 测试描述

使用在线测试数据生工具，动态生成如下json数据(名称DATA[1-9].json)：

{"id":10,"first_name":"Ralph","last_name":"Kennedy","country":"Colombia","ip_address":"12.211.41.162","email":"rkennedy@oyonder.net"},

{"id":11,"first_name":"Gary","last_name":"Cole","country":"Nepal","ip_address":"242.67.150.18","email":"gcole@browsebug.info"},

…

可以数据可以先生成100M左右，然后通过linux cp / cat工具进行数据复制、合并，产生不同大小数据，方便测试。

测试任务：

对所有*.json数据的ip地址进行简单统计，包括：ip地址总数统计，“241.*”ip地址段总数统计。将其上传到HDFS集群上

2.1启动 Spark 集群

在master上执行

$>cd ~/spark-0.8.0

$>bin/start-all.sh

检测进程是否启动

$> jps

11055 Jps

2313 SecondaryNameNode

2409 JobTracker

2152 NameNode

4822 Master

浏览master的web UI(默认http://localhost:8080). 这是你应该可以看到所有的word节点，以及他们的CPU个数和内存等信息。

　2.2运行spark-shell从HDFS读取文件并统计IP地址

// set the master node of spark cluster and runspark-shell

$> MASTER=spark://centos01:7077./spark-shell

// read the json data

$>val file = sc.textFile("hdfs://sdc/user/hadoop/In/DATA*.json")

// filter the json data

$>val ips = file.filter(line => line.contains("ip_address"))

// Count all the IP

$>ips.count()

// Count all the“241.*”IP

$>ips.filter(line => line.contains("241.")).count()

$>ips.filter(line => line.contains("241.")).collect()

2.3 运行结果

最新内容请见作者的GitHub页：http://qaseven.github.io/

Spark 0.8 集群(CentOS6.4)-简单统计测试相关推荐

分布式存储 CentOS6.5虚拟机环境搭建FastDFS-5.0.5集群
其实这是一篇来自:http://www.open-open.com/lib/view/open1435468300700.html 个人认为很适合新手参考的文章,感谢原创作者的努力. 分布式存储 Ce ...
记一次基于Hadoop 3.3.0 安装部署 Spark 3.0.0 分布式集群
一.基本信息官网 http://spark.apache.org/ Apache Spark 官方文档中文版(Spark 2.2.0) http://spark.apachecn.org/#/ Sp ...
elasticsearch7.0.1集群搭建(最后有ES6.7的配置)
** ES集群搭建 **: 说明:首先要讨论搭建几个集群,集群搭建很简单,只需要配置做好就ok; 一 : 在搭建集群之前,我们首先要了解一个es中的相关内容 cluster : 代表一个集群,集群中有 ...
redis-5.0.4集群部署
redis-5.0.4 集群搭建 redis-cluster介绍 1:redis是一个开源的key value存储系统,受到了广大互联网公司的青睐. 2:redis集群采用P2P模式,是完全去 ...
Spark On YARN 集群安装部署
2019独角兽企业重金招聘Python工程师标准>>> 最近毕设需要用到 Spark 集群,所以就记录下了部署的过程.我们知道 Spark 官方提供了三种集群部署方案: Standa ...
本地Spark连接远程集群Hive(Scala/Python)
精选30+云产品,助力企业轻松上云!>>> 点击蓝色"大数据每日哔哔"关注我加个"星标",第一时间获取大数据架构,实战经验摘要:本地Spa ...
手动搭建高可用的Redis5.0分片集群，从理论到实践，超详细
前言前一篇高可用的Redis主从复制集群,从理论到实践发布后,反响非常热烈.所以今天继续深入讲解redis集群的搭建和相关理论. 好吧,其实是因为上篇搭建的主从复制集群,还有一个实际问题不能解决 ...
Spark系列之Spark在不同集群中的架构
title: Spark系列第十二章 Spark在不同集群中的架构 Spark 注重建立良好的生态系统,它不仅支持多种外部文件存储系统,提供了多种多样的集群运行模式.部署在单台机器上时,既可以用 ...
搭建Spark On YARN集群
文章目录零.本讲学习目标一.Spark On YARN架构 (一)client提交方式 (二)cluster提交方式二.搭建Spark On YARN集群 (一)搭建Spark Standalo ...

Spark 0.8 集群(CentOS6.4)-简单统计测试

Spark 0.8 集群(CentOS6.4)-简单统计测试相关推荐

最新文章

热门文章