环境:CentOS 6.4, hadoop-2.0.0-cdh4.2.0, JDK 1.6, spark-0.8.0-incubating-bin-cdh4.tar.gz,Scala 2.9.3
1. 安装、部署集群环境
参考前章《安装Spark 0.8集群(CentOS6.4) - 大数据之内存计算》
 2. 测试描述
使用在线测试数据生工具,动态生成如下json数据(名称DATA[1-9].json):
{"id":10,"first_name":"Ralph","last_name":"Kennedy","country":"Colombia","ip_address":"12.211.41.162","email":"rkennedy@oyonder.net"},
{"id":11,"first_name":"Gary","last_name":"Cole","country":"Nepal","ip_address":"242.67.150.18","email":"gcole@browsebug.info"},
可以数据可以先生成100M左右,然后通过linux cp / cat工具进行数据复制、合并,产生不同大小数据,方便测试。
测试任务:
对所有*.json数据的ip地址进行简单统计,包括:ip地址总数统计,“241.*”ip地址段总数统计。将其上传到HDFS集群上
2.1启动 Spark 集群
在master上执行
$>cd ~/spark-0.8.0
$>bin/start-all.sh
检测进程是否启动
$> jps
11055 Jps
2313 SecondaryNameNode
2409 JobTracker
2152 NameNode
4822 Master
浏览master的web UI(默认http://localhost:8080). 这是你应该可以看到所有的word节点,以及他们的CPU个数和内存等信息。
 2.2运行spark-shell从HDFS读取文件并统计IP地址
// set the master node of spark cluster and runspark-shell
$> MASTER=spark://centos01:7077./spark-shell
// read the json data
$>val file = sc.textFile("hdfs://sdc/user/hadoop/In/DATA*.json")
// filter the json data
$>val ips = file.filter(line => line.contains("ip_address"))
// Count all the IP
$>ips.count()
// Count all the“241.*”IP
$>ips.filter(line => line.contains("241.")).count()
$>ips.filter(line => line.contains("241.")).collect()
2.3 运行结果
最新内容请见作者的GitHub页:http://qaseven.github.io/

Spark 0.8 集群(CentOS6.4)-简单统计测试相关推荐

  1. 分布式存储 CentOS6.5虚拟机环境搭建FastDFS-5.0.5集群

    其实这是一篇来自:http://www.open-open.com/lib/view/open1435468300700.html 个人认为很适合新手参考的文章,感谢原创作者的努力. 分布式存储 Ce ...

  2. 记一次 基于Hadoop 3.3.0 安装部署 Spark 3.0.0 分布式集群

    一.基本信息 官网 http://spark.apache.org/ Apache Spark 官方文档中文版(Spark 2.2.0) http://spark.apachecn.org/#/ Sp ...

  3. elasticsearch7.0.1集群搭建(最后有ES6.7的配置)

    ** ES集群搭建 **: 说明:首先要讨论搭建几个集群,集群搭建很简单,只需要配置做好就ok; 一 : 在搭建集群之前,我们首先要了解一个es中的相关内容 cluster : 代表一个集群,集群中有 ...

  4. redis-5.0.4集群部署

    redis-5.0.4 集群搭建 redis-cluster介绍 ​ 1:redis是一个开源的key value存储系统,受到了广大互联网公司的青睐. ​ 2:redis集群采用P2P模式,是完全去 ...

  5. Spark On YARN 集群安装部署

    2019独角兽企业重金招聘Python工程师标准>>> 最近毕设需要用到 Spark 集群,所以就记录下了部署的过程.我们知道 Spark 官方提供了三种集群部署方案: Standa ...

  6. 本地Spark连接远程集群Hive(Scala/Python)

    精选30+云产品,助力企业轻松上云!>>> 点击蓝色"大数据每日哔哔"关注我 加个"星标",第一时间获取大数据架构,实战经验 摘要:本地Spa ...

  7. 手动搭建高可用的Redis5.0分片集群,从理论到实践,超详细

    前言 前一篇 高可用的Redis主从复制集群,从理论到实践 发布后,反响非常热烈.所以今天继续深入讲解redis集群的搭建和相关理论. 好吧,其实是因为上篇搭建的主从复制集群,还有一个实际问题不能解决 ...

  8. Spark系列之Spark在不同集群中的架构

    title: Spark系列 第十二章 Spark在不同集群中的架构 ​ Spark 注重建立良好的生态系统,它不仅支持多种外部文件存储系统,提供了多种多样的集群运行模式.部署在单台机器上时,既可以用 ...

  9. 搭建Spark On YARN集群

    文章目录 零.本讲学习目标 一.Spark On YARN架构 (一)client提交方式 (二)cluster提交方式 二.搭建Spark On YARN集群 (一)搭建Spark Standalo ...

最新文章

  1. MySQL共享存储主备模式利用Keepalived实现双机高可用
  2. 【数据挖掘】数据挖掘算法 组件化思想 ( 模型或模式结构 | 数据挖掘任务 | 评分函数 | 搜索和优化算法 | 数据管理策略 )
  3. SQL Server 触发器学习总结
  4. Airtest自动化测试工具介绍
  5. angular组件-特殊的瀑布流(原创)
  6. It's highly recommended that you fix the library with 'execstack -c libfile', or link it with '-z
  7. google +按钮_如何禁用或改善Google的Google+集成
  8. 熊仔科技Steamduino PIC18F46J50主控板 部分原理图
  9. 转学到斯坦福大学计算机专业,斯坦福大学转学申请条件有哪些?
  10. Centos7 重启网卡
  11. aoi服务器图标删除后怎么找回,Windows10系统桌面图标被误删了如何找回【图文教程】...
  12. [2018.10.23 T1] 战争
  13. “绿坝—花季护航”使用全攻略
  14. App Store审核宝典
  15. uni-app如何发送请求调用接口
  16. oracle查询时间段差,关于oracle数据库中进行查询的时候出现效率特别差的一种情况...
  17. 【破解】PyCharm2018专业版激活(激活到2100年)
  18. 实现AlphaGo(二):快速构建棋盘和围棋规则
  19. dedecms安全漏洞之/include/common.inc.php漏洞解决办法
  20. 海丽宾雅水疗服务App技术支持

热门文章

  1. FireDAC 下的 Sqlite [4] - 创建数据库
  2. 【记录一个问题】cuda核函数可能存在栈溢出,导致main()函数退出后程序卡死30秒CUDA...
  3. hibernate 双向n-n
  4. hadoop学习之一
  5. JavaScript创建对象的方法
  6. Windows Embedded Compact 7网络编程概述(上)
  7. VS 2010 通过 Architecture创建UML类图设计
  8. HDOJ-2012 素数判定
  9. [转]建一个XMLHttpRequest对象池
  10. js中的DOM对象和jQuery对象的比较