java list wordcount,初试spark java WordCount
初始环境:OS X 10.10.5
准备:boot2docker
进入boot2docker后安装 docker-spark 地址: https://github.com/sequenceiq/docker-spark 里面有很详细的介绍
我启动这个镜像的命令是
docker run -it -p 8088:8088 -p 8080:8080 -p 9000:9000 -p 50070:50070 -p 8042:8042 -p 7077:7077 -p 4040:4040 -h sandbox sequenceiq/spark bash
还没大整明白,端口映射比较多
然后进入到下面的目录里
cd /usr/local/spark/examples/src/main/java/org/apache/spark/examples/
可以看到经典的JavaWordCount.java 的代码
我们在idea中建立一个JAVA的maven工程,只有一个依赖如下
org.apache.spark
spark-core_2.10
1.6.0
将上面的代码JavaWordCount代码复制出来
打包前有一个地方需要注意下,勾选红框
然后在out目录下把跟module同名的jar文件上传到docker-spark中
准备测试文件:
随便建一个文本文件
然后上传到hdfs中
先创建一个目录
hdfs dfs -mkdir testdata
然后上传测试文件
hdfs dfs -put 1.txt /user/root/testdata
我们使用单机Spark Standalone Mode的方式来运行
进入
/usr/local/spark-1.6.0-bin-hadoop2.6/sbin
启动master
./start-master.sh
启动slave
./start-slave.sh sandbox:7077
准备就绪,进入到上传的jar文件目录下运行
spark-submit --master spark://sandbox:7077 --name WordCountByDH --class com.dh.WordCount --executor-memory 1G --total-executor-cores 2 wc.jar /user/root/testdata/1.txt
这样你就能看到运行的结果了
问题:再idea下运行是遇到下面这个问题,有几个内部类找不到了,还没解决:
java list wordcount,初试spark java WordCount相关推荐
- java spark 环境_在 IntelliJ IDEA 中配置 Spark(Java API) 运行环境
1. 新建Maven项目 初始Maven项目完成后,初始的配置(pom.xml)如下: 2. 配置Maven 向项目里新建Spark Core库 xmlns:xsi="http://www. ...
- eclipse编写wordcount提交spark运行
采用集成了scala的eclipse编写代码 代码: package wordcountimport org.apache.spark.SparkConf import org.apache.spar ...
- Spark之wordCount合集
1.groupBy 按照单词分组,同一个单词就会在一个组. mapValue根据单值(和键值对的value无关)计算出这个组的单词个数==>每个单词出现个数 def sparkWordCount ...
- spark (java API) 在Intellij IDEA中开发并运行
Spark 程序开发,调试和运行,intellij idea开发Spark java程序. 分两部分,第一部分基于intellij idea开发Spark实例程序并在intellij IDEA中运行 ...
- 如何在Java应用里集成Spark MLlib训练好的模型做预测
前言 昨天媛媛说,你是不是很久没写博客了.我说上一篇1.26号,昨天3.26号,刚好两个月,心中也略微有些愧疚.今天正好有个好朋友问,怎么在Java应用里集成Spark MLlib训练好的模型.在St ...
- spark java 逻辑回归_逻辑回归分类技术分享,使用Java和Spark区分垃圾邮件
原标题:逻辑回归分类技术分享,使用Java和Spark区分垃圾邮件 由于最近的工作原因,小鸟很久没给大家分享技术了.今天小鸟就给大家介绍一种比较火的机器学习算法,逻辑回归分类算法. 回归是一种监督式学 ...
- spark java api通过run as java application运行的方法
先上代码: [python] view plain copy /* * Licensed to the Apache Software Foundation (ASF) under one or ...
- 从WordCount看Spark大数据处理的核心机制(2)
本文转自http://mp.weixin.qq.com/s?__biz=MzA5MTcxOTk5Mg==&mid=208059053&idx=3&sn=1157ab5db7bc ...
- java 读取 tgz_java – 从Spark中的压缩中读取整个文本文件
我有以下问题:假设我有一个包含压缩目录的目录,其中包含存储在HDFS上的多个文件.我想创建一个包含T类型对象的RDD,即: context = new JavaSparkContext(conf); ...
最新文章
- CSS中通过import方式导入的方法
- 数据库事务原理详解-事务的嵌套
- Python基础语法-三种函数特殊形参定义以及使用方式
- 架构师之路17年精选80篇
- 优秀Unix管理员的七个习惯
- 使用Navicat管理MySQL用户
- TwentyTwelve透明主题二次美化版
- 不是赚钱太难,妄想天上掉馅饼,才是导致贫穷的根源
- vue-cli项目中单文件组件引入bootstrap.js异常的解决方案
- 甲骨文将关闭Sun开源软件项目托管网站
- [转]使用Android-Studio 开发Android 程序
- JS的内建函数reduce
- SylixOS 网络文件系统 nfs 的使用
- ML之Spearman:Spearman相关系数(斯皮尔曼等级相关系数)的简介、案例应用之详细攻略
- 谷歌地球到底有多厉害?附查看高清卫星影像方法
- 压力测试TPS总是上不去
- MIUI patchrom拉取zip包出错的解决记录
- 码蹄集 - MT2095 · 曲径折跃
- 【虚拟化生态平台】虚拟化平台esxi挂载USB硬盘
- 鲲鹏云服务器运行python项目_鲲鹏云实验-Python+Jupyter机器学习基础环境
热门文章
- SQL Server数据库中、获得刚插入新记录的自动ID号
- MinGW 和 MSVC 下,使用 FILE 类型的一个奇怪的问题
- CNDO-INTGRL-SS-BINTGS-斯莱特轨道指数---递推方法
- 苯环的神经网络C6H6
- cookie文件是存放在服务器端,http - 服务器端cookie和客户端cookie之间有什么区别?...
- 将svn设置开机启动linux,ubuntu安装SVN并设置开机启动
- ado批量执行sql mysql_C++ 使用 ADO 批量操作数据库
- 【PC工具】更新github下载加速器,github项目辅助下载工具,github高速下载
- 【PC工具】winrar解压缩装机必备软件,winRAR5.70免费无广告
- 【LTE】LTEMIMO系统的MATLAB仿真