java list wordcount,初试spark java WordCount

初始环境：OS X 10.10.5

准备：boot2docker

进入boot2docker后安装 docker-spark 地址： https://github.com/sequenceiq/docker-spark 里面有很详细的介绍

我启动这个镜像的命令是

docker run -it -p 8088:8088 -p 8080:8080 -p 9000:9000 -p 50070:50070 -p 8042:8042 -p 7077:7077 -p 4040:4040 -h sandbox sequenceiq/spark bash

还没大整明白，端口映射比较多

然后进入到下面的目录里

cd /usr/local/spark/examples/src/main/java/org/apache/spark/examples/

可以看到经典的JavaWordCount.java 的代码

我们在idea中建立一个JAVA的maven工程，只有一个依赖如下

org.apache.spark

spark-core_2.10

1.6.0

将上面的代码JavaWordCount代码复制出来

打包前有一个地方需要注意下，勾选红框

然后在out目录下把跟module同名的jar文件上传到docker-spark中

准备测试文件：

随便建一个文本文件

然后上传到hdfs中

先创建一个目录

hdfs dfs -mkdir testdata

然后上传测试文件

hdfs dfs -put 1.txt /user/root/testdata

我们使用单机Spark Standalone Mode的方式来运行

进入

/usr/local/spark-1.6.0-bin-hadoop2.6/sbin

启动master

./start-master.sh

启动slave

./start-slave.sh sandbox:7077

准备就绪，进入到上传的jar文件目录下运行

spark-submit --master spark://sandbox:7077 --name WordCountByDH --class com.dh.WordCount --executor-memory 1G --total-executor-cores 2 wc.jar /user/root/testdata/1.txt

这样你就能看到运行的结果了

问题：再idea下运行是遇到下面这个问题,有几个内部类找不到了，还没解决：

java list wordcount,初试spark java WordCount相关推荐

java spark 环境_在 IntelliJ IDEA 中配置 Spark(Java API) 运行环境
1. 新建Maven项目初始Maven项目完成后,初始的配置(pom.xml)如下: 2. 配置Maven 向项目里新建Spark Core库 xmlns:xsi="http://www. ...
eclipse编写wordcount提交spark运行
采用集成了scala的eclipse编写代码代码: package wordcountimport org.apache.spark.SparkConf import org.apache.spar ...
Spark之wordCount合集
1.groupBy 按照单词分组,同一个单词就会在一个组. mapValue根据单值(和键值对的value无关)计算出这个组的单词个数==>每个单词出现个数 def sparkWordCount ...
spark (java API) 在Intellij IDEA中开发并运行
Spark 程序开发,调试和运行,intellij idea开发Spark java程序. 分两部分,第一部分基于intellij idea开发Spark实例程序并在intellij IDEA中运行 ...
如何在Java应用里集成Spark MLlib训练好的模型做预测
前言昨天媛媛说,你是不是很久没写博客了.我说上一篇1.26号,昨天3.26号,刚好两个月,心中也略微有些愧疚.今天正好有个好朋友问,怎么在Java应用里集成Spark MLlib训练好的模型.在St ...
spark java 逻辑回归_逻辑回归分类技术分享，使用Java和Spark区分垃圾邮件
原标题:逻辑回归分类技术分享,使用Java和Spark区分垃圾邮件由于最近的工作原因,小鸟很久没给大家分享技术了.今天小鸟就给大家介绍一种比较火的机器学习算法,逻辑回归分类算法. 回归是一种监督式学 ...
spark java api通过run as java application运行的方法
先上代码: [python] view plain copy /* * Licensed to the Apache Software Foundation (ASF) under one or ...
从WordCount看Spark大数据处理的核心机制（2）
本文转自http://mp.weixin.qq.com/s?__biz=MzA5MTcxOTk5Mg==&mid=208059053&idx=3&sn=1157ab5db7bc ...
java 读取 tgz_java – 从Spark中的压缩中读取整个文本文件
我有以下问题:假设我有一个包含压缩目录的目录,其中包含存储在HDFS上的多个文件.我想创建一个包含T类型对象的RDD,即: context = new JavaSparkContext(conf); ...

java list wordcount,初试spark java WordCount

java list wordcount,初试spark java WordCount相关推荐

最新文章

热门文章