初始环境:OS X 10.10.5

准备:boot2docker

进入boot2docker后安装 docker-spark  地址: https://github.com/sequenceiq/docker-spark 里面有很详细的介绍

我启动这个镜像的命令是

docker run -it -p 8088:8088 -p 8080:8080 -p 9000:9000 -p 50070:50070 -p 8042:8042 -p 7077:7077 -p 4040:4040 -h sandbox sequenceiq/spark bash

还没大整明白,端口映射比较多

然后进入到下面的目录里

cd /usr/local/spark/examples/src/main/java/org/apache/spark/examples/

可以看到经典的JavaWordCount.java 的代码

我们在idea中建立一个JAVA的maven工程,只有一个依赖如下

org.apache.spark

spark-core_2.10

1.6.0

将上面的代码JavaWordCount代码复制出来

打包前有一个地方需要注意下,勾选红框

然后在out目录下把跟module同名的jar文件上传到docker-spark中

准备测试文件:

随便建一个文本文件

然后上传到hdfs中

先创建一个目录

hdfs dfs -mkdir testdata

然后上传测试文件

hdfs dfs -put 1.txt /user/root/testdata

我们使用单机Spark Standalone Mode的方式来运行

进入

/usr/local/spark-1.6.0-bin-hadoop2.6/sbin

启动master

./start-master.sh

启动slave

./start-slave.sh sandbox:7077

准备就绪,进入到上传的jar文件目录下运行

spark-submit --master spark://sandbox:7077 --name WordCountByDH --class com.dh.WordCount --executor-memory 1G --total-executor-cores 2 wc.jar /user/root/testdata/1.txt

这样你就能看到运行的结果了

问题:再idea下运行是遇到下面这个问题,有几个内部类找不到了,还没解决:

java list wordcount,初试spark java WordCount相关推荐

  1. java spark 环境_在 IntelliJ IDEA 中配置 Spark(Java API) 运行环境

    1. 新建Maven项目 初始Maven项目完成后,初始的配置(pom.xml)如下: 2. 配置Maven 向项目里新建Spark Core库 xmlns:xsi="http://www. ...

  2. eclipse编写wordcount提交spark运行

    采用集成了scala的eclipse编写代码 代码: package wordcountimport org.apache.spark.SparkConf import org.apache.spar ...

  3. Spark之wordCount合集

    1.groupBy 按照单词分组,同一个单词就会在一个组. mapValue根据单值(和键值对的value无关)计算出这个组的单词个数==>每个单词出现个数 def sparkWordCount ...

  4. spark (java API) 在Intellij IDEA中开发并运行

    Spark 程序开发,调试和运行,intellij idea开发Spark java程序.  分两部分,第一部分基于intellij idea开发Spark实例程序并在intellij IDEA中运行 ...

  5. 如何在Java应用里集成Spark MLlib训练好的模型做预测

    前言 昨天媛媛说,你是不是很久没写博客了.我说上一篇1.26号,昨天3.26号,刚好两个月,心中也略微有些愧疚.今天正好有个好朋友问,怎么在Java应用里集成Spark MLlib训练好的模型.在St ...

  6. spark java 逻辑回归_逻辑回归分类技术分享,使用Java和Spark区分垃圾邮件

    原标题:逻辑回归分类技术分享,使用Java和Spark区分垃圾邮件 由于最近的工作原因,小鸟很久没给大家分享技术了.今天小鸟就给大家介绍一种比较火的机器学习算法,逻辑回归分类算法. 回归是一种监督式学 ...

  7. spark java api通过run as java application运行的方法

    先上代码: [python] view plain copy   /* * Licensed to the Apache Software Foundation (ASF) under one or  ...

  8. 从WordCount看Spark大数据处理的核心机制(2)

    本文转自http://mp.weixin.qq.com/s?__biz=MzA5MTcxOTk5Mg==&mid=208059053&idx=3&sn=1157ab5db7bc ...

  9. java 读取 tgz_java – 从Spark中的压缩中读取整个文本文件

    我有以下问题:假设我有一个包含压缩目录的目录,其中包含存储在HDFS上的多个文件.我想创建一个包含T类型对象的RDD,即: context = new JavaSparkContext(conf); ...

最新文章

  1. CSS中通过import方式导入的方法
  2. 数据库事务原理详解-事务的嵌套
  3. Python基础语法-三种函数特殊形参定义以及使用方式
  4. 架构师之路17年精选80篇
  5. 优秀Unix管理员的七个习惯
  6. 使用Navicat管理MySQL用户
  7. TwentyTwelve透明主题二次美化版
  8. 不是赚钱太难,妄想天上掉馅饼,才是导致贫穷的根源
  9. vue-cli项目中单文件组件引入bootstrap.js异常的解决方案
  10. 甲骨文将关闭Sun开源软件项目托管网站
  11. [转]使用Android-Studio 开发Android 程序
  12. JS的内建函数reduce
  13. SylixOS 网络文件系统 nfs 的使用
  14. ML之Spearman:Spearman相关系数(斯皮尔曼等级相关系数)的简介、案例应用之详细攻略
  15. 谷歌地球到底有多厉害?附查看高清卫星影像方法
  16. 压力测试TPS总是上不去
  17. MIUI patchrom拉取zip包出错的解决记录
  18. 码蹄集 - MT2095 · 曲径折跃
  19. 【虚拟化生态平台】虚拟化平台esxi挂载USB硬盘
  20. 鲲鹏云服务器运行python项目_鲲鹏云实验-Python+Jupyter机器学习基础环境

热门文章

  1. SQL Server数据库中、获得刚插入新记录的自动ID号
  2. MinGW 和 MSVC 下,使用 FILE 类型的一个奇怪的问题
  3. CNDO-INTGRL-SS-BINTGS-斯莱特轨道指数---递推方法
  4. 苯环的神经网络C6H6
  5. cookie文件是存放在服务器端,http - 服务器端cookie和客户端cookie之间有什么区别?...
  6. 将svn设置开机启动linux,ubuntu安装SVN并设置开机启动
  7. ado批量执行sql mysql_C++ 使用 ADO 批量操作数据库
  8. 【PC工具】更新github下载加速器,github项目辅助下载工具,github高速下载
  9. 【PC工具】winrar解压缩装机必备软件,winRAR5.70免费无广告
  10. 【LTE】LTEMIMO系统的MATLAB仿真