用命令行的方式运行Spark平台的wordcount项目
Created by Wang, Jerry, last modified on Sep 22, 2015
单机模式运行,即local模式
local模式运行非常简单,只要运行以下命令即可,假设当前目录是$SPARK_HOME
MASTER=local bin/spark-shell
“MASTER=local"就是表明当前运行在单机模式
scala> val textFile = sc.textFile(“README.md”)
val textFile = sc.textFile(“jerry.test”)
15/08/08 19:14:32 INFO MemoryStore: ensureFreeSpace(182712) called with curMem=664070, maxMem=278302556
15/08/08 19:14:32 INFO MemoryStore: Block broadcast_7 stored as values in memory (estimated size 178.4 KB, free 264.6 MB)
15/08/08 19:14:32 INFO MemoryStore: ensureFreeSpace(17237) called with curMem=846782, maxMem=278302556
15/08/08 19:14:32 INFO MemoryStore: Block broadcast_7_piece0 stored as bytes in memory (estimated size 16.8 KB, free 264.6 MB)
15/08/08 19:14:32 INFO BlockManagerInfo: Added broadcast_7_piece0 in memory on localhost:37219 (size: 16.8 KB, free: 265.3 MB)
15/08/08 19:14:32 INFO SparkContext: Created broadcast 7 from textFile at :21
textFile: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[12] at textFile at :21
then: textFile.filter(.contains(“Spark”)).count
or textFile.flatMap(.split(” ")).map((_, 1))
15/08/08 19:16:27 INFO FileInputFormat: Total input paths to process : 1
15/08/08 19:16:27 INFO SparkContext: Starting job: count at :24
15/08/08 19:16:27 INFO DAGScheduler: Got job 0 (count at :24) with 1 output partitions (allowLocal=false)
15/08/08 19:16:27 INFO DAGScheduler: Final stage: ResultStage 0(count at :24)
15/08/08 19:16:27 INFO DAGScheduler: Parents of final stage: List()
15/08/08 19:16:27 INFO DAGScheduler: Missing parents: List()
15/08/08 19:16:27 INFO DAGScheduler: Submitting ResultStage 0 (MapPartitionsRDD[2] at filter at :24), which has no missing parents
15/08/08 19:16:27 INFO MemoryStore: ensureFreeSpace(3184) called with curMem=156473, maxMem=278302556
15/08/08 19:16:27 INFO MemoryStore: Block broadcast_1 stored as values in memory (estimated size 3.1 KB, free 265.3 MB)
15/08/08 19:16:27 INFO MemoryStore: ensureFreeSpace(1855) called with curMem=159657, maxMem=278302556
15/08/08 19:16:27 INFO MemoryStore: Block broadcast_1_piece0 stored as bytes in memory (estimated size 1855.0 B, free 265.3 MB)
15/08/08 19:16:27 INFO BlockManagerInfo: Added broadcast_1_piece0 in memory on localhost:42648 (size: 1855.0 B, free: 265.4 MB)
15/08/08 19:16:27 INFO SparkContext: Created broadcast 1 from broadcast at DAGScheduler.scala:874
15/08/08 19:16:27 INFO DAGScheduler: Submitting 1 missing tasks from ResultStage 0 (MapPartitionsRDD[2] at filter at :24)
15/08/08 19:16:27 INFO TaskSchedulerImpl: Adding task set 0.0 with 1 tasks
15/08/08 19:16:27 INFO TaskSetManager: Starting task 0.0 in stage 0.0 (TID 0, localhost, PROCESS_LOCAL, 1415 bytes)
15/08/08 19:16:27 INFO Executor: Running task 0.0 in stage 0.0 (TID 0)
15/08/08 19:16:27 INFO HadoopRDD: Input split: file:/root/devExpert/spark-1.4.1/README.md:0+3624
15/08/08 19:16:27 INFO deprecation: mapred.tip.id is deprecated. Instead, use mapreduce.task.id
15/08/08 19:16:27 INFO deprecation: mapred.task.id is deprecated. Instead, use mapreduce.task.attempt.id
15/08/08 19:16:27 INFO deprecation: mapred.task.is.map is deprecated. Instead, use mapreduce.task.ismap
15/08/08 19:16:27 INFO deprecation: mapred.task.partition is deprecated. Instead, use mapreduce.task.partition
15/08/08 19:16:27 INFO deprecation: mapred.job.id is deprecated. Instead, use mapreduce.job.id
15/08/08 19:16:27 INFO Executor: Finished task 0.0 in stage 0.0 (TID 0). 1830 bytes result sent to driver
15/08/08 19:16:27 INFO TaskSetManager: Finished task 0.0 in stage 0.0 (TID 0) in 80 ms on localhost (1/1)
15/08/08 19:16:27 INFO TaskSchedulerImpl: Removed TaskSet 0.0, whose tasks have all completed, from pool
15/08/08 19:16:27 INFO DAGScheduler: ResultStage 0 (count at :24) finished in 0.093 s
15/08/08 19:16:27 INFO DAGScheduler: Job 0 finished: count at :24, took 0.176689 s
res0: Long = 19
用命令行的方式运行Spark平台的wordcount项目相关推荐
- 以命令行的方式运行activity
以命令行的方式运行activity,可以直接运行你想要运行的那个activity,不必从第一个activity开始 1. <activity android:name=".camera ...
- 如何使用 kubectl 通过命令行的方式操作 SAP Kyma
Kyma 运行时就是 Kubernetes cluster. To manage resources and configurations from the command line, the too ...
- Soot 命令行或程序运行常见问题
Soot 命令行或程序运行常见问题 文章目录 Soot 命令行或程序运行常见问题 前言 一.soot.SootResolver$SootClassNotFoundException: 原因:没有提供S ...
- 如何在Terminal命令行模式下运行Objective-C
一般Objective-C的代码都在Xcode中调试,今天实验了下如何在命令行模式下运行,还是比较简单的,记录分享一下. File: xxd.h #include <Foundation/Fou ...
- windows server 2008 R2 命令行的方式创建用户、设置密码
一.使用命令行的方式创建用户.设置密码 (1)标准格式: net user username password / add 例如:建立一个名为lijunxuan.密码为Abc_123的用户 net ...
- android studio shell 命令行自动打包(mac 平台)
android studio shell 命令行自动打包(mac 平台) 作者 CrazySongHang 关注 2015.04.10 22:56* 字数 494 阅读 4165评论 1喜欢 2 如果 ...
- 在命令行cmd中运行带相对路径的py脚本时, 找不到路径的解决方案
症状: 直接运行py文件正常, 在命令行cmd中运行则报错 报错原因: 工作路径 与 脚本文件存放路径不统一 解决方案一: 控制台工作路径切换为文件所在路径: cd py文件所在路径 解决方案二: 在 ...
- Windows在cmd命令行环境下运行c程序
现在有许多便利的编译器,例如DevC++,sublime,vscode等等,在这些编译器里面我们添加必要的插件就可以直接运行C语言程序.但是还有一种我们可以采取的普适的运行C程序的方法--在cmd命令 ...
- 命令行中编译运行C/C++程序(多个)
此处运行环境是在Windos下,运行cmd命令进入DOS界面,Linux中的运行过程有做说明. 首先,如果想在DOS窗口中进行C/C++代码的编译,则需要先配置gcc的环境变量 1.使用g++进行编译 ...
最新文章
- android 访问http地址吗,浅谈android访问http原理
- Python学习笔记(八)—使用正则获取网页中所需要的信息。
- Windows下Node.js开发入门(1)
- 自动化监控--zabbix中的邮件报警通知详解
- 解析IntelliJ IDEA内部设计
- RedHat Satellite 弃 MongoDB ,全面改用 PostgreSQL
- ZigZag Conversion leetcode java
- 收藏!企业数据安全防护5条建议
- 叮咚酒店营销版小程序v8.5.8+前端
- PHP程序员最易犯10种错误
- cassendra数据模型
- 宏正ATEN推出ALTUSEN全系列IP-Based远程机房管理方案
- 如何在函数式编程中存在时间函数?
- java的gui的design模式怎么打开_手机越用越卡怎么办?打开这五个隐藏按钮,1分钟解决卡顿问题...
- 小米科技面试题-互联网老辛整理
- 电脑能正常上网百度,但是网络显示无Internet
- python(opencv) SVM 测试使用
- 关于JVM参数-XX:SurvivorRatio的理解
- 本题要求实现一个函数,对给定平面任意两点坐标(x 1​ ,y 1​ )和(x 2​ ,y 2​ ),求这两点之间的距离。
- 解决:控制台使用nvm控制node版本时出现exit status 1与exit status 145
热门文章
- 有用的SQL 语句(转)
- Vista下与移动设备的同步笔记
- JavaSE学习之IO流使用技巧
- VS2010/MFC编程入门之二十三(常用控件:按钮控件的编程实例)
- React之mockjs+sass+生命周期函数
- 前端之路(一)之W3C是什么?
- JVM调优总结(二)
- 第三次学JAVA再学不好就吃翔(part116)--同步代码块
- java 获取光标_如何在java中使用Windows API获取当前鼠标光标类型?
- 关服了的手游怎么进去_如果手游彻底停服了的话,我的二次元“老婆”们怎么办?...