这一个月我都干了些什么……
工作上,还是一如既往的写bug并不亦乐乎的修bug。学习上,最近看了一些非专业书籍,时常在公众号(JackieZheng)上写点小感悟,我刚稍稍瞄了下,最近五篇居然都跟技术无关,看来我与本行业已经是渐行渐远了。
所以,趁着这篇博客,重拾自己,认清自己,要时刻谨记我是一名码农。不过,摸着良心说,最近的技术方面也是有所感悟和积累的,比如如何写好设计文档,如何使用延时队列,如何使用防刷技术等等。当然了,今天我们还是沿着“学习Spark”这条路继续走下去。


上篇主要介绍了在Mac下如何下载安装Hadoop、Scala和Spark并成功启动环境。文章结尾庆幸没有遇到大坑,事实证明不是没有遇到,只是时间还没到,这篇就介绍下自己遇到的各种坑。我不知道各位是否遇到过并能轻松解决,反正我是被这些小问题搞得精疲力尽,故在此总结以备忘。

1.1 Scala与Intellij集成报错

在Scala安装成功后,准备到Intellij上写Scala代码,发现Scala都配好了(关于如何配置,网上资料很多),结果运行Scala程序时报错。

错误:Error:scalac: Multiple 'scala-library*.jar' files (scala-library.jar, scala-library.jar, scala-library.jar) in Scala compiler classpath in Scala SDK scala-sdk-2.12.2

解决方法:在OverStackflow上找到了思路。在Intellij中打开project structure,删除已有的Scala的路径(我的Scala是安装在/usr/local/Cellar/scala/2.12.2路径下的),重新添加/usr/local/Cellar/scala/2.12.2/idea/lib目录即可。
改动前

改动后

1.2 Scala语法Intellij不认

在Intellij中写了一个Scala的HelloWorld,代码如下

/*** Created by jackie on 17/5/7.*/
package com.jackie.scala.s510object HelloWorld {def main(args: Array[String]): Unit = {println("hello world")println(increaseAnother(5));println(Array(1,2,3,4).map{(x:Int)=>x+1}.mkString(","));println(Array(1,2,3,4) map{(x:Int)=>x+1} mkString(","));println(Array(1,2,3,4) map{(x:Int)=>x+1} mkString(","));// test objectvar person = new Person()person.name_=("john") // name_=()对应java中的setter方法println("Person name:" + person.name)person.name = "Jackie"println("Person name:" + person.name)var mp = new MyPerson()mp.name_("alihaha")println("MyPerson name:" + person.name)var pwp = new PersonWithParam("Jackie", 18)println("PersonWithParam:" + pwp.toString())}def increaseAnother(x: Int): Int = x + 1}

运行的时候,报错mkString无法识别。

错误:mkString can't be resolved
解决方法:需要交代下我各个环境的版本参数,Intellij-14.0, jdk-8, scala-2.12.2。但是在Intellij中能选择的Scala最高版本只有2.11,所有后来将Intellij升级到2017.1版本,这时候还报错Error:scalac: Error: org.jetbrains.jps.incremental.scala.remote.ServerException,然后在Intellij中打开project structure,将scala由2.12.2换成2.11.7,问题解决。

1.3 Spark与Intellij集成的问题

Spark环境都安装好了,所以想在Intellij中运行Spark程序,但是在添加了Spark的相关依赖后,发现无法编译通过。
错误:Exception NoSuchMethodError: com.google.common.collect.MapMaker.keyEquivalence
解决方法:实现声明,之前在maven中一直引用的都是spark-core2.10,这时候报错,我定位问题出在Guava上,然后找到所有间接依赖了Guava的jar,都exclude,问题还是没有解决。期间添加了Spark的很多依赖,试了都不行,最后试了下Spark-core2.11,问题解决(有的时候版本的兼容性真的很坑)。


1.4 hadoop上传本地文件到HDFS

如果想将本地文件上传到HDFS,使用hadoop fs -put localDir hdfsDir,前提是保证hadoop启动。
错误:

jackie@jackies-MacBook-Pro:~|⇒  hadoop fs -put ~/Documents/doc/README.md /
17/05/13 10:56:39 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
17/05/13 10:56:40 WARN ipc.Client: Failed to connect to server: localhost/127.0.0.1:8020: try once and fail.
java.net.ConnectException: Connection refusedat sun.nio.ch.SocketChannelImpl.checkConnect(Native Method)at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:717)at org.apache.hadoop.net.SocketIOWithTimeout.connect(SocketIOWithTimeout.java:206)at org.apache.hadoop.net.NetUtils.connect(NetUtils.java:531)at org.apache.hadoop.net.NetUtils.connect(NetUtils.java:495)at org.apache.hadoop.ipc.Client$Connection.setupConnection(Client.java:681)at org.apache.hadoop.ipc.Client$Connection.setupIOstreams(Client.java:777)at org.apache.hadoop.ipc.Client$Connection.access$3500(Client.java:409)at org.apache.hadoop.ipc.Client.getConnection(Client.java:1542)at org.apache.hadoop.ipc.Client.call(Client.java:1373)at org.apache.hadoop.ipc.Client.call(Client.java:1337)at org.apache.hadoop.ipc.ProtobufRpcEngine$Invoker.invoke(ProtobufRpcEngine.java:227)at org.apache.hadoop.ipc.ProtobufRpcEngine$Invoker.invoke(ProtobufRpcEngine.java:116)at com.sun.proxy.$Proxy10.getFileInfo(Unknown Source)at org.apache.hadoop.hdfs.protocolPB.ClientNamenodeProtocolTranslatorPB.getFileInfo(ClientNamenodeProtocolTranslatorPB.java:787)at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)at java.lang.reflect.Method.invoke(Method.java:498)at org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java:398)at org.apache.hadoop.io.retry.RetryInvocationHandler$Call.invokeMethod(RetryInvocationHandler.java:163)at org.apache.hadoop.io.retry.RetryInvocationHandler$Call.invoke(RetryInvocationHandler.java:155)at org.apache.hadoop.io.retry.RetryInvocationHandler$Call.invokeOnce(RetryInvocationHandler.java:95)at org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHandler.java:335)at com.sun.proxy.$Proxy11.getFileInfo(Unknown Source)at org.apache.hadoop.hdfs.DFSClient.getFileInfo(DFSClient.java:1700)at org.apache.hadoop.hdfs.DistributedFileSystem$27.doCall(DistributedFileSystem.java:1436)at org.apache.hadoop.hdfs.DistributedFileSystem$27.doCall(DistributedFileSystem.java:1433)at org.apache.hadoop.fs.FileSystemLinkResolver.resolve(FileSystemLinkResolver.java:81)at org.apache.hadoop.hdfs.DistributedFileSystem.getFileStatus(DistributedFileSystem.java:1433)at org.apache.hadoop.fs.Globber.getFileStatus(Globber.java:64)at org.apache.hadoop.fs.Globber.doGlob(Globber.java:282)at org.apache.hadoop.fs.Globber.glob(Globber.java:148)at org.apache.hadoop.fs.FileSystem.globStatus(FileSystem.java:1685)at org.apache.hadoop.fs.shell.PathData.expandAsGlob(PathData.java:326)at org.apache.hadoop.fs.shell.CommandWithDestination.getRemoteDestination(CommandWithDestination.java:195)at org.apache.hadoop.fs.shell.CopyCommands$Put.processOptions(CopyCommands.java:256)at org.apache.hadoop.fs.shell.Command.run(Command.java:164)at org.apache.hadoop.fs.FsShell.run(FsShell.java:315)at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:76)at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:90)at org.apache.hadoop.fs.FsShell.main(FsShell.java:378)
put: Call From jackies-macbook-pro.local/192.168.73.56 to localhost:8020 failed on connection exception: java.net.ConnectException: Connection refused; For more details see:  http://wiki.apache.org/hadoop/ConnectionRefused

解决方法:进入hadoop安装目录(我的是/usr/local/Cellar/hadoop)进入sbin下执行./start-all.sh启动hadoop服务。

1.5 Spark启动

上篇在配置Spark时没有配置spark-defaults.conf文件,所以在Spark安装目录下(我的是/usr/local/Spark)启动./start-all.sh出错。
错误:

spark-shell
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel).
17/05/13 13:42:49 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
17/05/13 13:42:51 WARN StandaloneAppClient$ClientEndpoint: Failed to connect to master 192.168.73.56:7077
org.apache.spark.SparkException: Exception thrown in awaitResultat org.apache.spark.rpc.RpcTimeout$$anonfun$1.applyOrElse(RpcTimeout.scala:77)at org.apache.spark.rpc.RpcTimeout$$anonfun$1.applyOrElse(RpcTimeout.scala:75)at scala.runtime.AbstractPartialFunction.apply(AbstractPartialFunction.scala:36)at org.apache.spark.rpc.RpcTimeout$$anonfun$addMessageIfTimeout$1.applyOrElse(RpcTimeout.scala:59)at org.apache.spark.rpc.RpcTimeout$$anonfun$addMessageIfTimeout$1.applyOrElse(RpcTimeout.scala:59)at scala.PartialFunction$OrElse.apply(PartialFunction.scala:167)at org.apache.spark.rpc.RpcTimeout.awaitResult(RpcTimeout.scala:83)at org.apache.spark.rpc.RpcEnv.setupEndpointRefByURI(RpcEnv.scala:88)at org.apache.spark.rpc.RpcEnv.setupEndpointRef(RpcEnv.scala:96)at org.apache.spark.deploy.client.StandaloneAppClient$ClientEndpoint$$anonfun$tryRegisterAllMasters$1$$anon$1.run(StandaloneAppClient.scala:106)at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511)at java.util.concurrent.FutureTask.run(FutureTask.java:266)at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)at java.lang.Thread.run(Thread.java:745)
Caused by: java.io.IOException: Failed to connect to /192.168.73.56:7077

解决方法:将Spark安装目录下的conf中的spark-defaults.conf.template拷贝一份出来,重命名为spark-defaults.conf,按照https://sanwen8.cn/p/3bac5Bj.html配置好,再启动Spark,发现还是报错

https://sanwen8.cn/p/3bac5Bj.html Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel).
17/05/13 14:19:12 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
17/05/13 14:19:15 ERROR SparkContext: Error initializing SparkContext.
java.net.ConnectException: Call From jackies-MacBook-Pro.local/192.168.73.56 to 192.168.73.56:8021 failed on connection exception: java.net.ConnectException: Connection refused; For more details see:  http://wiki.apache.org/hadoop/ConnectionRefusedat sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)

于是按照StackOverflow,将spark-defaults.conf中的spark.eventLog.enabled由true改为false,之后再启动成功。
注意:这里我反复配置了localhost和自己的ip,来回切换,最终证明只要在/etc/hosts中配置好ip对应映射的名称,可以直接用名称即可,不用写ip,而且要保持hadoop中的配置文件和spark中的配置文件要一致,否则针对会精疲力尽。

1.6 将运算任务交给Spark运行的报错

运行下面的一个Demo程序

package com.jackie.scala.s513;import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import scala.Tuple2;import java.util.Arrays;
import java.util.Iterator;
import java.util.List;
import java.util.regex.Pattern;/*** Created by jackie on 17/5/13.*/
public class Simple
{private static final Pattern SPACE = Pattern.compile(" ");public static void main(String[] args) throws Exception {//创建一个RDD对象SparkConf conf=new SparkConf().setAppName("Simple").setMaster("local");//创建spark上下文对象,是数据的入口JavaSparkContext spark=new JavaSparkContext(conf);//获取数据源JavaRDD<String> lines = spark.textFile("hdfs://jackie:8020/");/*** 对于从数据源得到的DStream,用户可以在其基础上进行各种操作,* 对于当前时间窗口内从数据源得到的数据首先进行分割,* 然后利用Map和ReduceByKey方法进行计算,当然最后还有使用print()方法输出结果;*/JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {@Overridepublic Iterator<String> call(String s) {return Arrays.asList(SPACE.split(s)).iterator();}});//使用RDD的map和reduce方法进行计算JavaPairRDD<String, Integer> ones = words.mapToPair(new PairFunction<String, String, Integer>() {@Overridepublic Tuple2<String, Integer> call(String s) {return new Tuple2<String, Integer>(s, 1);}});JavaPairRDD<String, Integer> counts = ones.reduceByKey(new Function2<Integer, Integer, Integer>() {@Overridepublic Integer call(Integer i1, Integer i2) {return i1 + i2;}});List<Tuple2<String, Integer>> output = counts.collect();for (Tuple2<?,?> tuple : output) {//输出计算结果System.out.println(tuple._1() + ": " + tuple._2());}spark.stop();}
}

这个程序需要读取HDFS上根目录下的README.md文件,但是在此之前我执行了"hadoop namenode -format"(注意,这个操作引起了后面的一系列问题)。所以就准备重新使用hadoop fs -put localDir hdfsDir上传README.md,结果这时候报错
错误:

hadoop fs -put /Users/jackie/Documents/doc/README.md /
17/05/13 15:47:15 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
17/05/13 15:47:16 WARN hdfs.DataStreamer: DataStreamer Exception
org.apache.hadoop.ipc.RemoteException(java.io.IOException): File /README.md._COPYING_ could only be replicated to 0 nodes instead of minReplication (=1).  There are 0 datanode(s) running and no node(s) are excluded in this operation.at org.apache.hadoop.hdfs.server.blockmanagement.BlockManager.chooseTarget4NewBlock(BlockManager.java:1733)at org.apache.hadoop.hdfs.server.namenode.FSDirWriteFileOp.chooseTargetForNewBlock(FSDirWriteFileOp.java:265)at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.getAdditionalBlock(FSNamesystem.java:2496)at org.apache.hadoop.hdfs.server.namenode.NameNodeRpcServer.addBlock(NameNodeRpcServer.java:828)

后来发现是datanode没有启动,然后开始找datanode没有启动的原因,在这里http://www.aboutyun.com/thread-7931-1-1.html
文中解释:当我们执行文件系统格式化时,会在namenode数据文件夹(即配置文件中dfs.name.dir在本地系统的路径)中保存一个current/VERSION文件,记录namespaceID,标识了所格式化的 namenode的版本。如果我们频繁的格式化namenode,那么datanode中保存(即配置文件中dfs.data.dir在本地系统的路径)的current/VERSION文件只是你第一次格式化时保存的namenode的ID,因此就会造成datanode与namenode之间的id不一致。

解决方法:采取的做法是根据执行hadoop namenode –format得到成功的提示。

这时候再执行jps命令,我们就可以看到datanode了

类似的,同样是在执行hadoop fs -put /Users/jackie/Documents/doc/README.md /是报错如下

hadoop fs -put /Users/jackie/Documents/doc/README.md /
17/05/15 09:51:04 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
17/05/15 09:51:05 WARN ipc.Client: Failed to connect to server: jackie/192.168.73.56:8020: try once and fail.
java.net.ConnectException: Connection refusedat sun.nio.ch.SocketChannelImpl.checkConnect(Native Method)at sun.nio.ch.SocketChannelImpl.finishConnect(SocketChannelImpl.java:717)at org.apache.hadoop.net.SocketIOWithTimeout.connect(SocketIOWithTimeout.java:206)at org.apache.hadoop.net.NetUtils.connect(NetUtils.java:531)at org.apache.hadoop.net.NetUtils.connect(NetUtils.java:495)at org.apache.hadoop.ipc.Client$Connection.setupConnection(Client.java:681)at org.apache.hadoop.ipc.Client$Connection.setupIOstreams(Client.java:777)at org.apache.hadoop.ipc.Client$Connection.access$3500(Client.java:409)

一开始以为是ip的配置问题,但是反复修改无果,后来发现使用jps时,没有启动namenode,于是在网上找http://blog.csdn.net/bychjzh/article/details/7830508
于是在/usr/local/Cellar/hadoop/hdfs下删除原来在core-site.xml中配置的tmp目录,然后新建了hadoop_tmp目录,并在core-site.xml中修改成

<property><name>hadoop.tmp.dir</name>
<value>/usr/local/Cellar/hadoop/hdfs/hadoop_tmp</value><description>A base for other temporary directories.</description></property>

并执行hadoop namenode –format,最后在使用start-all.sh启动所有的服务,执行上传文件成功

如果您觉得阅读本文对您有帮助,请点一下“推荐”按钮,您的“推荐”将是我最大的写作动力!如果您想持续关注我的文章,请扫描二维码,关注JackieZheng的微信公众号,我会将我的文章推送给您,并和您一起分享我日常阅读过的优质文章。

转载于:https://www.cnblogs.com/bigdataZJ/p/hellospark2.html

学习Spark——那些让你精疲力尽的坑相关推荐

  1. 学习使用Visual studio 时碰到的坑

    学习使用Visual studio 时碰到的坑 文章目录 学习使用Visual studio 时碰到的坑 异常1:OpenCV中出现"Microsoft C++ 异常: cv::Except ...

  2. 那些年我们在spark SQL上踩过的坑

    做了一年延云YDB的开发,这一年在使用spark上真心踩了不少坑,总结一下,希望对大家有所帮助. spark 内存泄露 1.高并发情况下的内存泄露的具体表现 很遗憾,spark的设计架构并不是为了高并 ...

  3. 一起学习Spark入门

    操作系统:CentOS-7.8 Spark版本:2.4.4 本篇文章是一个Spark入门文章,在文章中首先会对Spark进行简单概述,帮助大家先认识Spark,然后会介绍Spark安装部署上的基础知识 ...

  4. 我在Windows系统搭建python的Hadoop+Spark环境时踩过的坑

    本人是一个最近正在研究链路预测的小白,读论文的时候有幸从导师那里获得了论文相关的算法代码,可是论文里面涉及到了spark和Hadoop,需要搭建环境,于是这只无脑的小白成功踏入了搭建Hadoop+sp ...

  5. spark学习-Spark算子Transformations和Action使用大全(Action章)

    spark学习-22-Spark算子Transformations和Action使用大全(Transformations章(一)) http://blog.csdn.net/qq_21383435/a ...

  6. spark学习-Spark算子Transformations和Action使用大全(Transformations章(二))

    spark学习-22-Spark算子Transformations和Action使用大全(Transformations章(一)) http://blog.csdn.net/qq_21383435/a ...

  7. spark学习-Spark算子Transformations和Action使用大全(Transformations章(一))

    spark学习-22-Spark算子Transformations和Action使用大全(Transformations章(一)) http://blog.csdn.net/qq_21383435/a ...

  8. spark学习-Spark的Core理解

    1.为什么理解它? 有一次我要跑一个任务,spark-submit提交的任务,但是它总是处于ACCEPED等待接受的状态,以前遇到这个问题,这个是内存不够引起的 Spark学习-SparkSQL–05 ...

  9. Greenplum——基于Greenplum-Spark Connector的Spark脚本开发及遇到的坑

    参考博客: Greenplum-Spark Connector 介绍_Greenplum中文社区的博客-CSDN博客 比pgload更快更方便写入大数据量至Greenplum的Greenplum-Sp ...

最新文章

  1. python列出文件夹所有文件_python-列出所有目录及子目录文件
  2. Tesla AutoPilot纯视觉方案解析
  3. Python爬虫应用实战案例-jsonpath在爬虫中的应用,爬取照片信息
  4. SLAM | 三维重建方法之KinectFusion与ElasticFusion详解
  5. 有趣又有用的皮托定理!
  6. 只有学霸才懂的学习技巧,看完脑洞大开,绝对涨姿势!
  7. C++ 学习基础篇(一)—— C++与C 的区别
  8. Kali Linux安装Remmina无法加载RDP插件
  9. PLSQL Developer 安装与配置
  10. 美国一公司起诉苹果 指控iPhone中“个人热点”技术侵犯其专利
  11. sqlite 附加和分离数据库
  12. Python数据结构与算法(2.7)——跳表
  13. 百度搜索移动端流量词热度统计方法
  14. 微信小游戏上传设置成体验版或者提交审核
  15. 《伯克毕生发展心理学2》
  16. z-index取值范围
  17. git merge工具 meld
  18. CVX约束中需要使用一些中间变量该怎么办
  19. collection.get:fail -502005 database collection not exists. [ResourceNotFound] Db or Table not exist
  20. 物联网安全期末知识点总结

热门文章

  1. Android 4.1新增功能特性
  2. localToGlobal 本地转换全局
  3. 重新绘制TabControl的Tabpage标签,添加图片及关闭按钮
  4. Spring项目中使用webservice实现h5的websocket通信
  5. 吴钩:打开宋代的“隐藏玩法”
  6. html5手机端三级联动城市选择代码,省市县三级联动(jQuery手机端收货地址选择地区代码)...
  7. httpservletrequest 设置请求头_请求和常用对象
  8. centos命令行安装mysql_Centos下安装mysql 总结
  9. 小球进盒子C语言,N个小球放进M个盒子算法-Go语言中文社区
  10. linux网站465端口是什么端口,发送端口25,465,587端口疑问解答