列出Spark中本地可用的所有文件名的最有效方法是什么?我正在使用Scala API,但是,Python也应该没问题。

解决方案

import org.apache.hadoop.fs。{FileSystem,FileUtil,Path}

import scala.collection.mutable.Stack

$ b $ val fs = FileSystem.get(sc.hadoopConfiguration)

var dirs = Stack [String]()

val files = scala.collection.mutable.ListBuffer.empty [String]

val fs = FileSystem.get(sc.hadoopConfiguration)

dirs.push("/ user / username /")

while(!dirs.isEmpty){

val status = fs.listStatus(new Path(dirs.pop()))

status.foreach(x => if(x .isDirectory)dirs.push(x.getPath.toString)else

files + = x.getPath.toString)

}

files.foreach(println)

< / code>

python spark hadoop_使用Scala或Python列出存储在Hadoop HDFS上的Spark群集中可用的所有文件?...相关推荐

  1. java mllib 算法_朴素贝叶斯算法原理及Spark MLlib实例(Scala/Java/Python)

    朴素贝叶斯 算法介绍: 朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法. 朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,在没有其它可用信息下,我 ...

  2. python卸载不了怎么办说目录有错_错误:无法在安装目录中创建或删除文件

    但是每当我运行这个命令时,就会出现以下错误wget https://bitbucket.org/pypa/setuptools/raw/bootstrap/ez_setup.py -O - | pyt ...

  3. Spark开发语言Scala语言

    Spark内核是由Scala语言开发的,因此使用Scala语言开发Spark应用程序是自然而然的事情.如果你对Scala语言还不太熟悉,可以阅读网络教程A Scala Tutorial for Jav ...

  4. python使用redis_使用Redis和Python构建自行车共享应用

    python使用redis 我经常出差. 我不是一个小汽车人,所以当我有空闲时间时,我更喜欢在城市周围散步或骑自行车. 我去过商务旅行的许多城市都有单车共享系统,可让您租几个小时的自行车. 这些系统中 ...

  5. 与 Hadoop 对比,如何看待 Spark 技术?

    转自:https://www.zhihu.com/question/26568496 与 Hadoop 对比,如何看待 Spark 技术? 75 个回答 用心阁 软件工程师 Hadoop 首先看一下H ...

  6. 与 Hadoop 对比,如何看待 Spark 技术

    http://www.zhihu.com/question/26568496 与 Hadoop 对比,如何看待 Spark 技术? 最近公司邀请来王家林老师来做培训,其浮夸的授课方式略接受不了.其强烈 ...

  7. 大数据的技术生态?Hadoop、Hive、Spark之间是什么关系?

    2019独角兽企业重金招聘Python工程师标准>>> 大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的.你可以把它比作 ...

  8. spark执行优化——依赖上传到HDFS二(-conf spark.yarn.dist.jars或者--jars 的使用)

    1.说明 之前整理过一篇类似文章,但是这个spark.yarn.jar配置的目录最好只是放spark jars目录下的jar包,如果放入其他的jar包,很大概率会有冲突,而且如果项目比较多,jar包引 ...

  9. scala和python的优缺点_基于Spark环境对比Python和Scala语言利弊

    在数据挖掘中,Python和Scala语言都是极受欢迎的,本文总结两种语言在Spark环境各自特点. 本文翻译自  https://www.dezyre.com/article/Scala-vs-Py ...

最新文章

  1. Python标准库queue模块原理浅析
  2. 每个人都有自己的人生节奏
  3. 空间三维坐标的旋转 理解与记忆
  4. JCO 自定义DestinationDataProvider
  5. C++ class实现双向循环链表(完整代码)
  6. 超60亿元,新华三领衔华为锐捷中兴中标中国移动高端路由器和交换机集采
  7. 快速学习javascript 整体架构方法
  8. python 66:re正则表达式5(全- tcy)
  9. UOS家庭版(21.2)安装SecureCRT(scrt-9.1.1-2638.ubuntu20-64.x86_64.deb)无法运行问题
  10. 程序员必备的10款工具软件!最后一款简直绝了!
  11. 基于RS485通讯总线的ModbusRtu协议C#上位机开发源码
  12. 斯坦福密码学-2-流密码steam_ciphers
  13. Java ques:java.lang.NoClassDefFoundError: org/junit/platform/engine/ConfigurationParameters
  14. 哇!大开脑洞!“绿协杯”东莞市第六届绿色建筑设计比赛【往期获奖作品回顾上篇】
  15. 微信小程序音乐播放器源码【包调试运行】
  16. Echart 画图表
  17. Key Points on Innovation from Peter Drucker
  18. prepay id为空php,微信公众号支付踩坑笔记
  19. 农民伯伯android,[同人]墨水儿哥哥乡下小山村的农民伯伯生活.avi
  20. 计算机二级python考试资料(1)

热门文章

  1. Node.js Event loop 图解
  2. pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host='files.pythonhosted.org',
  3. java - 求最大公约数和最小公倍数
  4. mysql建表指定引擎_请教mysql建表指定data directory 报错
  5. 孕妇能长期在计算机屏幕前工作吗,怀孕了在电脑前工作怎么办
  6. php请求api获取返回值,我用curl请求接口获取返回值,但是不成功,大神给看看怎么调取?...
  7. php issign为false,支付宝接口集成及错误排除
  8. SyntaxError: ‘return‘ outside function 在python里面的报错问题
  9. 软件工程--第一周学习进度
  10. bzoj 2245 [SDOI2011]工作安排【最小费用最大流】