最近在公司需要计算手机信令数据 但是每次spark读取文件的时候都是把当天24小时从头到尾读取一遍 非常耗时,在一步操作中处理批量文件,这个要求很常见。举例来说,处理日志的MapReduce作业可能会分析一个月的文件,这些文件被包含在大量目录中。Hadoop有一个通配的操作,可以方便地使用通配符在一个表达式中核对多个文件,不需要列举每个文件和目录来指定输入如下图所示:

点击打开链接



例如 我想读取 hdfs://master:9000/population/unicom_phone/pekin/20150701/02

和hdfs://master:9000/population/unicom_phone/pekin/20150701/03的文件  

也就是我想读20150701 下的02 和03文件 通过通配符可以写成如下:

hdfs://master:9000/population/unicom_phone/pekin/20150701/0[2-3]

再次执行 计算速度快了四倍。

Fei joe

点击打开链接

Hadoop 和 spark 读取多个文件通配符规则(正则表达式)joe相关推荐

  1. Spark读取Hive数据的两种方式与保存数据到HDFS

    Spark读取Hive数据的两种方式与保存数据到HDFS Spark读取Hive数据的方式主要有两种 1. 通过访问hive metastore的方式,这种方式通过访问hive的metastore元数 ...

  2. 在多台云服务器上的Hadoop和Spark环境配置

    1.安装jdk1.8(下载地址): https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.ht ...

  3. Linux | 文件比较 / vi编辑与使用 / 文件通配符

    Linux专栏主要系统介绍了在Linux的开发和应用过程中所需要的各种基础知识和相关命令,共分为七部分. 1.  Linux | 系统状态查看 / 文本文件处理命令_菜鸟的人工智能之路的博客-CSDN ...

  4. spark读取文件源码分析-2

    文章目录 1. job1产生时机源码分析 1. DataSoure.getOrInferFileFormatSchema() 2. ParquetFileFormat.inferSchema 1. 简 ...

  5. Spark读取压缩文件

    前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家.点击跳转到网站:https://www.captainai.net/dongkelun 前言 本文讲如何用spark读 ...

  6. Spark读取HDFS文件报错:java.net.ConnectException: Call From to localhost:9000 failed on connection

    在Ubuntu启动了spark后进入scala,从HDFS读取已经放入的README.md文件,输入 val textFile = sc.textFile("hdfs://localhost ...

  7. Spark读取HDFS上的Snappy压缩文件所导致的内存溢出问题 java.lang.OutOfMemoryError: GC overhead limit exceeded

    报错java.lang.OutOfMemoryError: GC overhead limit exceeded HDFS上有一些每天增长的文件,使用Snappy压缩,突然某天OOM了 1.原因: 因 ...

  8. Spark读取本地文件和HDFS文件

    前言 旁边的实习生又一脸懵逼了:Spark有bug,明明我本地/data目录下有test.txt文件,但运行就报错: Caused by: java.io.FileNotFoundException: ...

  9. spark读取文件夹数据

    1 背景 数据都放在文件夹下 文件夹下面每一个文件格式都一样,只是分开放了 2  步骤 和读单个文件一样,只不过是把输入路径切换成文件夹就行 G:\\flow-poc\\input\\wangzish ...

最新文章

  1. 代码变油画,精细到毛发,这个前端小姐姐只用HTML+CSS,让美术设计也惊叹丨GitHub热榜...
  2. setfacl设置特定目录的权限
  3. 如何快速直接从Web of Science下载文献,保存到Endnote
  4. 脂肪粒是否可以针刺入
  5. oracle11g dataguard物理备库搭建
  6. SQL Server存储过程中使用表值作为输入参数示例
  7. windos 为什么会突然服务停止了_女生为什么会突然说分手?
  8. Windows 8 Directx 开发学习笔记(十三)利用模板实现木箱镜像
  9. Linux内核分析——操作系统是如何工作的
  10. 机器学习实战Ch02: k-近邻算法
  11. 游戏开发之初识C++模板(C++基础)
  12. 医院耗材管理系统开发_17
  13. android获取当前位置的GPS经纬度
  14. Cookie、Kaptcha
  15. 在Web网页里面实现像Excel/WPS条件格式那样根据数据大小自动改变背景颜色(网页数据热力图实现方法)
  16. U盘在windows电脑中毒,插入Macbook变成exe文件
  17. php 预编译,预编译的prepare statements 管理, 实现和思路
  18. 唯美多功能自适应个人主页源码html
  19. JavaWeb学习(第一天)-1-HTML部分
  20. 在虚拟机里虚拟打电话的代码

热门文章

  1. java 调用百度翻译接口
  2. 基于PHP的自动化办公OA系统
  3. Consumer HDU - 3449【dp-有依赖的背包问题】
  4. 二维数组应用——扫雷进阶版
  5. mysql 自动备份数据库数据到另一台电脑上(u盘或者移动硬盘上)
  6. 回到20年前,我一定好好念书
  7. HTTP Content_Type
  8. osmdroid地图
  9. 让字体变的更清晰CSS 中 -webkit-font-smoothing
  10. 傅立叶变换在图像处理中的应用