首先可以确定的是spark有专门对应excel表格读取的工具,在用spark-sql对xlsx类型文件进行读取的时候只需要再pom.xml文件里添加依赖就可以了

添加依赖如下

<!--        读取excel xlsx--><dependency><groupId>com.crealytics</groupId><artifactId>spark-excel_2.11</artifactId><version>0.12.2</version></dependency><!-- https://mvnrepository.com/artifact/org.apache.xmlbeans/xmlbeans --><dependency><groupId>org.codehaus.janino</groupId><artifactId>janino</artifactId><version>3.0.8</version></dependency><dependency><groupId>com.fasterxml.jackson.core</groupId><artifactId>jackson-databind</artifactId><version>2.10.0</version></dependency><!-- 添加对应的 jackson-core --><dependency><groupId>com.fasterxml.jackson.core</groupId><artifactId>jackson-core</artifactId><version>2.10.0</version></dependency>

添加过之后便可以通过spark-SQL来对xlsx类型文件进行读取了 例如代码如下:

import org.apache.spark.sql._object io_xlsx {def main(args: Array[String]): Unit = {val df = SparkSession.builder().master("local").getOrCreate().read.format("com.crealytics.spark.excel").option("useHeader", "true").load("datas/china_data.xlsx")df.rdd.saveAsTextFile("output")}
}

运行之后再相应的目录下就有了对应的结果了

spark进行数据清洗时,如何读取xlsx表格类型文件相关推荐

  1. 表格文件返回给浏览器下载时不是.xlsx表格格式

    项目场景: 使用POI组件创建表格返回给浏览器进行下载 问题描述 表格文件返回给浏览器下载时不是.xlsx表格格式 解决方案: response.setHeader("Content-dis ...

  2. Python读取xlsx表格并转换成Python列表

    Python读取xlsx表格并转换成Python列表 参考链接https://www.cnblogs.com/ilovepython/p/11068841.html import xlrd from ...

  3. python读文件代码-Python读取表格类型文件代码实例

    这篇文章主要介绍了Python读取表格类型文件代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 代码如下 resp = My_Request_ ...

  4. linux系统读取excel文件是否存在,小弟我用poi读excel,在window下没有有关问题,但把程序放到linux上时,读取客户端的excel文件报错,不...

    我用poi读excel,在window下没有问题,但把程序放到linux上时,读取客户端的excel文件报错,不知道如何解决 我用poi读excel,在window下没有问题,但把程序放到linux上 ...

  5. linux下循环读取目录文件,linux循环递归读取目录指定类型文件及计算阶乘脚本...

    linux循环读取目录指定类型文件脚本 ergodic.sh #!/bin/bash function ergodic { for file in ` ls $1` do if [ -d $1&quo ...

  6. Python读取xlsx表格并转换成Python列表,简单可行

    网上大多数方法是利用的字典进行转换,但是字典的无序性让人有些头疼,因此这里利用二维列表来直接进行读取,列表的格式如下: table=[[第一行数据],[第二行数据],[第三行数据],[第四行数据],[ ...

  7. R语言读取 xlsx 和xls 文件

    前言: 今天我用openxlsx包中的read.xlsx读取xls文件时,竟然报错了.我记得有一个包是可以读取Excel2003的,搜索了一下,发现不太容易查找,就写一遍博客记录一下.毕竟,很多东西放 ...

  8. Python 读取xlsx表格

    #!/usr/bin/python -- coding: UTF-8 -- import xlrd from datetime import date,datetime file = 'cc.xlsx ...

  9. r导入excel数据 linux,R语言中使用rio读取xlsx格式Excel文件|多个sheet表格|tidyverse rbind XLConnect readxl...

    前言 有时候数据格式是xlsx的,内部含有多个sheet表格,如果直接转换成csv的话非常费时.如果想批量处理文件(或者装个逼),这样就需要用到R了. 多种方案 使用rio包一次性读取到data li ...

最新文章

  1. Contiki 2.7 Makefile 文件(一)
  2. select标签的使用
  3. 批处理实现从Excel导入Oracle
  4. redirect通过url_for传递参数_Excel VBA解读 | 进阶篇(127):Sub过程的参数传递技术...
  5. Python并发与并行的新手指南
  6. javaWEB总结(9):自定义HttpServlet
  7. [RK3399 Android7.1] 开启保存上一次重启前日志
  8. 【飞秋】存储过程与业务类实现业务的差异比较
  9. 数据结构之排序算法:并归排序
  10. @property 各个属性作用【使用时最需注意strong/weak类型】【补充部分内存知识】...
  11. 海康VisionMaster绘制图形到显示窗口
  12. 一、CI框架(CodeIgniter)简介
  13. 加速爬虫:异步加载asyncio
  14. PAT乙级真题 | 1006 换个格式输出整数
  15. c语言设计函数型号发生器,基于51单片机函数信号发生器
  16. Open_source_tools
  17. 向量积(叉积)和数量积(点积)的区别和联系之解析
  18. 电脑键盘部分按键失灵_Win7系统键盘部分按键失灵了怎么办?
  19. 解决“win7系统,警告 -已计划将多个默认网关用于提供单一网络(例如 intranet或者Internet)的冗余”问题
  20. NSIS安装包制做软件的常用小技巧

热门文章

  1. git fatal: schannel: next InitializeSecurityContext failed: SEC E CERT EXPIRED (0x80090328)
  2. 神经网络算法的基本原理,神经网络是机器算法吗
  3. 产品岗校招总结:6月份决心做产品,拿到年薪20+W的offer!
  4. 德尔塔病毒劲敌!杨晓明团队发现单抗有效,临床申报正在推进,研究已登Nature子刊...
  5. 利用 BBED 恢复非归档模式下 OFFLINE 数据文件
  6. Software-Defined Networking:A comprehensive Survey
  7. matlab应用测试,moocMATLAB程序与应用单元测试答案
  8. html 图片自动滚动播放,JS实现图片自动滚动(图片横向滚动)
  9. 使用LASSO进行全基因组关联分析
  10. 条码旋转后打印不清楚