spark进行数据清洗时,如何读取xlsx表格类型文件
首先可以确定的是spark有专门对应excel表格读取的工具,在用spark-sql对xlsx类型文件进行读取的时候只需要再pom.xml文件里添加依赖就可以了
添加依赖如下
<!-- 读取excel xlsx--><dependency><groupId>com.crealytics</groupId><artifactId>spark-excel_2.11</artifactId><version>0.12.2</version></dependency><!-- https://mvnrepository.com/artifact/org.apache.xmlbeans/xmlbeans --><dependency><groupId>org.codehaus.janino</groupId><artifactId>janino</artifactId><version>3.0.8</version></dependency><dependency><groupId>com.fasterxml.jackson.core</groupId><artifactId>jackson-databind</artifactId><version>2.10.0</version></dependency><!-- 添加对应的 jackson-core --><dependency><groupId>com.fasterxml.jackson.core</groupId><artifactId>jackson-core</artifactId><version>2.10.0</version></dependency>
添加过之后便可以通过spark-SQL来对xlsx类型文件进行读取了 例如代码如下:
import org.apache.spark.sql._object io_xlsx {def main(args: Array[String]): Unit = {val df = SparkSession.builder().master("local").getOrCreate().read.format("com.crealytics.spark.excel").option("useHeader", "true").load("datas/china_data.xlsx")df.rdd.saveAsTextFile("output")}
}
运行之后再相应的目录下就有了对应的结果了
spark进行数据清洗时,如何读取xlsx表格类型文件相关推荐
- 表格文件返回给浏览器下载时不是.xlsx表格格式
项目场景: 使用POI组件创建表格返回给浏览器进行下载 问题描述 表格文件返回给浏览器下载时不是.xlsx表格格式 解决方案: response.setHeader("Content-dis ...
- Python读取xlsx表格并转换成Python列表
Python读取xlsx表格并转换成Python列表 参考链接https://www.cnblogs.com/ilovepython/p/11068841.html import xlrd from ...
- python读文件代码-Python读取表格类型文件代码实例
这篇文章主要介绍了Python读取表格类型文件代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 代码如下 resp = My_Request_ ...
- linux系统读取excel文件是否存在,小弟我用poi读excel,在window下没有有关问题,但把程序放到linux上时,读取客户端的excel文件报错,不...
我用poi读excel,在window下没有问题,但把程序放到linux上时,读取客户端的excel文件报错,不知道如何解决 我用poi读excel,在window下没有问题,但把程序放到linux上 ...
- linux下循环读取目录文件,linux循环递归读取目录指定类型文件及计算阶乘脚本...
linux循环读取目录指定类型文件脚本 ergodic.sh #!/bin/bash function ergodic { for file in ` ls $1` do if [ -d $1&quo ...
- Python读取xlsx表格并转换成Python列表,简单可行
网上大多数方法是利用的字典进行转换,但是字典的无序性让人有些头疼,因此这里利用二维列表来直接进行读取,列表的格式如下: table=[[第一行数据],[第二行数据],[第三行数据],[第四行数据],[ ...
- R语言读取 xlsx 和xls 文件
前言: 今天我用openxlsx包中的read.xlsx读取xls文件时,竟然报错了.我记得有一个包是可以读取Excel2003的,搜索了一下,发现不太容易查找,就写一遍博客记录一下.毕竟,很多东西放 ...
- Python 读取xlsx表格
#!/usr/bin/python -- coding: UTF-8 -- import xlrd from datetime import date,datetime file = 'cc.xlsx ...
- r导入excel数据 linux,R语言中使用rio读取xlsx格式Excel文件|多个sheet表格|tidyverse rbind XLConnect readxl...
前言 有时候数据格式是xlsx的,内部含有多个sheet表格,如果直接转换成csv的话非常费时.如果想批量处理文件(或者装个逼),这样就需要用到R了. 多种方案 使用rio包一次性读取到data li ...
最新文章
- Contiki 2.7 Makefile 文件(一)
- select标签的使用
- 批处理实现从Excel导入Oracle
- redirect通过url_for传递参数_Excel VBA解读 | 进阶篇(127):Sub过程的参数传递技术...
- Python并发与并行的新手指南
- javaWEB总结(9):自定义HttpServlet
- [RK3399 Android7.1] 开启保存上一次重启前日志
- 【飞秋】存储过程与业务类实现业务的差异比较
- 数据结构之排序算法:并归排序
- @property 各个属性作用【使用时最需注意strong/weak类型】【补充部分内存知识】...
- 海康VisionMaster绘制图形到显示窗口
- 一、CI框架(CodeIgniter)简介
- 加速爬虫:异步加载asyncio
- PAT乙级真题 | 1006 换个格式输出整数
- c语言设计函数型号发生器,基于51单片机函数信号发生器
- Open_source_tools
- 向量积(叉积)和数量积(点积)的区别和联系之解析
- 电脑键盘部分按键失灵_Win7系统键盘部分按键失灵了怎么办?
- 解决“win7系统,警告 -已计划将多个默认网关用于提供单一网络(例如 intranet或者Internet)的冗余”问题
- NSIS安装包制做软件的常用小技巧
热门文章
- git fatal: schannel: next InitializeSecurityContext failed: SEC E CERT EXPIRED (0x80090328)
- 神经网络算法的基本原理,神经网络是机器算法吗
- 产品岗校招总结:6月份决心做产品,拿到年薪20+W的offer!
- 德尔塔病毒劲敌!杨晓明团队发现单抗有效,临床申报正在推进,研究已登Nature子刊...
- 利用 BBED 恢复非归档模式下 OFFLINE 数据文件
- Software-Defined Networking:A comprehensive Survey
- matlab应用测试,moocMATLAB程序与应用单元测试答案
- html 图片自动滚动播放,JS实现图片自动滚动(图片横向滚动)
- 使用LASSO进行全基因组关联分析
- 条码旋转后打印不清楚