spark 读取lzo 环境依赖
问题描述
报错
bug:
22/09/25 23:28:14 INFO GPLNativeCodeLoader: Loaded native gpl library
22/09/25 23:28:14 WARN LzoCompressor: java.lang.NoSuchFieldError: lzoCompressLevelFunc
22/09/25 23:28:14 ERROR LzoCodec: Failed to load/initialize native-lzo library
22/09/25 23:28:14 ERROR Executor: Exception in task 0.0 in stage 1.0 (TID 1)
java.lang.RuntimeException: native-lzo library not available
at com.hadoop.compression.lzo.LzoCodec.getDecompressorType(LzoCodec.java:175)
at org.apache.hadoop.io.compress.CodecPool.getDecompressor(CodecPool.java:176)
由于lzo压缩本身不属于hadoop体系自带压缩方式以及spark自带的解析方式
所以往往需要额外配置
在大数据集群中 所使用压缩完全没有问题的,hadoop以及spark会自己调用lzo存在的目录
进行读取,但是idea 本地环境想要读取lzo文件,就要使本地环境支持lzo依赖
出于开发的便利,需要idea中读取到lzo压缩的数据
参考:http://t.csdn.cn/xIDRa
一共三个文件
plcompression.dll、lzo2.dll、hadoop-lzo-0.4.21-SNAPSHOT.jar
将gplcompression.dll、lzo2.dll 放到 C:\Windows\System32 目录下
增加依赖 【此项可能无作用】
<dependency><groupId>com.hadoop.compression</groupId><artifactId>com.hadoop.compression</artifactId><version>1.0</version><scope>system</scope><systemPath>${project.basedir}/src/main/resources/hadoop-lzo-0.4.20-SNAPSHOT.jar</systemPath>
</dependency>
如果仍然报错
选择官网的jar包进行导入idea 进行依赖的创建
https://archive.apache.org/dist/spark/spark-2.4.5/
官网下载 spark-2.4.5-bin-hadoop2.7.tgz 注意根据lzo和spark的不同更换版本
参考如下步骤:
(1)将spark解压
(2)在解压后的spark压缩包中,如下jars文件夹则为spark相关jar
(3) 在项目工程目录下,新建一个lib目录,用于放依赖jar,
(4)在lib目录下建一个spark文件夹,将jars内的jar全拷贝到spark文件中,见下图。
(5)将 hadoop-lzo-0.4.21-SNAPSHOT.jar 拉入到此目录中
(6)打开“excise”工程双击如下
(7)点Libraries -> “+”-> java
(8) 再在弹出框中选中spark下的所有jar后,如下第一张图,点击ok后,出现如下第二张图。最后点OK.
(9)注释掉 原理maven导入的依赖 不然会出现 jar重复的依赖
即可读取 相关数据 注意spark.sql 会自动识别相关压缩
提示
需要开启元数据服务
spark会根据配置文件连接元数据
开启元数据服务命令
hive --service metastore
spark 读取lzo 环境依赖相关推荐
- HDFS和Spark配置LZO压缩,Spark读取LZO创建正常Task数量
1.说明 为了解决,数据日益增长并且目前使用Snappy压缩导致的Spark读取时会出现OOM,并且处理起来速度过慢的问题,决定使用LZO+Index来解决问题. 线上Hadoop版本3.2.1,Sp ...
- Spark学习之路一——Spark基础及环境搭建
Spark学习之路一--Spark基础及环境搭建 文章目录 一. Spark 概述 1.1 概述 1.2 优势特性 1.2.1 运行速度快 1.2.2 容易使用 1.2.3 通用性 1.2.4 运行模 ...
- Apache Spark学习:利用Eclipse构建Spark集成开发环境
介绍了如何使用Maven编译生成可直接运行在Hadoop 2.2.0上的Spark jar包,而本文则在此基础上, 介绍如何利用Eclipse构建Spark集成开发环境 . 不建议大家使用eclips ...
- Spark基础学习笔记04:搭建Spark伪分布式环境
文章目录 零.本讲学习目标 一.搭建伪分布式Hadoop (一)登录ied虚拟机 (二)配置免密登录 1.生成密钥对 2.将生成的公钥发送到本机(虚拟机ied) 3.验证虚拟机是否能免密登录本机 (三 ...
- Spark 在 Window 环境下的搭建
1.java/scala的安装 - 安装JDK 下载: http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2 ...
- mongodb数据导入hbase,spark读取hbase数据分析
为什么80%的码农都做不了架构师?>>> 使用mavn管理相关依赖包pom.xml <project xmlns="http://maven.apache.or ...
- Spark读取压缩文件
前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家.点击跳转到网站:https://www.captainai.net/dongkelun 前言 本文讲如何用spark读 ...
- windows10下python开发spark应用的环境搭建
环境搭建主要涉及到3方面,第1是安装,第2是环境变量的配置,第3是验证安装和配置是否成功,总的涉及到以下5个部分. 环境变量配置是在 此电脑 -> 属性 -> 高级系统设置 -> 高 ...
- Spark集群环境搭建(standalone模式)
Spark集群环境搭建(standalone模式) 1. 实验室名称: 2. 实验项目名称: 3. 实验学时: 4. 实验原理: 5. 实验目的: 6. 实验内容: 7. 实验器材(设备.虚拟机名称) ...
最新文章
- 特斯拉“自动召唤”有软肋!正面识别很厉害,侧面物体看不见,实测差点碾过行人脚面...
- Oracle新建实例后,修改sys和system密码。
- 高清音质背后:网易云信音乐教学方案技术解密
- boost::geometry::model::d2::point_xy用法的测试程序
- 在苹果笔记本如何使用python_mac下如何将python2.7改为python3
- 互联网教育+大数据=新型大学?
- 算法高级(28)-递归、分治、动态规划、贪心、回溯、分支限界几大相似算法比较
- idea导入servlet包还是显示红色_还是从servlet 开始吧,hello servlet
- boot空间不足 linux,linux——boot空间不足
- 基于JAVA+Servlet+JSP+MYSQL的网络考试系统
- 20 个百无一用的 Firefox 扩展
- 随想录(开源代码的学习方法)
- tesseract-orc 合并识别结果
- Spark SQL External DataSource外部数据源操作流程
- ExtJs4 笔记(12) Ext.toolbar.Toolbar 工具栏、Ext.toolbar.Paging 分页栏、Ext.ux.statusbar.StatusBar 状态栏...
- Visual Graph图形控件的高级应用
- 垃圾分类:真正的麻烦在于怎样处理
- jQuery事件委派与移除
- php唯美博客,24个很酷的PHP开源库
- 数学中的 argmax 和 argmin 什么意思