问题描述

报错

bug:

22/09/25 23:28:14 INFO GPLNativeCodeLoader: Loaded native gpl library
22/09/25 23:28:14 WARN LzoCompressor: java.lang.NoSuchFieldError: lzoCompressLevelFunc
22/09/25 23:28:14 ERROR LzoCodec: Failed to load/initialize native-lzo library
22/09/25 23:28:14 ERROR Executor: Exception in task 0.0 in stage 1.0 (TID 1)
java.lang.RuntimeException: native-lzo library not available
at com.hadoop.compression.lzo.LzoCodec.getDecompressorType(LzoCodec.java:175)
at org.apache.hadoop.io.compress.CodecPool.getDecompressor(CodecPool.java:176)

由于lzo压缩本身不属于hadoop体系自带压缩方式以及spark自带的解析方式
所以往往需要额外配置

在大数据集群中所使用压缩完全没有问题的，hadoop以及spark会自己调用lzo存在的目录
进行读取，但是idea 本地环境想要读取lzo文件，就要使本地环境支持lzo依赖

出于开发的便利，需要idea中读取到lzo压缩的数据

参考：http://t.csdn.cn/xIDRa

一共三个文件

plcompression.dll、lzo2.dll、hadoop-lzo-0.4.21-SNAPSHOT.jar

将gplcompression.dll、lzo2.dll 放到 C:\Windows\System32 目录下

增加依赖【此项可能无作用】

<dependency><groupId>com.hadoop.compression</groupId><artifactId>com.hadoop.compression</artifactId><version>1.0</version><scope>system</scope><systemPath>${project.basedir}/src/main/resources/hadoop-lzo-0.4.20-SNAPSHOT.jar</systemPath>
</dependency>

如果仍然报错

选择官网的jar包进行导入idea 进行依赖的创建

https://archive.apache.org/dist/spark/spark-2.4.5/

官网下载 spark-2.4.5-bin-hadoop2.7.tgz 注意根据lzo和spark的不同更换版本

参考如下步骤：

（1）将spark解压

（2）在解压后的spark压缩包中，如下jars文件夹则为spark相关jar

(3) 在项目工程目录下，新建一个lib目录，用于放依赖jar，

（4)在lib目录下建一个spark文件夹，将jars内的jar全拷贝到spark文件中，见下图。

（5）将 hadoop-lzo-0.4.21-SNAPSHOT.jar 拉入到此目录中

（6）打开“excise”工程双击如下

（7)点Libraries -> “+”-> java

(8) 再在弹出框中选中spark下的所有jar后，如下第一张图，点击ok后，出现如下第二张图。最后点OK.

（9）注释掉原理maven导入的依赖不然会出现 jar重复的依赖

即可读取相关数据注意spark.sql 会自动识别相关压缩

提示

需要开启元数据服务

spark会根据配置文件连接元数据

开启元数据服务命令

hive --service metastore

spark 读取lzo 环境依赖相关推荐

HDFS和Spark配置LZO压缩，Spark读取LZO创建正常Task数量
1.说明为了解决,数据日益增长并且目前使用Snappy压缩导致的Spark读取时会出现OOM,并且处理起来速度过慢的问题,决定使用LZO+Index来解决问题. 线上Hadoop版本3.2.1,Sp ...
Spark学习之路一——Spark基础及环境搭建
Spark学习之路一--Spark基础及环境搭建文章目录一. Spark 概述 1.1 概述 1.2 优势特性 1.2.1 运行速度快 1.2.2 容易使用 1.2.3 通用性 1.2.4 运行模 ...
Apache Spark学习：利用Eclipse构建Spark集成开发环境
介绍了如何使用Maven编译生成可直接运行在Hadoop 2.2.0上的Spark jar包,而本文则在此基础上, 介绍如何利用Eclipse构建Spark集成开发环境 . 不建议大家使用eclips ...
Spark基础学习笔记04：搭建Spark伪分布式环境
文章目录零.本讲学习目标一.搭建伪分布式Hadoop (一)登录ied虚拟机 (二)配置免密登录 1.生成密钥对 2.将生成的公钥发送到本机(虚拟机ied) 3.验证虚拟机是否能免密登录本机 (三 ...
Spark 在 Window 环境下的搭建
1.java/scala的安装 - 安装JDK 下载: http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2 ...
mongodb数据导入hbase,spark读取hbase数据分析
为什么80%的码农都做不了架构师?>>> 使用mavn管理相关依赖包pom.xml <project xmlns="http://maven.apache.or ...
Spark读取压缩文件
前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家.点击跳转到网站:https://www.captainai.net/dongkelun 前言本文讲如何用spark读 ...
windows10下python开发spark应用的环境搭建
环境搭建主要涉及到3方面,第1是安装,第2是环境变量的配置,第3是验证安装和配置是否成功,总的涉及到以下5个部分. 环境变量配置是在此电脑 -> 属性 -> 高级系统设置 -> 高 ...
Spark集群环境搭建（standalone模式）
Spark集群环境搭建(standalone模式) 1. 实验室名称: 2. 实验项目名称: 3. 实验学时: 4. 实验原理: 5. 实验目的: 6. 实验内容: 7. 实验器材(设备.虚拟机名称) ...

spark 读取lzo 环境依赖

问题描述

报错

如果仍然报错

提示

spark 读取lzo 环境依赖相关推荐

最新文章

热门文章