问题描述

报错

bug:

22/09/25 23:28:14 INFO GPLNativeCodeLoader: Loaded native gpl library
22/09/25 23:28:14 WARN LzoCompressor: java.lang.NoSuchFieldError: lzoCompressLevelFunc
22/09/25 23:28:14 ERROR LzoCodec: Failed to load/initialize native-lzo library
22/09/25 23:28:14 ERROR Executor: Exception in task 0.0 in stage 1.0 (TID 1)
java.lang.RuntimeException: native-lzo library not available
at com.hadoop.compression.lzo.LzoCodec.getDecompressorType(LzoCodec.java:175)
at org.apache.hadoop.io.compress.CodecPool.getDecompressor(CodecPool.java:176)

由于lzo压缩本身不属于hadoop体系自带压缩方式以及spark自带的解析方式
所以往往需要额外配置

在大数据集群中 所使用压缩完全没有问题的,hadoop以及spark会自己调用lzo存在的目录
进行读取,但是idea 本地环境想要读取lzo文件,就要使本地环境支持lzo依赖

出于开发的便利,需要idea中读取到lzo压缩的数据

参考:http://t.csdn.cn/xIDRa

一共三个文件

plcompression.dlllzo2.dllhadoop-lzo-0.4.21-SNAPSHOT.jar

gplcompression.dlllzo2.dll 放到 C:\Windows\System32 目录下

增加依赖 【此项可能无作用】

<dependency><groupId>com.hadoop.compression</groupId><artifactId>com.hadoop.compression</artifactId><version>1.0</version><scope>system</scope><systemPath>${project.basedir}/src/main/resources/hadoop-lzo-0.4.20-SNAPSHOT.jar</systemPath>
</dependency>

如果仍然报错

选择官网的jar包进行导入idea 进行依赖的创建

https://archive.apache.org/dist/spark/spark-2.4.5/

官网下载 spark-2.4.5-bin-hadoop2.7.tgz 注意根据lzo和spark的不同更换版本

参考如下步骤:

(1)将spark解压

(2)在解压后的spark压缩包中,如下jars文件夹则为spark相关jar

(3) 在项目工程目录下,新建一个lib目录,用于放依赖jar,

(4)在lib目录下建一个spark文件夹,将jars内的jar全拷贝到spark文件中,见下图。

(5)将 hadoop-lzo-0.4.21-SNAPSHOT.jar 拉入到此目录中

(6)打开“excise”工程双击如下

(7)点Libraries -> “+”-> java

(8) 再在弹出框中选中spark下的所有jar后,如下第一张图,点击ok后,出现如下第二张图。最后点OK.

(9)注释掉 原理maven导入的依赖 不然会出现 jar重复的依赖

即可读取 相关数据 注意spark.sql 会自动识别相关压缩

提示

需要开启元数据服务

spark会根据配置文件连接元数据

开启元数据服务命令

hive --service metastore

spark 读取lzo 环境依赖相关推荐

  1. HDFS和Spark配置LZO压缩,Spark读取LZO创建正常Task数量

    1.说明 为了解决,数据日益增长并且目前使用Snappy压缩导致的Spark读取时会出现OOM,并且处理起来速度过慢的问题,决定使用LZO+Index来解决问题. 线上Hadoop版本3.2.1,Sp ...

  2. Spark学习之路一——Spark基础及环境搭建

    Spark学习之路一--Spark基础及环境搭建 文章目录 一. Spark 概述 1.1 概述 1.2 优势特性 1.2.1 运行速度快 1.2.2 容易使用 1.2.3 通用性 1.2.4 运行模 ...

  3. Apache Spark学习:利用Eclipse构建Spark集成开发环境

    介绍了如何使用Maven编译生成可直接运行在Hadoop 2.2.0上的Spark jar包,而本文则在此基础上, 介绍如何利用Eclipse构建Spark集成开发环境 . 不建议大家使用eclips ...

  4. Spark基础学习笔记04:搭建Spark伪分布式环境

    文章目录 零.本讲学习目标 一.搭建伪分布式Hadoop (一)登录ied虚拟机 (二)配置免密登录 1.生成密钥对 2.将生成的公钥发送到本机(虚拟机ied) 3.验证虚拟机是否能免密登录本机 (三 ...

  5. Spark 在 Window 环境下的搭建

    1.java/scala的安装 - 安装JDK 下载: http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2 ...

  6. mongodb数据导入hbase,spark读取hbase数据分析

    为什么80%的码农都做不了架构师?>>>    使用mavn管理相关依赖包pom.xml <project xmlns="http://maven.apache.or ...

  7. Spark读取压缩文件

    前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家.点击跳转到网站:https://www.captainai.net/dongkelun 前言 本文讲如何用spark读 ...

  8. windows10下python开发spark应用的环境搭建

    环境搭建主要涉及到3方面,第1是安装,第2是环境变量的配置,第3是验证安装和配置是否成功,总的涉及到以下5个部分. 环境变量配置是在 此电脑 -> 属性 -> 高级系统设置 -> 高 ...

  9. Spark集群环境搭建(standalone模式)

    Spark集群环境搭建(standalone模式) 1. 实验室名称: 2. 实验项目名称: 3. 实验学时: 4. 实验原理: 5. 实验目的: 6. 实验内容: 7. 实验器材(设备.虚拟机名称) ...

最新文章

  1. 特斯拉“自动召唤”有软肋!正面识别很厉害,侧面物体看不见,实测差点碾过行人脚面...
  2. Oracle新建实例后,修改sys和system密码。
  3. 高清音质背后:网易云信音乐教学方案技术解密
  4. boost::geometry::model::d2::point_xy用法的测试程序
  5. 在苹果笔记本如何使用python_mac下如何将python2.7改为python3
  6. 互联网教育+大数据=新型大学?
  7. 算法高级(28)-递归、分治、动态规划、贪心、回溯、分支限界几大相似算法比较
  8. idea导入servlet包还是显示红色_还是从servlet 开始吧,hello servlet
  9. boot空间不足 linux,linux——boot空间不足
  10. 基于JAVA+Servlet+JSP+MYSQL的网络考试系统
  11. 20 个百无一用的 Firefox 扩展
  12. 随想录(开源代码的学习方法)
  13. tesseract-orc 合并识别结果
  14. Spark SQL External DataSource外部数据源操作流程
  15. ExtJs4 笔记(12) Ext.toolbar.Toolbar 工具栏、Ext.toolbar.Paging 分页栏、Ext.ux.statusbar.StatusBar 状态栏...
  16. Visual Graph图形控件的高级应用
  17. 垃圾分类:真正的麻烦在于怎样处理
  18. jQuery事件委派与移除
  19. php唯美博客,24个很酷的PHP开源库
  20. 数学中的 argmax 和 argmin 什么意思

热门文章

  1. git通过token登录
  2. 2021Java进阶学习资料!熬夜整理小米Java面试题
  3. 去掉python的花括号
  4. 什么是ARPU与ARPPU ?
  5. c语言2逻辑与2是1吗,2.C语言逻辑运算符和表达式
  6. 地理信息系统(GIS)的前沿技术综述
  7. 陕西临潼姜寨遗址(蛙的演化)
  8. Java第三章习题3-4(for循环输出俄文字母表)
  9. 国内外最好用的6款Bug跟踪管理软件,测试员不可不知!
  10. 牧牛图-南怀瑾上师讲解