parquet to mysql_在hive中使用parquet (CDH4.3)

hadoop版本 cdh4.3 使用impala创建parquet表后，查询会出错。 [impala:21000] SELECT * FROM foo;Query: SELECT * FROM fooERROR: AnalysisException: Failed TO LOAD metadata FOR TABLE: DEFAULT.fooCAUSED BY: TableLoadingException: Failed TO LOAD met

hadoop版本 cdh4.3

使用impala创建parquet表后，查询会出错。

[impala:21000] > SELECT * FROM foo;

Query: SELECT * FROM foo

ERROR: AnalysisException: Failed TO LOAD metadata FOR TABLE: DEFAULT.foo

CAUSED BY: TableLoadingException: Failed TO LOAD metadata FOR TABLE: foo

CAUSED BY: MetaException: org.apache.hadoop.hive.serde2.SerDeException SerDe parquet.hive.serde.ParquetHiveSerDe does NOT exist

原因是hive并没有这些lib，下载它们并放入/opt/cloudera/parcels/CDH/lib/hive/lib目录(我是使用cloudera manager部署的),创建脚本下载

#!/bin/sh

#parquet-pig parquet-scrooge parquet-test-hadoop2 parquet-thrift parquet-avro parquet-cascading

for f in parquet-column parquet-common parquet-encoding parquet-generator parquet-hadoop parquet-hive

curl -O http://repo1.maven.org/maven2/com/twitter/${f}/1.2.4/${f}-1.2.4.jar

#curl -O http://oss.sonatype.org/service/local/repositories/releases/content/com/twitter/${f}/1.2.4/${f}-1.2.4.jar

done

curl -O http://repo1.maven.org/maven2/com/twitter/parquet-format/1.0.0/parquet-format-1.0.0.jar

然后把他们拷贝进去

cp parquet-* /opt/cloudera/parcels/CDH/lib/hive/lib

可能要重启metastore，然后在impala中刷新metastore

INVALIDATE METADATA;

在impala修改parquet表

create table test2 (name STRING) STORED AS PARQUETFILE;

插入数据

insert into test2 select * from test;

参考

https://issues.cloudera.org/browse/IMPALA-574

parquet to mysql_在hive中使用parquet (CDH4.3)相关推荐

python读取oracle数据到hvie parquet_关于sparksql操作hive，读取本地csv文件并以parquet的形式装入hive中...
说明:spark版本:2.2.0 hive版本:1.2.1 需求: 有本地csv格式的一个文件,格式为${当天日期}visit.txt,例如20180707visit.txt,现在需要将其通过spar ...
date类型_06076.1.0如何将ORC格式且使用了DATE类型的Hive表转为Parquet表
温馨提示:如果使用电脑查看图片不清晰,可以使用手机打开文章单击文中的图片放大查看高清原图. Fayson的github: https://github.com/fayson/cdhproject 提示 ...
关于Hive中的存储格式及压缩格式详解
最近面试,遇到了关于Hive的数据存储格式的问题,回答不尽人意,抽时间总结多看看关于Hive存储格式和压缩格式的内容. Hive底层数据是以HDFS文件的形式存储在Hadoop中的,选择一个合适的文件 ...
利用Hudi Bootstrap转化现有Hive表的parquet/orc文件为Hudi表
前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家.点击跳转到网站:https://www.captainai.net/dongkelun 前言在最开始学习Hudi源码 ...
jupyter中python3如何导入文件_无法读取Azure Jupyter笔记本（Python 2和3）中的“.parquet”文件...
我正在尝试使用azurejupyter笔记本打开拼花板文件.我尝试过Python内核(2和3). 安装pyarrow后,只有当Python内核为2时,我才能导入模块(不能使用python3) 以下是我 ...
parquet存储linux文件,使用AWS Lambda读取存储在S3中的Parquet文件(Python 3)
我正在尝试使用AWS Lambda在S3中加载,处理和编写Parquet文件.我的测试/部署过程是: 似乎有两种可能的方法,它们都在本地工作到docker容器: >带有s3fs的fastparq ...
Spark SQL来读取现有Hive中的数据
Spark SQL主要目的是使得用户可以在Spark上使用SQL,其数据源既可以是RDD,也可以是外部的数据源(比如Parquet.Hive.Json等). Spark SQL的其中一个分支就是Spa ...
hive遍历_从Hive中的stored as file_foramt看hive调优
一.行式数据库和列式数据库的对比 1.存储比较行式数据库存储在hdfs上式按行进行存储的,一个block存储一或多行数据.而列式数据库在hdfs上则是按照列进行存储,一个block可能有一列或多列数 ...
hive中导入text文件遇到的坑
今天帮一同学导入一个excel数据,我把excel保存为txt格式,然后建表导入,失败!分隔符格式不匹配,无法导入!!!!怎么看两边都是\t,怎么不匹配呢? 做为程序员,最不怕的就是失败,因为我们有一 ...

parquet to mysql_在hive中使用parquet (CDH4.3)

parquet to mysql_在hive中使用parquet (CDH4.3)相关推荐

最新文章

热门文章