CDH6.3整合Carbondata
CDH6.3整合Carbondata
- 环境准备
- 源码修改
- 编译
- 编译后产生的jar包路径
- cdh hive集成 carbondata
- 编译后的源码地址:
环境准备
Maven 版本: 3.5.4Scala 版本 : 2.11.12 Spark版本: 2.4.0Hadoop版本: 3.0.0 carbondata 2.3.0 (当前最新)
源码修改
1: 将源码中的files.toArray 改为 files.toSeq 否则编译报错
polymorphic expression cannot be instantiated to expected type
def createFilePartition(index: Int, files: ArrayBuffer[PartitionedFile]): FilePartition = {FilePartition(index, files.toSeq)}
2: 编译spark的时由于将pom文件仓库改为了cloudrea 的仓库 编译时有一个类找不到
org.apache.spark.sql.execution.datasources.orc.OrcFileFormat
OrcFileFormat 在原生spark-sql依赖中有该类 在spark-sql-cdh6.3.2中没有
3: 编译hive模块时 由于将pom文件仓库改为了cloudrea 的仓库 编译时有一个类找不到
org.apache.hadoop.hive.ql.metadata.StorageHandlerInfo
StorageHandlerInfo 类 在原生hive-exce 依赖 而在hive-exce-cdh6.3.2中找不到该类
4: 编译时遇到findbugs-maven-plugin插件的问题:
Failed to execute goal org.codehaus.mojo:findbugs-maven-plugin:3.0.4:check (analyze-compile) on project carbondata-core: failed with 1 bugs and 0 errors
解决方案:
1: 将 maven-duplicate-finder-plugin 插件的版本设置为1.0.9
2: 将findbugs-maven-plugin 插件的阈值改为 High
5:Carbon-processing模块报错
解决方案: 添加依赖
<dependency><groupId>org.apache.htrace</groupId><artifactId>htrace-core</artifactId><version>3.1.0-incubating</version>
</dependency>
6: 找到hive-jdbc 依赖 添加exclusion
<exclusions><exclusion><groupId>org.glassfish</groupId><artifactId>javax.el</artifactId></exclusion><exclusion><groupId>org.eclipse.jetty</groupId><artifactId>jetty-runner</artifactId></exclusion>
</exclusions>
编译
mvn -DskipTests -Pspark-2.4 clean package
编译后产生的jar包路径
cdh hive集成 carbondata
1: 第一步 :将编译后产生的jar包放到hive auxlibs 目录中 并将 spark jars 目录 中的spark-catalyst*.jar 和 scala*.jar 也复制到 hive auxlibs 目录中 (hive auxlibs 目录可以在cdh cm-web 控制台中找到)2: 复制编译后产生的jar包 放到 hive/lib/ 和yarn/lib/ 第二步:修改hive-site.xml 配置在cm-web管理界面找到hive-site.xml 并添加如下的配置
<property><name>hive.metastore.pre.event.listeners</name><value>org.apache.carbondata.hive.CarbonHiveMetastoreListener</value>
</property>
编译后的源码地址:
https://github.com/liutaobigdata/cdh_integrate_carbondata2.3
CDH6.3整合Carbondata相关推荐
- CDH6.3.0 HUE 整合 Oozie调度
由于oozie的xml配置执行各种任务调度是在太过于繁琐,所有一般都使用hue整合oozie来使用 通过hue对oozie进行配置,所以首先保证hue中 time_zone为Asia/Shanghai ...
- CDH6.x安装教程(附带整合kerberos)
CDH从6.3.3版开始不再免费,6.3.2及以下版本可免费使用,大家如有需要可联系我索取安装包. 安装步骤总览: 1.配置服务器系统基础环境 2.配置本地仓库 3.安装数据库 4.安装CM 5.添加 ...
- cdh的集成phoenix安装_环境篇:Kylin3.0.1集成CDH6.2.0
环境篇:Kylin3.0.1集成CDH6.2.0 Kylin是什么? Apache Kylin™是一个开源的.分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析( ...
- Spark、Flink、CarbonData技术实践最佳案例解析
当前无论是传统企业还是互联网公司对大数据实时分析和处理的要求越来越高,数据越实时价值越大,面向毫秒~秒级的实时大数据计算场景,Spark和Flink各有所长.CarbonData是一种高性能大数据存储 ...
- CarbonData:大数据融合数仓新一代引擎
[摘要] CarbonData将存储和计算逻辑分离,通过索引技术让存储和计算物理上更接近,提升CPU和IO效率,实现超高性能的大数据分析.以CarbonData为融合数仓的大数据解决方案,为金融转型打 ...
- CDH6.3.1安装指南
CDH安装指南!!!! CDH简介 CDH基于Web的用户界面,支持大多数Hadoop组件,包括HDFS.MapReduce.Hive.Pig. HBase.Zookeeper.Sqoop,简化了大数 ...
- CDH6.3.1安装
CDH6.3.1安装遇到很多问题,我想主要是由于条件有限,毕竟自己的电脑内存不如专业集群的内存大(如果是内存和硬盘充足,有些是可以避免的,甚至不会出现报错的情况),这里就介绍一下我用VMware安装的 ...
- cdh6.3.2安装
1. 数仓之Cloudera Manager 1.1 CM简介 1.1.1 CM简介 Cloudera Manager是一个拥有集群自动化安装.中心化管理.集群监控.报警功能的一个工具,使得安装集群从 ...
- CarbonData部署和使用
Apache CarbonData | GitHub | 文档 1 概述 CarbonData是一个开源的用于快速数据分析的新型BigData文件格式,这个项目是华为公司在2016年开 ...
最新文章
- vue-music 音乐网站
- 巧用360加快您的开机速度
- Centos5.5下lvs+keepalived集群
- python英语翻译-python制作英语翻译小工具
- 有了它,一天学会 PyTorch!
- Centos 下安装redmine及设置发送邮件功能
- 收集常用电路基础公式换算
- python中使用什么导入模块-python—模块导入和类
- 在线教育如何应对流量洪峰?阿里云专家:上云+云数据库是最佳路径
- Dubbo to Mesh 云原生架构改造方案解析
- SiamFC代码分析(architecture、training、test)
- (附源码)计算机毕业设计Java远程健康数据管理系统
- Quartus-II 三种方式进行D触发器仿真
- 计算机应用程序没声音怎么办,电脑没声音怎么办
- Fuzzy kmeans
- .to(device)和.cuda()设置GPU的区别
- cad app android,迷你CAD免费手机版
- C语言 before string,c语言中expected expression before是什么意思?
- 计算机不识别lacie硬盘,如何从LaCie Rugged 外置硬盘上恢复丢失的数据
- 网站建设基础-使用if和switch分别输出今天为周几