环境准备

            Maven 版本： 3.5.4Scala 版本 ： 2.11.12 Spark版本： 2.4.0Hadoop版本： 3.0.0 carbondata 2.3.0 （当前最新）

源码修改

1: 将源码中的files.toArray 改为 files.toSeq 否则编译报错

 polymorphic expression cannot be instantiated to expected type

  def createFilePartition(index: Int, files: ArrayBuffer[PartitionedFile]): FilePartition = {FilePartition(index, files.toSeq)}

2: 编译spark的时由于将pom文件仓库改为了cloudrea 的仓库编译时有一个类找不到

org.apache.spark.sql.execution.datasources.orc.OrcFileFormat

OrcFileFormat 在原生spark-sql依赖中有该类在spark-sql-cdh6.3.2中没有
3: 编译hive模块时由于将pom文件仓库改为了cloudrea 的仓库编译时有一个类找不到

   org.apache.hadoop.hive.ql.metadata.StorageHandlerInfo

StorageHandlerInfo 类在原生hive-exce 依赖而在hive-exce-cdh6.3.2中找不到该类
4: 编译时遇到findbugs-maven-plugin插件的问题：

 Failed to execute goal org.codehaus.mojo:findbugs-maven-plugin:3.0.4:check (analyze-compile) on project carbondata-core: failed with 1 bugs and 0 errors

解决方案：
1: 将 maven-duplicate-finder-plugin 插件的版本设置为1.0.9
2: 将findbugs-maven-plugin 插件的阈值改为 High

5:Carbon-processing模块报错
解决方案：添加依赖

<dependency><groupId>org.apache.htrace</groupId><artifactId>htrace-core</artifactId><version>3.1.0-incubating</version>
</dependency>

6: 找到hive-jdbc 依赖添加exclusion

<exclusions><exclusion><groupId>org.glassfish</groupId><artifactId>javax.el</artifactId></exclusion><exclusion><groupId>org.eclipse.jetty</groupId><artifactId>jetty-runner</artifactId></exclusion>
</exclusions>

编译

mvn  -DskipTests -Pspark-2.4 clean package

编译后产生的jar包路径

cdh hive集成 carbondata

     1: 第一步 ：将编译后产生的jar包放到hive auxlibs  目录中  并将 spark  jars 目录 中的spark-catalyst*.jar 和  scala*.jar  也复制到 hive auxlibs 目录中 (hive auxlibs 目录可以在cdh cm-web 控制台中找到）2: 复制编译后产生的jar包 放到 hive/lib/  和yarn/lib/ 第二步：修改hive-site.xml 配置在cm-web管理界面找到hive-site.xml 并添加如下的配置

 <property><name>hive.metastore.pre.event.listeners</name><value>org.apache.carbondata.hive.CarbonHiveMetastoreListener</value>
</property>

编译后的源码地址：

https://github.com/liutaobigdata/cdh_integrate_carbondata2.3

CDH6.3整合Carbondata相关推荐

CDH6.3.0 HUE 整合 Oozie调度
由于oozie的xml配置执行各种任务调度是在太过于繁琐,所有一般都使用hue整合oozie来使用通过hue对oozie进行配置,所以首先保证hue中 time_zone为Asia/Shanghai ...
CDH6.x安装教程(附带整合kerberos)
CDH从6.3.3版开始不再免费,6.3.2及以下版本可免费使用,大家如有需要可联系我索取安装包. 安装步骤总览: 1.配置服务器系统基础环境 2.配置本地仓库 3.安装数据库 4.安装CM 5.添加 ...
cdh的集成phoenix安装_环境篇：Kylin3.0.1集成CDH6.2.0
环境篇:Kylin3.0.1集成CDH6.2.0 Kylin是什么? Apache Kylin™是一个开源的.分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析( ...
Spark、Flink、CarbonData技术实践最佳案例解析
当前无论是传统企业还是互联网公司对大数据实时分析和处理的要求越来越高,数据越实时价值越大,面向毫秒~秒级的实时大数据计算场景,Spark和Flink各有所长.CarbonData是一种高性能大数据存储 ...
CarbonData：大数据融合数仓新一代引擎
[摘要] CarbonData将存储和计算逻辑分离,通过索引技术让存储和计算物理上更接近,提升CPU和IO效率,实现超高性能的大数据分析.以CarbonData为融合数仓的大数据解决方案,为金融转型打 ...
CDH6.3.1安装指南
CDH安装指南!!!! CDH简介 CDH基于Web的用户界面,支持大多数Hadoop组件,包括HDFS.MapReduce.Hive.Pig. HBase.Zookeeper.Sqoop,简化了大数 ...
CDH6.3.1安装
CDH6.3.1安装遇到很多问题,我想主要是由于条件有限,毕竟自己的电脑内存不如专业集群的内存大(如果是内存和硬盘充足,有些是可以避免的,甚至不会出现报错的情况),这里就介绍一下我用VMware安装的 ...
cdh6.3.2安装
1. 数仓之Cloudera Manager 1.1 CM简介 1.1.1 CM简介 Cloudera Manager是一个拥有集群自动化安装.中心化管理.集群监控.报警功能的一个工具,使得安装集群从 ...
CarbonData部署和使用
Apache CarbonData | GitHub | 文档 1 概述 CarbonData是一个开源的用于快速数据分析的新型BigData文件格式,这个项目是华为公司在2016年开 ...

CDH6.3整合Carbondata