一、评测环境

1)网络拓扑图

2)配置参数

Ø 服务器配置

二、性能对比
目前主流hadoop的文件存储格式有行存储的CSV格式,列式存储的ORC和Parquet等。本章给出的是Parquet+Spark和CarbonData+Spark在过滤查询场景和聚合计算场景的性能测试结果。

1)测试数据

创建沈阳社保的数据仓库,导入、集成1年的测试数据,如下表:

生成CarbonData格式文件,如下表:

2)过滤查询场景测试

Parquet和CarbonData在过滤查询场景下的性能对比

3)聚合计算场景测试

Parquet和CarbonData在聚合计算场景下的性能对比

4)总结分析

在过滤查询中,CarbonData的查询效率比parquet效率好,主要体现在列数据的索引查询,极大地提高了精确查询的性能。在聚合查询中,CarbonData通过使用全局字典编码来加快计算速度,这使得处理、查询引擎可以直接在编码好的数据上进行处理而不需要转换数据,数据只有在返回结果给用户的时候才转换成用户可读的形式,通过索引有效过滤文件数据块减少磁盘的IO,提高查询性能。

三、小结
CarbonData在数据查询的性能表现比Parquet好很多,在写一次读多次的场景下非常适合使用;社区比较活跃,响应也很及时。目前官网发布版本1.3.0与最新的spark稳定版Spark2.2.1集成,增加了支持标准的Hive分区,支持流数据准实时入库等新特性,相信会有越来越多的项目会使用到。

原文发布时间为:2018-07-06
本文作者:东软
本文来自云栖社区合作伙伴“ Linux宝库”,了解相关信息可以关注“ Linux宝库”。

基于Hadoop生态系统的一种高性能数据存储格式CarbonData(性能篇)相关推荐

  1. 基于hadoop和echarts的教育大数据可视化系统 毕设完整的代码+数据集

    一.摘 要 在线教育平台现在是教育体系的重要组成部分,在当前大数据时代的背景下,促进教育机构建立统一平台.统一资源管理的数字化教学系统.如何评估系统平台的健康程度.学生的学习体验和在线课程的质量对于课 ...

  2. 【VPX302】基于3U VPX总线架构的高性能数据预处理平台/XCKU115

    板卡概述         VPX302是一款基于3U VPX总线架构的高性能数据预处理FMC载板,板卡具有1个FMC+(HPC)接口,1个X8 GTH背板互联接口,可以实现1路PCIe x8:具有4路 ...

  3. 基于Hadoop架构下的FineBI大数据引擎技术原理

    随着各个业务系统的不断增加,以及各业务系统数据量不断激增,业务用户的分析诉求越来越多且变化很快,IT数据支撑方的工作变得越来越复杂. 1.数据来自多个不同的系统,存在需要跨数据源分析,需要对接各种不同 ...

  4. Hadoop生态系统:用于处理大数据的Hadoop工具

    HADOOP生态系统 在上一个Hadoop Tutorial上的博客中,我们讨论了Hadoop,其功能和核心组件.现在,下一步是了解Hadoop生态系统.在开始使用Hadoop之前,这是一个必不可少的 ...

  5. Hadoop生态系统的元数据管理和数据治理平台--Atlas 学习

    最近在规划数据治理的功能,所以研究了一下Apache Altas Atlas 介绍 Atlas 是apache下的大数据的元数据管理和数据治理平台,是Hadoop社区为解决Hadoop生态系统的元数据 ...

  6. 基于hadoop平台hive数据库处理电影数据

    资源下载地址:https://download.csdn.net/download/sheziqiong/86954452 资源下载地址:https://download.csdn.net/downl ...

  7. 基于Hadoop+Java的地区旅游大数据可视化管理(IDEA+Zookeeper+Hive+HBase+Echarts)

    目录 地区旅游大数据可视化管理 1 最终数据可视化样式 1 绪论 3 研究背景 3 研究现状 4 开发环境 4 数据抓取和清洗 5 相关技术 5 Jsoup 5 数据抓取 5 利用Jsoup抓取旅游网 ...

  8. Java实现IPv4转地址,基于纯真数据库的一种高性能实现

    因为至简网格专注于在极其受限的环境下实现复杂的服务,做到在一部安卓手机上运行完整的HTTP服务器功能,实现服务化.分布式部署等.所以互联网上有些东西非常好,却不能用. 因为要统计访问地,所以用到IP转 ...

  9. 阿里巴巴飞天大数据架构体系与Hadoop生态系统

    很多人问阿里的飞天大数据平台.云梯2.MaxCompute.实时计算到底是什么,和自建Hadoop平台有什么区别. 先说Hadoop 什么是Hadoop? Hadoop是一个开源.高可靠.可扩展的分布 ...

最新文章

  1. R语言window函数提取时序数据数据子集(subset):使用xts包将dataframe数据转化为时间序列数据(time series)、使用window函数从时间序列对象中提取数据子集
  2. NetScaler SDWAN 详细配置手册
  3. Python__数据结构与算法——树、二叉树(实现先、中、后序遍历)
  4. android 帧动画旋转,安卓动画实现
  5. VTK:可视化之ColorActorEdges
  6. reloaddata 跳动_纸跳动像素
  7. java 新浪短网址生成器,新浪短链接接口被限制?最新新浪短网址api接口
  8. process.cwd __dirname __filename 区别
  9. 如何实现wpf的多国语言
  10. 智慧解析第19集:老子开导你
  11. 计算机学院军训条幅,最新各大高校欢迎新生横幅,确认过眼神,师兄师姐Skr人才。...
  12. 酷派 CWM Recovery 6.0.1.2 For CoolPad 7728 根据最新源码编译
  13. windows批量修改文件后缀名
  14. java汉字转拼音,pinyin4j简单介绍
  15. 爬取飞卢小说网的小说
  16. BGA封装扇出过孔-BGA芯片的布局布线技巧
  17. QT EXCEL 删除整行
  18. 大数据模型交易平台案例:消费贷款客户营销分析解决方案
  19. c++ 如何用一个函数实现两个字符串的比较
  20. 蓝桥云课linux入门4:目录结构及文件基本操作

热门文章

  1. sql server varchar最大长度_来自灵魂的拷问—知道什么是SQL执行计划吗?
  2. php mysql 时间差_PHP中计算时间差的方法
  3. 英伟达新核弹GPU:4nm制程800亿晶体管,20张即可承载全球互联网流量,全新Hopper架构太炸了...
  4. 胡渊鸣的「太极图形」又融了5000万美元,接下来推出3D内容创作平台
  5. 李开复对谈张亚勤:科学家创业需要企业家伙伴,开放心态看待元宇宙 | MEET2022...
  6. 寻找MEET大会直播中奖的小伙伴,你有红包待领取~
  7. 上市3年市值缩水9成,AI教育第一股流利说谋求私有化
  8. AI硬件碎片化难题,英特尔想用“一个API”解决,还推出新的编程语言DPC++
  9. 准备您的虚拟桌面--WinXp模板
  10. jquery option 动态 selected