本篇文章探讨了大数据分析之解决Hadoop的短板,实时大数据分析引擎ClickHouse解析,希望阅读本篇文章以后大家有所收获,帮助大家对相关内容的理解更加深入。

一、背景

提到大数据不得不提Hadoop,当下的Hadoop已不仅仅是当初的HDFS + MR(MapReduce)这么简单。基于Hadoop而衍生的Hive、Pig、Spark、Presto、Impala等一系列组件共同构成了Hadoop生态体系。Hadoop生态为今天的大数据领域提供着稳定可靠的数据服务。

Hadoop生态体系解决了大数据界的大部分问题,当然其也存在缺点。Hadoop体系的最大短板在于数据处理时效性。基于Hadoop生态的数据处理场景大部分对时效要求不高,按照传统的做法一般是 T + 1 的数据时效。即 Trade + 1,数据产出在交易日 + 1 天。

ClickHouse的产生就是为了解决大数据量处理的时效性。>>>>二、概述

Clickhouse,专为在线数据分析而设计。官方提供的文档表明,ClickHouse 日处理记录数“十亿级”。

1.特性采用列式存储

数据压缩

基于磁盘的存储,大部分列式存储数据库为了追求速度,会将数据直接写入内存,按时内存的空间往往很小

CPU利用率高,在计算时会使用机器上的所有CPU资源

支持分片,并且同一个计算任务会在不同分片上并行执行,计算完成后会将结果汇总

支持SQL,SQL几乎成了大数据的标准工具,使用门槛较低

支持联表查询

支持实时更新

自动多副本同步

支持索引

分布式存储查询

2.性能

根据官方提供的数据,性能表现大致如下:低延迟:对于数据量(几千行,列不是很多)不是很大的短查询,如果数据已经被载入缓存,且使用主码,延迟在50MS左右

并发量:虽然ClickHouse是一种在线分析型数据库,也可支持一定的并发。当单个查询比较短时,官方建议100 Queries / second

写入速度:在使用MergeTree引擎的情况下,写入速度大概是50 - 200M / s,如果按照1 K一条记录来算,大约每秒可写入50000 ~ 200000条记录每秒。如果每条记录比较小的话写入速度会更快

3.接口对外提供Http,JDBC两种接口方式

对内各模块间使用TCP连接通信

4.与Hadoop的区别Hadoop体系是一种离线系统,一般很难支持即席查询。ClickHouse可以支持即席查询

Hadoop体系一般不支持实时更新,都采用批量更新和写入。ClickHouse支持实时数据更新

Hadoop体系一般采用行记录存储,数据查询需要扫描所有列,当表很宽时会扫描很多用不到的列。ClickHouse是列式存储,查询只需要加载相关的列。>>>>三、引擎

Clickhouse提供了丰富的存储引擎,存储引擎的类型决定了数据如何存放、如何做备份、如何被检索、是否使用索引。不同的存储引擎在数据写入/检索方面做平衡,以满足不同业务需求。

本文由职坐标整理发布,学习更多的相关知识,请关注职坐标IT知识库!

clickhouse hadoop_大数据分析之解决Hadoop的短板,实时大数据分析引擎ClickHouse解析...相关推荐

  1. intent传递较大数据的解决和intent不能传递较大数据的原因

    一.首先提供需要在activity之间用intent传递较大数据的方法.intent不能传递较大数据,需要传递数据的时候,写一个操作类: public class DataHelper {privat ...

  2. 调研报告显示:发展大数据 贵州省仍有三短板

    记者获悉,今年10月下旬,贵州省人大财经委开展全省大数据信息产业发展情况调研.据调研报告显示,贵州省大数据信息产业在发展较快的同时存在一些突出问题和瓶颈,制约了产业的发展. 首先,信息基础设施薄弱.当 ...

  3. php大流量网站解决,PHP 大型网站 高并发大流量解决方案

    标签:htm   指定   配置   热备   耗资源   负载均衡集群   session管理   redis   mod 网站性能优化对于大型网站来说非常重要,一个网站的访问打开速度影响着用户体验 ...

  4. react 打包体积过大_彻底解决 webpack 打包文件体积过大

    webpack 把我们所有的文件都打包成一个JS文件,这样即使你是一个小项目,打包后的文件也会非常大.下面就来讲下如何从多个方面进行优化. 去除不必要的插件 刚开始用 webpack 的时候,开发环境 ...

  5. 大数据druid查询不支持分页_Druid实时大数据分析查询(六)

    Druid的数据查询过程以及查询语法 Druid提供了HTTP REST风格的查询接口.用户对数据的查询通过HTTP请求发送到查询节点(Broker Node),然后查询节点转发至历史节点(Histo ...

  6. 大数据基础之Hadoop(三)—— MapReduce

    作者:duktig 博客:https://duktig.cn (文章首发) 优秀还努力.愿你付出甘之如饴,所得归于欢喜. 本篇文章源码参看:https://github.com/duktig666/b ...

  7. 大数据基础之Hadoop(一)—— Hadoop概述

    Hadoop系列 大数据基础之Hadoop(一)-- Hadoop概述 大数据基础之Hadoop(二)-- HDFS 大数据基础之Hadoop(三)-- MapReduce 大数据基础之Hadoop( ...

  8. 大数据第一季--Hadoop(day5)-徐培成-专题视频课程

    大数据第一季--Hadoop(day5)-1777人已学习 课程介绍         大数据第一季--Hadoop(day5) 课程收益     大数据第一季--Hadoop(day5) 讲师介绍   ...

  9. 基于SparkStreaming的实时大数据处理平台

    基于SparkStreaming的实时大数据处理平台 文章目录 基于SparkStreaming的实时大数据处理平台 1.平台组件介绍 1.1 kafka消息队列 1.2 SparkStreaming ...

最新文章

  1. html浏览器影响js问题,js 浏览器兼容性问题
  2. python3 模式匹配查找文件路径 glob模块 简介
  3. java中的接口的定义以及实现关系
  4. cognos报表导出excel_有了这个报表工具,一键生成自定义的各种报表,还可以导出Excel...
  5. 微信养猫小程序源码搭建教程
  6. 马哥python课堂笔记_马哥-python-课堂笔记12-python核心数据类型及类型显示转换
  7. 如何将示例bacpac文件导入到Azure SQL数据库
  8. 如何阻止分布式拒绝服务***
  9. JAVA ajax搜索框_JAVAEE AJAX实现搜素框关键字提示语功能
  10. java 正则表达式 img src_腰酸推荐Java-Jsoup爬取妹子图
  11. 利用hashmap的java_利用Java如何实现对HashMap的集合使用
  12. win10 SystemParametersInfo 设置屏保 不好使_火爆抖音的旋转时钟屏保,超酷超炫的...
  13. 浏览器兼容性问题与解决方案
  14. arcgis图例背景白色,留出空间
  15. Win7开机提示任务管理器已停止工作解决方法
  16. Java超市会员管理系统
  17. C语言编程练习:打印九九口诀表
  18. 如何复制CD音乐(电脑小技巧)
  19. 高德地图POI分类查询
  20. 云摆摊 | 手把手教你制作ESP8266物联网创意点阵时钟,女朋友看了都想要!

热门文章

  1. G - 变形课 HDU - 1181(搜索之dfs)
  2. python 获取json中最大值_详细解析 Python 爬取 bilibili 的视频、弹幕以及封面
  3. php4 class,PHP在类中获得当前class名称_php
  4. themleft模板库_Thymeleaf模板引擎常用总结
  5. IDEA创建Maven工程
  6. oracle odbc 设置_Oracle删除不干净怎么办?
  7. win10共享打印机怎么设置_怎么设置打印机共享?
  8. 『数据库』朴实无华的数据库绪论
  9. Hadoop在MapReduce中使用压缩详解
  10. 训练神经网络适合使用交叉熵(cross_entropy)错误率,而不是分类错误率或是均方差