点击蓝字获取更多精彩信息

Clickhouse是一个用于联机分析处理(OLAP)的列式数据库管理系统(columnar DBMS)。随着业务的增长走到尽头,查询会变得越来越慢。你可能通过增加更多的内存,订购更快的磁盘等等来解决问题(纵向扩展),但这只是拖延解决本质问题。如果你的需求是解决怎样快速查询出结果,那么ClickHouse也许可以解决你的问题。

目录

ClickHouse介绍

  • 特点

  • 适用场景

  • 核心概念

最佳实践:

  • 安装部署

  • 分布式集群

  • 表的创建

  • 数据写入

  • 业务查询

  • 集群监控

介绍

science & technology

ck的来源和基本介绍我们上边已经说过了,对于他的特点无非也是对传统数据库及hadoop、spark这些巨无霸的某些方面有独特的性能,简单点说就是列式存储数据库,数据压缩;关系型、支持SQL;分布式并行计算,把单机性能压榨到极限;高可用;数据量级在PB级别。

适用场景从社区分享的案例看主要有以下3类:日志数据的行为分析,标签画像的分析,数据集市层分析。

接下来我们再说说他的几个基本的概念:

1、表引擎(Engine)

表引擎决定了数据在文件系统中的存储方式,常用的也是官方推荐的存储引擎是MergeTree系列,当然引擎的选择需要适用于场景的需求,后面我们会细讲。

2、表分区(Partition)

表中的数据可以按照指定的字段分区存储,每个分区在文件系统中都是都以目录的形式存在。常用时间字段作为分区字段,数据量大的表可以按照小时分区。如果你了解过hbase、hive的分区,你会很容易理解。

3、分片(Shard)

一个分片本身就是ClickHouse一个实例节点、获取你还在ES中听过分片这个词,其实也差不多,对于集群模式,多个分片组成集群。

4、复制集(Replication)

简单理解就是相同的数据备份,在ClickHouse中通过复制集,我们实现了保障数据可靠性外,也通过多副本的方式,增加了ClickHouse查询的并发能力、我们在联想一下ES,就是ES的副本这个逻辑嚒。

5、集群(Cluster)

多个ClickHouse实例组成一个集群,哦对,就是你理解的集群那个意思。

实践

▶ 部署安装

ClickHouse安装部署需要四个安装包:clickhouse-client.rpmclickhouse-common-static.rpmclickhouse-server.rpmclickhouse-server-common4.rpm

最后执行rpm -ivh * 即可完成安装。

分布式集群

                       集群图例

集群关系展示

▶ 表的创建

(1) 创建本地表

(2)创建分布式表

▶ 数据的写入

load2clickhouse.sh: clickhouse-client --host=192.168.40.72 --port=9000 --query="INSERT INTO default.taxi FORMAT CSV" < /data2/ck_test/1e_A.csv

nohup time sh load2clickhouse.sh > insert.log 2>&1 &

load2clickhouse73.sh: clickhouse-client --host=192.168.40.73 --port=9000 --query="INSERT INTO default.taxi FORMAT CSV" < /data1/ck_test/1e_B.csv

nohup time sh load2clickhouse73.sh > insert73.log 2>&1 &

▶ 业务查询

ClickHouse的JDBC客户端是通过HTTP的方式与ClickHouse进行交互的,我们可以判断场景的可以基于HTTP协议做负载均衡,路由的中间件是可以满足需求的,这样我们的选择其实就有很多了。基于传统运维常见中间件的如:LVS,Nginx,HAProxy都有相关的能力,这里我们选用了Nginx。

集群监控

     基于Grafana将这些业务信息进行了可视化展现。

最后简单说一下表引擎

VvV

TinyLog

最简单的一种引擎,每一列保存为一个文件,里面的内容是压缩过的,不支持索引
这种引擎没有并发控制,所以,当你需要在读,又在写时,读会出错。并发写,内容都会坏掉。

Log

为孩子的全面发展、综合素质的全面提高,让您的孩子既能巩固以前所学的知识,做好暑假作业,并对即将开始新一学期所要学习的知识有个系统的把握。

Memory

内存引擎,数据以未压缩的原始形式直接保存在内存当中,服务器重启数据就会消失可以并行读,读写互斥锁的时间也非常短

Distributed

与 Merge 类似, Distributed 也是通过一个逻辑表,去访问各个物理表

MergeTree

这个引擎是 ClickHouse 的重头戏,它支持一个日期和一组主键的两层式索引,还可以实时更新数据。

。。。。。。。

更多引擎说明,可以去官网细研,地址:https://clickhouse.tech

场景引擎是什么意思_初识ClickHouse、大数据多场景的热捧者相关推荐

  1. vue渲染大量数据如何优化_大数据量场景下的Vue性能优化

    性能优化最常见的落脚点是在网络和dom上,但是在大数据量的场景下,由于Vue本身的特性,可能会造成js运行层面的性能问题,这篇文章讨论的就是针对这一部分的性能优化方案. 模拟一个大数据量的场景 // ...

  2. 大数据平台常用组件_这款大数据智能服务平台火了!全自动化配置30+款开源大数据组件...

    在互联网市场的头部效应下,企业所面临的竞争压力越来越大,如何有效解决获客成本高.用户黏性低.变现能力弱等问题,正是越来越多的企业开始构建大数据平台的初衷.但由于大数据解决方案所涉及的组件错综复杂.技术 ...

  3. 【工业大数据】工业大数据应用场景分析;工业大数据,从何做起

    工业大数据也是一个全新的概念,从字面上理解,工业大数据是指在工业领域信息化应用中所产生的大数据.随着信息化与工业化的深度融合,信息技术渗透到了工业企业产业链的各个环节,条形码.二维码.RFID.工业传 ...

  4. 2021年大数据基础(三):​​​​​​​​​​​​​​​​​​​​​大数据应用场景

    2021大数据领域优质创作博客,带你从入门到精通,该博客每天更新,逐渐完善大数据各个知识体系的文章,帮助大家更高效学习. 有对大数据感兴趣的可以关注微信公众号:三帮大数据 目录 大数据应用场景 电商方 ...

  5. InfoQ —— 腾讯游戏大数据服务场景与应用

    简介 周东祥,本人从2010年毕业进入腾讯互动娱乐部门工作,一直致力在腾讯游戏运营开发工作.先后负责SAP业务受理系统,盗号自助系统,元数据系统以及近2年在腾讯游戏大数据运营开发中积累大量的大数据开发 ...

  6. 大数据概论、大数据概念、大数据特点(4V)、Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、大数据应用场景、大数据发展前景、大数据部门间业务流程分析

    文章目录 1.大数据概念 2.大数据特点(4V) 2.1Volume(大量) 2.2Velocity(高速) 2.3Variety(多样) 2.4Value(低价值密度) 3.大数据应用场景 4.大数 ...

  7. “互联网+工业”下的大数据应用场景分析

    工业大数据是一个全新的概念,从字面上理解,工业大数据是指在工业领域信息化应用中所产生的大数据. 随着信息化与工业化的深度融合,信息技术渗透到了工业企业产业链的各个环节,条形码.二维码.RFID.工业传 ...

  8. 大数据基础(三):​​​​​​​​​​​​​​​​​​​​​大数据应用场景

    文章目录 大数据应用场景 电商方面 传媒方面 金融领域

  9. 银行大数据应用场景:客户画像如何做?

    现在大数据的应用领域非常广泛,它几乎已经涵盖各个行业,包括但不限于金融.政府.零售.交通.制造.电信.医疗卫生以及政府的很多部门的各个领域.然而,金融行业一直是大数据应用的前沿和领航者,这与金融行业的 ...

最新文章

  1. hbase系列之:独立模式部署hbase
  2. 一句话的设计模式(转)
  3. Nature Chemistry | 化学机器学习的最佳实践:推荐的一套标准化指南
  4. C# 3.0 入门系列(一)
  5. 设计模式学习笔记——命令模式(Command)
  6. 【杂谈】有三AI季划的最核心价值在哪,听听这些同学怎么说!
  7. phpmyadmin修改mysql数据库_用phpMyAdmin修改mysql数据库密码
  8. Feign-1 Feign的简介及基础使用
  9. ECharts-图表回执组件
  10. filter过滤器_JavaWeb之 Filter(过滤器)
  11. day46-CSS3新增功能
  12. mysql的条件求和函数_mysql 带条件取count记录数,SUM()函数按条件求和
  13. 庖丁解D,游刃有余---Discuz!免费版安全性分析(转)
  14. 考研数学数学二有手就行系列之多元函数微分学(六)
  15. fatal error C1083,但文件确实却在,也能加载
  16. 巴山铁路工人吴磊自学在云上开发文件签报系统,把紧急通知及时送到铁路工人手中,确保行车安全...
  17. OpenGL学习笔记:矩阵变换
  18. CTAB-GAN:高效且可行的表格数据合成
  19. Java毕业设计_集美大学诚毅学院校友录系统设计与开发
  20. PyCharm远程开发调试

热门文章

  1. 1000道Python题库系列分享22(40个填空题)
  2. Python线性代数扩展库numpy.linalg中几个常用函数
  3. 1000道Python题库系列分享14(1道代码阅读题)
  4. Linux linux下的进程状态
  5. php随机关键词,php实现向含html文本内容随机位置插入关键词
  6. lsd 特征点匹配代码_OpenCvSharp 通过特征点匹配图片
  7. 4.3【图像镜像】-------------基于Opencv实现-----图像的镜像变换
  8. 计算机分级无法度量视频,雨林木风win7旗舰版电脑评分时出现无法度量视频播放性能...
  9. oracle显示linesize,SQL Plus输出结果的格式化(linesize、pagesize)
  10. faststart可以卸载吗_电脑上的许多Microsoft Visual c++组件,可以卸载吗?