目录

  • 1. 分布式的本地表
    • 1.1 分布式的创建本地表
    • 1.2 分布式的更改本地表表名
    • 1.3 分布式的删除本地表
  • 2. Distributed表
    • 2.1 创建Distributed表
    • 2.2 删除分布式表
    • 2.3 Distributed表其它语法
  • 3. Distributed表的增删改查
    • 3.1 insert
    • 3.2 select
    • 3.3 分布式本地表mutation
      • 3.3.1 分布式本地表update
      • 3.3.2 分布式本地表delete
  • 4. 数据写入时的分片规则

Clickhouse的集群部署可以参考我的Clickhouse版本21.6.5.37的分片和副本分布式安装

Distributed表需要和其它表引擎一起使用,本身不储存数据,只是作分布式本地表的一层透明代理

1. 分布式的本地表

1.1 分布式的创建本地表

clickhouse1 :)
clickhouse1 :) create table distribute_test_local on cluster sharding_ha(
:-] id UInt64,
:-] name String
:-] ) engine = ReplicatedMergeTree('/clickhouse/tables/distribute_test/{shard}', '{replica}')
:-] order by id;CREATE TABLE distribute_test_local ON CLUSTER sharding_ha
(`id` UInt64,`name` String
)
ENGINE = ReplicatedMergeTree('/clickhouse/tables/distribute_test/{shard}', '{replica}')
ORDER BY idQuery id: 23f5ef8b-02e5-4b34-b871-208cc4983325┌─host────────┬─port─┬─status─┬─error─┬─num_hosts_remaining─┬─num_hosts_active─┐
│ clickhouse2 │ 9000 │      0 │       │                   3 │                0 │
│ clickhouse3 │ 9000 │      0 │       │                   2 │                0 │
│ clickhouse1 │ 9000 │      0 │       │                   1 │                0 │
│ clickhouse4 │ 9000 │      0 │       │                   0 │                0 │
└─────────────┴──────┴────────┴───────┴─────────────────────┴──────────────────┘4 rows in set. Elapsed: 1.098 sec. clickhouse1 :) 

这里我们用{shard}{replica}两个动态宏变量代替了硬编码

1.2 分布式的更改本地表表名

clickhouse1 :)
clickhouse1 :) rename table distribute_test_local to distribute_test_local2 on cluster sharding_ha;RENAME TABLE distribute_test_local TO distribute_test_local2 ON CLUSTER sharding_haQuery id: 06884b49-2627-4b1a-a8d2-6df860a9cd8f┌─host────────┬─port─┬─status─┬─error─┬─num_hosts_remaining─┬─num_hosts_active─┐
│ clickhouse3 │ 9000 │      0 │       │                   3 │                0 │
└─────────────┴──────┴────────┴───────┴─────────────────────┴──────────────────┘
┌─host────────┬─port─┬─status─┬─error─┬─num_hosts_remaining─┬─num_hosts_active─┐
│ clickhouse2 │ 9000 │      0 │       │                   2 │                0 │
│ clickhouse1 │ 9000 │      0 │       │                   1 │                0 │
│ clickhouse4 │ 9000 │      0 │       │                   0 │                0 │
└─────────────┴──────┴────────┴───────┴─────────────────────┴──────────────────┘4 rows in set. Elapsed: 0.121 sec. clickhouse1 :)
clickhouse1 :) rename table distribute_test_local2 to distribute_test_local on cluster sharding_ha;RENAME TABLE distribute_test_local2 TO distribute_test_local ON CLUSTER sharding_haQuery id: 265a5678-f51e-4bad-8b91-91ea220bcd2b┌─host────────┬─port─┬─status─┬─error─┬─num_hosts_remaining─┬─num_hosts_active─┐
│ clickhouse3 │ 9000 │      0 │       │                   3 │                0 │
└─────────────┴──────┴────────┴───────┴─────────────────────┴──────────────────┘
┌─host────────┬─port─┬─status─┬─error─┬─num_hosts_remaining─┬─num_hosts_active─┐
│ clickhouse2 │ 9000 │      0 │       │                   2 │                0 │
│ clickhouse1 │ 9000 │      0 │       │                   1 │                0 │
│ clickhouse4 │ 9000 │      0 │       │                   0 │                0 │
└─────────────┴──────┴────────┴───────┴─────────────────────┴──────────────────┘4 rows in set. Elapsed: 0.085 sec. clickhouse1 :)

1.3 分布式的删除本地表

clickhouse1 :)
clickhouse1 :) drop table distribute_test_local on cluster sharding_ha;DROP TABLE distribute_test_local ON CLUSTER sharding_haQuery id: 61540ac6-654b-4319-98aa-3462bac7bbeb┌─host────────┬─port─┬─status─┬─error─┬─num_hosts_remaining─┬─num_hosts_active─┐
│ clickhouse1 │ 9000 │      0 │       │                   3 │                0 │
│ clickhouse3 │ 9000 │      0 │       │                   2 │                0 │
│ clickhouse4 │ 9000 │      0 │       │                   1 │                0 │
└─────────────┴──────┴────────┴───────┴─────────────────────┴──────────────────┘
┌─host────────┬─port─┬─status─┬─error─┬─num_hosts_remaining─┬─num_hosts_active─┐
│ clickhouse2 │ 9000 │      0 │       │                   0 │                0 │
└─────────────┴──────┴────────┴───────┴─────────────────────┴──────────────────┘4 rows in set. Elapsed: 0.247 sec. clickhouse1 :) 

2. Distributed表

2.1 创建Distributed表

clickhouse1 :)
clickhouse1 :) create table distribute_test_all on cluster sharding_ha(
:-] id UInt64,
:-] name String
:-] ) engine = Distributed(sharding_ha, default, distribute_test_local, rand());CREATE TABLE distribute_test_all ON CLUSTER sharding_ha
(`id` UInt64,`name` String
)
ENGINE = Distributed(sharding_ha, default, distribute_test_local, rand())Query id: 8bbd66c1-e1cc-44f3-b860-a2a892c718fa┌─host────────┬─port─┬─status─┬─error─┬─num_hosts_remaining─┬─num_hosts_active─┐
│ clickhouse2 │ 9000 │      0 │       │                   3 │                2 │
└─────────────┴──────┴────────┴───────┴─────────────────────┴──────────────────┘
┌─host────────┬─port─┬─status─┬─error─┬─num_hosts_remaining─┬─num_hosts_active─┐
│ clickhouse3 │ 9000 │      0 │       │                   2 │                0 │
│ clickhouse1 │ 9000 │      0 │       │                   1 │                0 │
│ clickhouse4 │ 9000 │      0 │       │                   0 │                0 │
└─────────────┴──────┴────────┴───────┴─────────────────────┴──────────────────┘4 rows in set. Elapsed: 0.300 sec. clickhouse1 :) 

说明:

  • 这里数据写入时的分片规则我们采用了rand()随机的模式,具体可以参考本文的第4部分
  • Distributed采用读时检测机制,对分布式表和本地表的创建顺序无要求
  • 会在集群的所有节点上创建一张Distributed表,所以从每个节点执行读写请求都是一样的

2.2 删除分布式表

clickhouse1 :)
clickhouse1 :) drop table distribute_test_all on cluster sharding_ha;DROP TABLE distribute_test_all ON CLUSTER sharding_haQuery id: ac692e90-472b-447e-9908-e4d79fa7b93a┌─host────────┬─port─┬─status─┬─error─┬─num_hosts_remaining─┬─num_hosts_active─┐
│ clickhouse1 │ 9000 │      0 │       │                   3 │                0 │
│ clickhouse3 │ 9000 │      0 │       │                   2 │                0 │
│ clickhouse4 │ 9000 │      0 │       │                   1 │                0 │
└─────────────┴──────┴────────┴───────┴─────────────────────┴──────────────────┘
┌─host────────┬─port─┬─status─┬─error─┬─num_hosts_remaining─┬─num_hosts_active─┐
│ clickhouse2 │ 9000 │      0 │       │                   0 │                0 │
└─────────────┴──────┴────────┴───────┴─────────────────────┴──────────────────┘4 rows in set. Elapsed: 0.263 sec. clickhouse1 :)

2.3 Distributed表其它语法

Distributed表的RENAME和ALTER,其中ALTER并不包括分区的操作(ATTACH PARTITION、REPLACE PARTITION等),这些语法只作用Distributed表本身,不会作用于本地表

3. Distributed表的增删改查

Distributed表支持insert、select,不支持mutation、delete,但可以用分布式操作本地表的方式来实现

3.1 insert

clickhouse1 :)
clickhouse1 :) insert into distribute_test_all(id, name) values(1, '一');INSERT INTO distribute_test_all (id, name) VALUESQuery id: e1bd2e12-1055-4095-b971-c7494c99d819Ok.1 rows in set. Elapsed: 0.069 sec. clickhouse1 :)
  • 一个Block数据块的大小由max_insert_block_size(默认1048576)控制,当一条insert语句插入的数据量小于max_insert_block_size,则insert插入的数据要么全部成功,要么全部失败;但此原则不适用于clickhouse-client命令行操作或insert select子句

3.2 select

clickhouse1 :)
clickhouse1 :) select * from distribute_test_all;SELECT *
FROM distribute_test_allQuery id: 2097dcf0-d204-4670-af5c-9c221eec82d1┌─id─┬─name─┐
│  1 │ 一   │
└────┴──────┘1 rows in set. Elapsed: 0.041 sec. clickhouse1 :) 

3.3 分布式本地表mutation

  • update和delete命令是一个异步的操作,提交后,客户端不会收到是否成功的消息
  • 可以通过system.mutations的is_done字段查看update和delete是否执行成功
  • 只有等partition分区合并的时候,才会将不要的旧数据目录删除

3.3.1 分布式本地表update

clickhouse1 :)
clickhouse1 :) alter table distribute_test_local on cluster sharding_ha update name = 'yi' where id = 1;ALTER TABLE distribute_test_local ON CLUSTER sharding_haUPDATE name = 'yi' WHERE id = 1Query id: 1ee6903f-6816-4fb0-9b2c-049b612f4382┌─host────────┬─port─┬─status─┬─error─┬─num_hosts_remaining─┬─num_hosts_active─┐
│ clickhouse2 │ 9000 │      0 │       │                   3 │                0 │
│ clickhouse1 │ 9000 │      0 │       │                   2 │                0 │
│ clickhouse3 │ 9000 │      0 │       │                   1 │                0 │
│ clickhouse4 │ 9000 │      0 │       │                   0 │                0 │
└─────────────┴──────┴────────┴───────┴─────────────────────┴──────────────────┘4 rows in set. Elapsed: 0.175 sec. clickhouse1 :)
  • primary key、partition by字段不能被update

3.3.2 分布式本地表delete

clickhouse1 :)
clickhouse1 :) alter table distribute_test_local on cluster sharding_ha delete where id = 1;ALTER TABLE distribute_test_local ON CLUSTER sharding_haDELETE WHERE id = 1Query id: 64865460-0c0b-404b-b922-d02af2faefff┌─host────────┬─port─┬─status─┬─error─┬─num_hosts_remaining─┬─num_hosts_active─┐
│ clickhouse2 │ 9000 │      0 │       │                   3 │                0 │
│ clickhouse3 │ 9000 │      0 │       │                   2 │                0 │
│ clickhouse1 │ 9000 │      0 │       │                   1 │                0 │
│ clickhouse4 │ 9000 │      0 │       │                   0 │                0 │
└─────────────┴──────┴────────┴───────┴─────────────────────┴──────────────────┘4 rows in set. Elapsed: 0.342 sec. clickhouse1 :)

4. 数据写入时的分片规则

在本文的2.1部分,我们采用的分片规则是rand(),分片键可以是Int或UInt类型,如userid, intHash64(userid); weight是整数类型,越大则落入的数据越多

集群分片和权重如下:

服务器 分片 weight 落入此分片取模的值范围
clickhouse1 01 1 0 - 0
clickhouse3 02 1 1 - 1

假设rand()返回的值为66, 则 取 模 的 值 = 66 % ( 1 + 1 ) = 0 取模的值 = 66\%(1 + 1) = 0 取模的值=66%(1+1)=0, 落入分片01

Clickhouse Distributed分布式表引擎的基本介绍和使用说明相关推荐

  1. ClickHouse Replicated*MergeTree复制表原理、Distributed分布式表原理

    一.Replicated*MergeTree复制表原理 复制表通过zookeeper实现,其实就是通过zookeeper进行统一命名服务,并不依赖config.xml的remote_servers配置 ...

  2. Clickhouse外部储存表引擎(HDFS、MySQL、JDBC、Kafka、File)

    目录 1. HDFS表引擎 1.1 准备工作 1.2 HDFS表负责读写 1.3 HDFS表负责读, 不负责写 2. MySQL表引擎 2.1 表引擎的基本操作 2.2 表引擎配合物化视图 3. JD ...

  3. DRDS分布式SQL引擎—执行计划介绍

    摘要: 本文着重介绍 DRDS 执行计划中各个操作符的含义,以便用户通过查询计划了解 SQL 执行流程,从而有针对性的调优 SQL. DRDS分布式SQL引擎 - 执行计划介绍 前言 数据库系统中,执 ...

  4. clickhouse 的mysql表引擎

    mysql表引擎 clickhouse的mysql表引擎可以和远端的mysql数据库表建立联系,这样如果远端的mysql表数据非常大的时候就可以利用clickhouse表引擎的olap能力进行数据查询 ...

  5. Clickhouse 查询分布式表子查询 (Distributed Subqueries )

    官方文档:https://clickhouse.tech/docs/en/sql-reference/operators/in/#select-distributed-subqueries 在分布式表 ...

  6. Clickhouse其它类型表引擎(Live View、Null、URL)

    目录 1. Live View表引擎 2. Null表引擎 3. URL表引擎 1. Live View表引擎 Live View不是表引擎,是一种视图,通过监听一条SQL查询语句的结果,当开启监听时 ...

  7. clickhouse的kafka表引擎 +接口表

    kafka表引擎 kafka表引擎能订阅kafka的主题消息并实时接收kafka主题数据,目前kafka表引擎支持消息的最少一次的语义,目前常用的使用clickhouse接收并处理kafka消息的方式 ...

  8. Clickhouse 分析分布式表的各类指标

    要统计本地表的话,SQL自行百度,如: selectsum(rows) as "总行数",formatReadableSize(sum(data_uncompressed_byte ...

  9. ClickHouse 合并树表引擎 MergeTree 原理分析

    目录 前言 MergeTree 存储 MergeTree思想 MergeTree存储结构 MergeTree查询 索引检索 数据Sampling 数据扫描 建表​

最新文章

  1. 用c语言编写黎曼积分计算pi,C语言实现黎曼和求定积分
  2. 块级元素(导航,图片,层)的水平和垂直居中
  3. Jmeter(二)目录介绍
  4. SWFUpload多文件上传,文件大小增大问题
  5. 腾讯回应封杀质疑;王思聪评社交软件;董明珠连任格力董事长;| 极客头条...
  6. JS与Jquery学习笔记(二)
  7. Flutter之CupertinoSwitch和Switch开关组件的简单使用
  8. 管理感悟:职责明确的结果,必然是无人管事
  9. 让惊艳无处不在 Win7桌面便签操作技巧
  10. 用python解决搬砖问题_如何像要饭一般”用“python (一)(非编程类工作/科研搬砖工)...
  11. 有屋(东莞)搬家啦~ Sketchup草图大师设计拆单 有屋拆单 全屋定制拆单 衣柜橱柜拆单
  12. Keil Assistant 插件 fromelf 文件路径报错及hex、bin、axf、elf文件之间关系
  13. Python基础+数据科学入门(四)程序控制结构
  14. 西安电子科技大学计算机应用,西安电子科技大学计算机应用技术考研
  15. Git出现 Your local changes to the following files would be overwritten by merge: con
  16. Django 表单 AuthenticationFrom自动检测user的name 和 password , has no attributes cleaned_data
  17. Ecshop3.x漏洞复现
  18. SQLSTATE=08S01通讯连接失败
  19. 深圳大学计算机与软件学院2018分数线,深圳大学录取分数线2021是多少分(附历年录取分数线)...
  20. Linux移动文件和文件夹(目录)命令

热门文章

  1. Lesson 1 A puma at large 内容鉴赏
  2. 大数据培训课程WordCount案例实操
  3. InSAR学习(四)高级的InSAR技术之基本原理
  4. InSAR技术监测大坝形变1——InSAR技术产业的研究背景
  5. 惠普178nw芯片清零_HP打印机清零方法(冷复位恢复出厂设置)
  6. 基于simulink的交流电机SPWM调速系统建模与动态仿真
  7. react实现粒子动画
  8. JUC探险-17、线程池
  9. 纯css实现扁平化360卫士logo demo
  10. nginx之configure解析以及模板简介