写在前面
cassandra3.x官方文档的非官方翻译。翻译内容水平全依赖本人英文水平和对cassandra的理解。所以强烈建议阅读英文版cassandra 3.x 官方文档。此文档一半是翻译,一半是个人对cassandra的认知。尽量将我的理解通过引用的方式标注,以示区别。另外文档翻译是项长期并有挑战的工作,如果你愿意加入cassandra git book,可以发信给我。当然你也可以加入我们的QQ群,104822562。一起学习探讨cassandra.

一个分区器决定了数据将会在集群中的节点中如何分布(包括副本)。从根本上说,一个分区器就是一个方法,根据hash从partition key产生一个token,代表一行数据。每一行数据会通过这个hash值分布在集群中。

Murmur3Partitioner 和RandomPartitioner 都是使用token将数据均匀分配到每个节点。通过ring或者其他的分组方式如keyspace,将来自所有table的数据均匀的分配。这是事实即使表使用不同的partition keys,比如usernames,或者timestamps.不仅如此,到集群的读和写请求也能均匀的分布。负载均衡被简化了因为每一部分的hash值范围都平均收到相同数量的行。更多详细的信息,请看一致性hash

这两个分区器的主要不同点在于如何去产生token hash值。RandomPartitioner 使用加密hash所以相比较Murmur3Partitioner需要花费更多的时间去产生hash值。Cassandra实际上并不需要一个加密的hash,因此使用Murmur3Partitioner能够有3-5倍的性能提升。

Cassandra提供一下partitioners,可以在cassandra.yaml文件中配置。

  • Murmur3Partitioner(默认): 基于MurmurHash hash值将数据均匀的分布在集群

  • RandomPartitioner: 基于MD5 hash值将数据均匀的分布在集群中

  • ByteOrderedPartitioner: 通过键的字节来保持数据词汇的有序分布

Murmur3是Cassandra1.2+ 默认的分区策略。这也是大多数情况新的集群的正确的选择。然而,分区器并不是可适应的。数据通过某个分区器分区后,不是很容易就能转换为另一个分区器的。

Note

如果使用了虚拟节点,你不需要去计算tokens.如果不使用虚拟节点,必须要计算tokens,然后分配给cassandra.yaml文件中[initial_token](http://docs.datastax.com/en/cassandra/3.0/cassandra/configuration/configCassandra_yaml.html#configCassandra_yaml__initial_token)参数。可以参考Generating tokens,然后使用你用的分区器对应的方法来产生token。

Murmur3Partitioner

Murmur3Partitioner 是默认的分区器,提供了更快的hashing.相比较其他的分区器,极大的提高了性能。Murmur3Partitioner 可以在虚拟节点情况下使用,如果你不使用虚拟节点,你必须要计算tokens。像Generating tokens中描述的一样。

在新集群中使用Murmur3Paritioner;你不能在一个现有的集群中更换分区器,去使用一个不同的分区方式。Murmur3Partitioner 使用MurmurHash方法,这个hashing方法为partition key创建一个64位的hash值。可能的范围值是-2^63 到(2^63)-1.

使用Murmur3Partitioner,可以在一个CQL 查询中使用token function 对结果分页

RandomPartitioner

RandomPartitioner 是Cassandra1.2之前版本的默认分区器,为了后续兼容性被包含进来了。RandomPartitioner可以和虚拟节点一起使用,然而,如果你不使用虚拟节点,你必须要计算tokens。像Generating tokens中描述的一样。RandomPartitioner 使用行key的MD5 hash值将数据均匀的分布在集群的节点上,hash 值的范围值是(2^127)-1

使用Murmur3Partitioner,可以在一个CQL 查询中使用token function 对结果分页

ByteOrderedPartitioner

Cassandra提供ByteOrderedPartitioner为的是有序分区。为了后续兼容性被包含进来了。通过键的字节来对行词汇进行排序。可以看partition key数据的实际值来计算token,采用16进制表示key的首字母。例如,如果你想让行按字母顺序排列,你可以指定一个tokenA使用16进制的41表示。

使用有序分区器允许通过主键有序扫描。这意味着你可以扫描行就好像在索引中移动游标。例如,如果你的程序使用user names作为行键值,你可以扫描用户(姓名在Jake和Joe之间)。这对于Random分区器,这种方式的查询是做不到的,因为键值按照MD5的顺序存储,而不是顺序的。

尽管对于有序分区器来说扫描行这种能力听起来是一个分棒的特性,但通过table indexes也能实现同样的功能。

因为以下原因,不建议使用有序分区器:

负载平衡难

  需要更多的管理开销去实现集群的负载平衡。一个顺序的分区器需要管理员根据行键值的可能的分布情况去手动计算 partition ranges。在实践中,一旦数据已经加载后,需要经常性的改变节点的token去适应实际数据的分布。

顺序写导致热点

  如果你的程序在某一段时间内的写入或者更新包含很多按顺序排列的行的时候,它们不会均匀的分布在集群上,会分布同一节点上。当系统处理和时间相关的数据的时候这是一个常见的问题。

多表时负载不平衡

  如果你的应用程序用到多个表,这些表有不同的行键值和不同的数据分布。在同一个集群中,对于一张表一个有序的分区对于另一个表可能会导致热点和不均匀分布。

cassandra 3.x官方文档(4)---分区器相关推荐

  1. Cassandra 3.x官方文档(1)---关于Cassandra

    写在前面 cassandra3.x官方文档的非官方翻译.翻译内容水平全依赖本人英文水平和对cassandra的理解.所以强烈建议阅读英文版cassandra 3.x 官方文档.此文档一半是翻译,一半是 ...

  2. Cassandra 3.x官方文档_cassandra.yaml配置文件

    cassandra.yaml是Cassandra的主要配置文件 重要: 修改完cassandra.yaml文件配置以后,你必须重启节点使他生效.它位于下面的目录中: • Cassandra packa ...

  3. OpenTsdb官方文档中文版----聚合器

    OpenTSDB旨在在查询执行的过程中有效地组合多个不同的时间序列.原因在于:当用户查看他们的数据,他们通常会从高层的角度开始提问,例如"数据中心的总吞吐量是多少"或"当 ...

  4. Cassandra官方文档整理

    一.概念 ApacheCassandra是一个开源.分布式分散性(没有单点故障).弹性可伸缩(动态增加减少节点).高可用性高容错(多数据中心).可协调一致性(复制因子成功数量由用户决定).面向行的数据 ...

  5. Spark官方文档整理:spark-core

    Spark 官方文档 1,spark 概述 Apache Spark 是一个快速通用的集群计算系统,它提供了提供了java,scala,python和R的高级API,以及一个支持一般图计算的优化引擎. ...

  6. k8s多master建议用几个_Kubernetes 教程之跟着官方文档从零搭建 K8S

    前言 本文将带领读者一起, 参照者 Kubernetes 官方文档, 对其安装部署进行讲解. Kubernetes 更新迭代很快, 书上.网上等教程可能并不能适用于新版本, 但官方文档能. 阅读这篇文 ...

  7. 《Redis官方文档》用Redis构建分布式锁

    <Redis官方文档>用Redis构建分布式锁 用Redis构建分布式锁 在不同进程需要互斥地访问共享资源时,分布式锁是一种非常有用的技术手段. 有很多三方库和文章描述如何用Redis实现 ...

  8. kafka官方文档学习笔记2--QuickStart

    下载kafka https://www.apache.org/dyn/closer.cgi?path=/kafka/1.0.0/kafka_2.11-1.0.0.tgz 解压安装包 > tar ...

  9. Spring Boot 2.0官方文档之 Actuator

    https://blog.csdn.net/alinyua/article/details/80009435 前言:本文翻译自Spring Boot 2.0.1.RELEASE官方文档,该Spring ...

最新文章

  1. react七——react-redux
  2. break continue 016
  3. react 下拉选项自动滚动到可视区域
  4. php自定义中文分词方法,PHPAnalysis中文分词类详解
  5. thinkpad s3 安装win8 kali双系统笔记
  6. ApacheCN 深度学习译文集 20201218 更新
  7. Bipartite Segments CodeForces - 901C (区间二分图计数)
  8. 客机客座率达到多少,航空公司才能不赔钱
  9. 受中国刺激,美国国防部又出AI计划!20亿美元推动机器推理
  10. java中length的用法
  11. 软件测试方法进行调优,性能测试调优过程
  12. 总结2012,展望2013
  13. js读写json文件
  14. c语言窗体关机程序代码,c语言 关机程序代码
  15. HLOJ486 种花小游戏
  16. android studio 前言中不允许有内容。
  17. 凯文·凯利:最伟大的产品还没有被创造出来
  18. C语言求金蝉素数,回文数 - 寂寞暴走伤的个人空间 - OSCHINA - 中文开源技术交流社区...
  19. Graphics2D 使用详解 【转】
  20. 一文看懂 redo log 与undo log

热门文章

  1. 基于阿里云 Serverless 函数计算开发的疫情数据统计推送机器人
  2. 【爬虫】一种基于网页相似度去重的爬虫系统
  3. 如何打造一款游戏外挂
  4. 用python读取身份证信息的功能分析与实现,兼述python调用dll的方法
  5. java 仿百度文库源码_java开发_模仿百度文库_OpenOffice2PDF_源码下载
  6. 女会计员转行测试,工资翻倍:你想要过什么样的生活,就要付出什么样的努力
  7. 笔试题——用java实现股票交易日的判断
  8. 时间轮算法概念;netty时间轮使用
  9. 为什么重写HashCode和Equals
  10. 并发-分布式锁质量的前世今生