需求说明

在过去单机系统中,生成唯一ID比较简单,可以使用MySQL的自增主键或者Oracle中的sequence, 在现在的大型高并发分布式系统中,以上策略就会有问题了,因为不同的数据库会部署到不同的机器上,一般都是多主实例,而且再加上高并发的话,就会有重复ID的情况了。至于为什么会有重复就不多说了,技术人员都懂的。

本文讲述的案例不仅仅局限于数据库中的ID主键生产,也可以适用于其他分布式环境中的唯一标示,比如全局唯一事务ID,日志追踪时的唯一标示等。

先列出笔者最喜欢的一种全局唯一ID的生成方式,注意:没有完美的方案,只有适合自己的方案,还请读者根据具体的业务进行取舍,而且可以放到客户端进行ID 的生成,没有单点故障,性能也有一定保证,而且不需要独立的服务器。

全数字全局唯一标识(来自于mongodb)

其实现在有很多种生成策略,也各有优缺点,使用场景不同。这里说的是一种全数字的全局唯一ID,为什么我比较喜欢呢,首先它是全数字,保存和计算都比较简单(想一下MySQL数据库中对数字和字符串的处理效率),而且从这个ID中可以得到一些额外的信息,不想一些UUID、sha等字符串对我们几乎没有太大帮助。好了下面就说一下具体实现过程。

ObjectId使用12字节的存储空间,每个字节存两位16进制数字,是一个24位的字符串。其生成方式如下:

12位生成规则:

[0,1,2,3] [4,5,6] [7,8] [9,10,11]

时间戳 |机器码 |PID |计数器

前四个字节时间戳是从标准纪元开始的时间戳,单位为秒,有如下特性:

时间戳与后边5个字节一块,保证秒级别的唯一性;

保证插入顺序大致按时间排序;

隐含了文档创建时间;

时间戳的实际值并不重要,不需要对服务器之间的时间进行同步(因为加上机器ID和进程ID已保证此值唯一,唯一性是ObjectId的最终诉求)。

上面牵扯到两个分布式系统中的概念:分布式系统中全局时钟同步很难,基本不可能实现,也没必要;时序一致性(顺序性)无法保证。这不属于本文范畴,感兴趣读者请自行搜索。

机器ID是服务器主机标识,通常是机器主机名的hash散列值。

同一台机器上可以运行多个mongod实例,因此也需要加入进程标识符PID。

前9个字节保证了同一秒钟不同机器不同进程产生的ObjectId的唯一性。后三个字节是一个自动增加的计数器(一个mongod进程需要一个全局的计数器),保证同一秒的ObjectId是唯一的。同一秒钟最多允许每个进程拥有(256^3 = 16777216)个不同的ObjectId。

总结一下:时间戳保证秒级唯一,机器ID保证设计时考虑分布式,避免时钟同步,PID保证同一台服务器运行多个mongod实例时的唯一性,最后的计数器保证同一秒内的唯一性(选用几个字节既要考虑存储的经济性,也要考虑并发性能的上限)。

改为全数字

上面mongodb中保存的是16进制,如果不想用16进制的话,可以修改为10进制保存,只不过占用空间会大一些。

后面的计数器留几位,具体就看你们的业务量了,设计的时候要预留出以后的业务增长量。单进程内的计数器可以使用atomicInteger。

UUID

UUID生成的是length=32的16进制格式的字符串,如果回退为byte数组共16个byte元素,即UUID是一个128bit长的数字,

一般用16进制表示。

算法的核心思想是结合机器的网卡、当地时间、一个随即数来生成UUID。

从理论上讲,如果一台机器每秒产生10000000个GUID,则可以保证(概率意义上)3240年不重复

优点:

(1)本地生成ID,不需要进行远程调用,时延低

(2)扩展性好,基本可以认为没有性能上限

缺点:

(1)无法保证趋势递增

(2)uuid过长,往往用字符串表示,作为主键建立索引查询效率低,常见优化方案为“转化为两个uint64整数存储”或者“折半存储”(折半后不能保证唯一性)

注:以下这几种需要独立的服务器

来自Flicker的解决方案(依赖数据库)

因为MySQL本身支持auto_increment操作,很自然地,我们会想到借助这个特性来实现这个功能。

Flicker在解决全局ID生成方案里就采用了MySQL自增长ID的机制(auto_increment + replace into + MyISAM)。一个生成64位ID方案具体就是这样的:

先创建单独的数据库(eg:ticket),然后创建一个表:

CREATE TABLE Tickets64 (

id bigint(20) unsigned NOT NULL auto_increment,

stub char(1) NOT NULL default '',

PRIMARY KEY (id),

UNIQUE KEY stub (stub)

) ENGINE=MyISAM

1

2

3

4

5

6

1

2

3

4

5

6

当我们插入记录后,执行SELECT * from Tickets64,查询结果就是这样的:

+-------------------+------+

| id | stub |

+-------------------+------+

| 72157623227190423 | a |

+-------------------+------+

在我们的应用端需要做下面这两个操作,在一个事务会话里提交:

REPLACEINTOTickets64 (stub)VALUES('a');

SELECTLAST_INSERT_ID();

1

2

1

2

这样我们就能拿到不断增长且不重复的ID了。

到上面为止,我们只是在单台数据库上生成ID,从高可用角度考虑,接下来就要解决单点故障问题:Flicker启用了两台数据库服务器来生成ID,通过区分auto_increment的起始值和步长来生成奇偶数的ID。

TicketServer1:

auto-increment-increment = 2

auto-increment-offset = 1

TicketServer2:

auto-increment-increment = 2

auto-increment-offset = 2

1

2

3

4

5

6

7

1

2

3

4

5

6

7

最后,在客户端只需要通过轮询方式取ID就可以了。

优点:充分借助数据库的自增ID机制,提供高可靠性,生成的ID有序。

缺点:占用两个独立的MySQL实例,有些浪费资源,成本较高。在服务器变更的时候要修改步长,比较麻烦。

基于redis的分布式ID生成器

首先,要知道Redis的EVAL,EVALSHA命令:

原理

利用redis的lua脚本执行功能,在每个节点上通过lua脚本生成唯一ID。

生成的ID是64位的:

使用41 bit来存放时间,精确到毫秒,可以使用41年。

使用12 bit来存放逻辑分片ID,最大分片ID是4095

使用10 bit来存放自增长ID,意味着每个节点,每毫秒最多可以生成1024个ID

比如GTM时间 Fri Mar 13 10:00:00 CST 2015 ,它的距1970年的毫秒数是 1426212000000,假定分片ID是53,自增长序列是4,则生成的ID是:

5981966696448054276 = 1426212000000 << 22 + 53 << 10 + 41

redis提供了TIME命令,可以取得redis服务器上的秒数和微秒数。因些lua脚本返回的是一个四元组。

second, microSecond, partition, seq

客户端要自己处理,生成最终ID。

((second * 1000 + microSecond / 1000) << (12 + 10)) + (shardId << 10) + seq;

mysql并发获取唯一数值_高并发分布式环境中获取全局唯一ID[分布式数据库全局唯一主键生成]...相关推荐

  1. mysql高并发和大流量_高并发-高并发和大流量解决方案

    高并发架构相关概念 并发 并发,在操作系统中,是指一个时间段中有几个程序都处于已启动运行到运行完毕之间,并且这几个程序都是在同一个处理机上运行,担任一个时刻点上只有一个程序在处理机上运行. 我们所说的 ...

  2. 主键由数据库mysql 映射native_Hibernate主键生成策略详解

    转载自:http://blog.csdn.net/wanghuan203/article/details/7562395 hibernate提供的主键生成策略,使我们可以在实体类的映射xml文件中设定 ...

  3. java 并发 主键_高并发数据库自增主键分析

    在一般情况下,在新增领域对象后,都需要获取对应的主键值.使用应用层来维护主键,在一定程度上有利于程序性能的优化和应用移植性的提高.在采用数据库自增主键的方案里,如果JDBC驱动不能绑定新增记录对应的主 ...

  4. net.conn read 判断数据读取完毕_高并发:缓存模式以及缓存的数据一致性

    缓存由于其高性能,支持高并发的特性,在高并发的项目中不可或缺.被大家广泛使用的有Redis,Memcached等.本文主要探讨几种常见的缓存的读写模式,以及如何来保证缓存和数据库的数据一致性. 这里大 ...

  5. 5000并发的qps是多少_高并发架构设计

    点击蓝字,关注我们 01 概述 高并发(High Concurrency)是互联网分布式系统架构设计中必须考虑的因素之一,它通常是指,通过设计保证系统能够同时并行处理很多请求. 高并发一方面可以提高资 ...

  6. 队列处理高并发_高并发场景下缓存处理的一些思路

    在实际的开发当中,我们经常需要进行磁盘数据的读取和搜索,因此经常会有出现从数据库读取数据的场景出现. 但是当数据访问量次数增大的时候,过多的磁盘读取可能会最终成为整个系统的性能瓶颈,甚至是压垮整个数据 ...

  7. java设计模式并发_[高并发Java 七] 并发设计模式

    [高并发Java 七] 并发设计模式 [高并发Java 七] 并发设计模式 为什么80%的码农都做不了架构师?>>> 在软件工程中,设计模式(design pattern)是对软件设 ...

  8. 高并发编程(四)高并发解决方案从前端到数据库

    1. 高并发和大流量解决方案 高并发架构相关概念 并发:在操作系统中,是指一个时间段中有几个程序都处于已启动运行到运行完毕之间,且这几个程序都是在同一个处理机上运行,但任一个时刻点上只有一个程序在处理 ...

  9. Java高并发秒杀API(四)之高并发优化

    Java高并发秒杀API(四)之高并发优化 1. 高并发优化分析 关于并发 并发性上不去是因为当多个线程同时访问一行数据时,产生了事务,因此产生写锁,每当一个获取了事务的线程把锁释放,另一个排队线程才 ...

最新文章

  1. maven setting.xml配置说明
  2. web应用的负载均衡、集群、高可用(HA)解决方案
  3. DataTable添加行的方法
  4. ubuntu中mysql怎么退出命令_Ubuntu下MySQL简单操作
  5. Vue 项目结构介绍
  6. Linux 命令源码 —— cat
  7. java day06【类与对象、封装、构造方法】
  8. SRCNN论文翻译(Image Super-Resolution Using Deep Convolutional Networks)
  9. static taint IoT vul location
  10. html校园网页设计作品欣赏,html网页设计作品
  11. python多线程实现UDP网络通信代码演示
  12. 数据挖掘项目之Airbnb 新用户的民宿预定结果预测
  13. 中国象棋纯CSS版--冰极峰
  14. 2023拼多多商品详情,拼多多sku采集
  15. 基于JavaEE的游泳馆管理系统_JSP网站设计_SQLServer数据库设计
  16. AI电话机器人有没有效果?具体的功能都有哪些?
  17. 【MATLAB教程案例47】基于双目相机拍摄图像的三维重建matlab仿真
  18. Recsys 2018长篇论文总结
  19. python集合优化实践
  20. 那些async、await 魔鬼细节

热门文章

  1. 元素加了position:absolute则该元素的text-align:center居中失效的解决办法
  2. [ZJJOI2013]K大数查询 整体二分
  3. DataFrame.to_dict(orient='dict')英文文档翻译
  4. C# 如何跨平台调用C++的函数指针!
  5. JavaScript高级特征之面向对象笔记
  6. [ Javascript ] JavaScript中的定时器(Timer) 是怎样工作的!
  7. 使用MJRefresh自定义下拉刷新,上拉加载动画
  8. Linux下面的IO模型
  9. (转)求单链表是否有环,环入口和环长
  10. Android N 新特性 + APP开发注意事项