hash oracle 分表_一致性Hash算法在数据库分表中的实践
最近有一个项目,其中某个功能单表数据在可预估的未来达到了亿级,初步估算在90亿左右。与同事详细讨论后,决定采用一致性Hash算法来完成数据库的自动扩容和数据迁移。整个程序细节由我同事完成,我只是将其理解并成文,供有相同问题的同行参考。
参看此文的兄弟,默认各位已经熟悉一致性hash算法了。此文仅仅阐述代码细节,实现语言为Java。
项目背景
项目是一个实验室项目
其中有一个表叫做试验表,用于存储车型的试验数据,每个试验大概有6000条数据
总计初期约有2万个车型,每个车型初期包含超过50个试验。后期还会动态增长
试验表中的数据仅需要根据车型试验ID能取出来即可,没有其他更复杂的业务逻辑
方案决策
项目正式上线初期,数据量不会直接爆发式增长到90亿,需要时间上的积累(逐步做实验),最终可能达到90亿数据,甚至超过90亿数据。
按照我们实际了解情况,oracle存储数据量达到1千万的时候,性能擅可。而Oracle官方的说法,如单表存储1g有分区(大致500万数据),查询效率非常高。而试验表中仅四个字段,每条数据数据量较小。所以我们最终决定以1000万为节点,水平拆表。当表数据达到1千万时,即增加下一波表。进行数据自动迁移。
按照90亿的总量,1000万数据一个表的划分,最终大致会产生900个左右的表。所以我们最终使用了4个数据库。1个存储其他业务模块的表,3个存储此大数据表。每个数据库大致有300张表。性能上和数量上都可达到我们的要求。
相关表结构
试验信息表(EXPERIMENT_MESSAGE),挂接车型和试验的关系。试验数据表(EXPERIMENT_DATA),存储试验数据
试验信息表:
字段
含义
ID
主键,采用UUID生成
EXPERIMENT_ID
试验表中的ID
CAR_ID
车型表中的ID
...
其余数十个字段省略
试验数据表:
字段
含义
ID
主键,采用UUID生成
EXPERIMENT_MESSAGE_ID
对应的实验信息id
X_VALUE
试验数据X值
Y_VALUE
试验数据Y值
我们采用作一致性hash的key,就是试验数据表中的EXPERIMENT_MESSAGE_ID字段。也就是说,每个试验数据表,不存则以,存则一次性大致有6000条数据。取同理。
一致性Hash算法实现
一致性Hash算法的hash部分,采用了著名的ketama算法。在此,我们不多讨论ketama算法的细节,若各位有兴趣,请查阅ketama算法
public long hash(String key) {
if (md5 == null) {
try {
md5 = MessageDigest.getInstance("MD5");
} catch (NoSuchAlgorithmException e) {
throw new IllegalStateException("no md5 algorythm found");
}
}
md5.reset();
md5.update(key.getBytes());
byte[] bKey = md5.digest();
long res = ((long) (bKey[3] & 0xFF) << 24) |
((long) (bKey[2] & 0xFF) << 16) |
((long) (bKey[1] & 0xFF) << 8) |
(long) (bKey[0] & 0xFF);
return res & 0xffffffffL;
}
有了Hash的算法,接下来就要构造Hash环了。Hash环采用的SortedMap数据结构实现。
private final SortedMap circle = new TreeMap();
其中添加节点和移除节点部分,需要根据hash算法得到节点在环上的位置,具体代码如下:
/**
* 添加虚拟节点
* numberOfReplicas为虚拟节点的数量,初始化hash环的时候传入,我们使用300个虚拟节点
* @param node
*/
public void add(T node) {
for (int i = 0; i < numberOfReplicas; i++) {
circle.put(hashFunction.hash(node.toString() + i), node);
}
}
/**
* 移除节点
* @param node
*/
public void remove(T node) {
for (int i = 0; i < numberOfReplicas; i++) {
circle.remove(hashFunction.hash(node.toString() + i));
}
}
而hash环中得到节点部分比较特殊,根据一致性hash算法的介绍,得到hash环中的节点,实际上是计算出的hash值顺时针找到的第一个节点。
/**
* 获得一个最近的顺时针节点
* @param key 为给定键取Hash,取得顺时针方向上最近的一个虚拟节点对应的实际节点
* @return
*/
public T get(Object key) {
if (circle.isEmpty()) {
return null;
}
long hash = hashFunction.hash((String) key);
if (!circle.containsKey(hash)) {
//返回此映射的部分视图,其键大于等于 hash
SortedMap tailMap = circle.tailMap(hash);
hash = tailMap.isEmpty() ? circle.firstKey() : tailMap.firstKey();
}
return circle.get(hash);
}
单表拆分实践
上面完成了一致性hash算法的实现,包含了hash算法和hash环的实现。接下来就要处理具体业务中,如何使用这个hash环和算法了。
我们业务中,主要操作这张表的数据,也就是增删查。然后我们数据库拆分成了3个,所以需要增删查的操作基本一致,都是先通过一致性hash得到库,再通过一致性hash得到表。
获取数据库名的操作如下,获取到数据库后,根据数据库名到对应的连接池中获取连接。
/**
* 根据试验信息id获取其所在库名
* DatabaseType为我们数据的枚举
* @return 数据库的名称
**/
private String getDataBase(String experimentMessageId) {
//获取数据源
DatabaseType[] databasetype = DatabaseType.values();
List dataBaselist = new ArrayList<>();
Map map = new HashMap<>();
for (DatabaseType d:databasetype) {
if (!d.equals(DatabaseType.KC)) {
dataBaselist.add(d.toString());
map.put(d.toString(), d);
}
}
//获取数据源hash
ConsistentHash dataBaseCon = getConsistentHash(dataBaselist);
//获取id所在数据源
String dataBase = dataBaseCon.get(experimentMessageId);
return dataBase;
}
获取表名的操作如下,获取到数据库后,在对应的数据库中找到需要的表,再从该表中查询数据。
/**
* 根据试验信息id获取其试验数据所在表
* @return
**/
public String getTableName(String experimentMessageId) {
String dataBase = getDataBase(experimentMessageId);
//查询所有试验数据表
List tables = experimentDataEODao.queryTbaleNames(dataBase, tableName);
ConsistentHash consistentHash = getConsistentHash(tables);
String tableName = consistentHash.get(experimentMessageId);
return tableName;
}
剩下的增删改操作和平常一致,在此不多赘述。
数据迁移实践
一致性hash势必涉及到数据迁移问题,我们采取的数据迁移方式为定时任务,针对每个数据库在每天夜里全量扫描一次。检查是否有数据量超过1000万的表,若存在这样的表,就把现有的表数量double。
数据迁移只会在同库之间迁移,不会涉及跨数据库的情况。
此方案为初步方案,后续会改进的更加智能,根据表的数量,增加不同数量的表。而不是简单的把表数量翻倍。
表创建后,将需要迁移的表数据逐个迁移。
在连接到数据源后,我们做了如下事情进行数据迁移
1.获取库中所有的表
List tables = getTables(connection, p, d.toString());
2.遍历表,检查表中数据是否超过边界线(我们为1000万)
for (int i = 0; i < tables.size(); i++) {
//查询表内数据量
int num = countByTableName(connection, p, tables.get(i));
//finalNum为边界值,此处为1000万
if (num > finalNum) {
……
}
……
}
3.根据所有的表计算现有的虚拟节点
ConsistentHash consistentHashOld = getConsistentHash(tables);
4.把表加倍
List tablesNew = deepCopy(tables); //注意一定要采用深复制
int tableSize = tablesNew.size();
for (int y = 0; y < tableSize; y++) {
String tableNameNew = tableName + (tablesNew.size() + 1);
//创建表
createTable(connection, p, d.toString(), tableNameNew);
tablesNew.add(tableNameNew);
tableDelete.add(tableNameNew);
}
5.计算加倍后的虚拟节点
ConsistentHash consistentHashNew = getConsistentHash(tablesNew);
6.数据迁移
for (int z = 0; z < tableSize; z++) {
String tableNameOld = tablesNew.get(z);
//查询试验信息id不重复的试验数据信息
List disData = selectExperimentIdDis(connection, p, tableNameOld);
List deleteList = new LinkedList<>();
for (String experimentId : disData) {
//如果数据hash计算 原所在表与新建表之后不一致,执行转移
if (!consistentHashNew.get(experimentId).equals(consistentHashOld.get(experimentId))) {
//新增到新表数据
insertHash(connection, p, experimentId, consistentHashOld.get(experimentId),
consistentHashNew.get(experimentId));
//删除数据集合
deleteList.add(experimentId);
//删除旧表数据
final int defaultDelNum = 1000;
if (deleteList.size() == defaultDelNum) {
deleteInbatch(connection, p, deleteList, tableNameOld);
deleteList.clear();
}
}
}
//删除旧表数据
if (deleteList.size() > 0) {
deleteInbatch(connection, p, deleteList, tableNameOld);
}
}
总结
以上为我们所做的一致性hash实践,其中还存在很多问题,比如迁移过程单线程导致迁移较慢、自动扩容机制不智能、迁移过程中数据访问不稳定等情况。
我们将会在后续的开发中逐步进行完善改进。
以上就是我们针对一致性hash在oracle分表中的实践
参考
一致性hash算法在memcached中的使用
一.概述 1.我们的memcacheclient(这里我看的spymemcache的源代码).使用了一致性hash算法ketama进行数据存储节点的选择.与常规的hash算法思路不同.仅仅是对我们要存 ...
一致性Hash算法在Redis分布式中的使用
由于redis是单点,但是项目中不可避免的会使用多台Redis缓存服务器,那么怎么把缓存的Key均匀的映射到多台Redis服务器上,且随着缓存服务器的增加或减少时做到最小化的减少缓存Key的命中率呢? ...
一致性Hash算法在Memcached中的应用
前言 大家应该都知道Memcached要想实现分布式只能在客户端来完成,目前比较流行的是通过一致性hash算法来实现.常规的方法是将server的hash值与server的总台数进行求余,即hash% ...
(转) 一致性Hash算法在Memcached中的应用
前言 大家应该都知道Memcached要想实现分布式只能在客户端来完成,目前比较流行的是通过一致性hash算法来实现.常规的方法是将 server的hash值与server的总台数进行求余,即hash ...
jedis中的一致性hash算法
[http://my.oschina.net/u/866190/blog/192286] jredis是redis的java客户端,通过sharde实现负载路由,一直很好奇jredis的sharde如 ...
LB中使用到的一致性Hash算法的简单实现
1.类的Diagram 2.代码实现 2.1.Node类,每个Node代表集群里面的一个节点或者具体说是某一台物理机器: package consistencyhash; import lombok. ...
什么是一致性Hash算法?
一.Redis集群的使用 我们在使用Redis的时候,为了保证Redis的高可用,提高Redis的读写性能,最简单的方式我们会做主从复制,组成Master-Master或者Master-Slave的形 ...
一致性hash算法及java实现
一致性hash算法是分布式中一个常用且好用的分片算法.或者数据库分库分表算法.现在的互联网服务架构中,为避免单点故障.提升处理效率.横向扩展等原因,分布式系统已经成为了居家旅行必备的部署模式,所以也产 ...
随机推荐
mac brew 安装php扩展报错:parent directory is world writable but not sticky
$ brew install php70-mcrypt 报错: Error: parent directory is world writable but not sticky 搜索到github的答 ...
sql server 修改表结构语法大全
1.增加字段 ) 2.删除字段 alter table table_name drop column column_name 3.修改字段类型 alter table table_name alter ...
javascript面向对象分层思维
js本身不是面向对象语言,在我们实际开发中其实很少用到面向对象思想,以前一直以为当要复用的时候才封装成对象,然而随着现在做的项目都后期测试阶段发现面向对象的作用不仅仅只是复用,可能你们会说面向对象还有 ...
Windows phone 8 学习笔记(1) 触控输入
原文:Windows phone 8 学习笔记(1) 触控输入 Windows phone 8 的应用 与一般的Pc应用在输入方式上最大的不同就是:Windows phone 8主要依靠触控操作.因此 ...
[补档][Poi2014]FarmCraft
[Poi2014]FarmCraft 题目 mhy住在一棵有n个点的树的1号结点上,每个结点上都有一个妹子. mhy从自己家出发,去给每一个妹子都送一台电脑,每个妹子拿到电脑后就会开始安装zhx牌杀毒 ...
libnids校验和引起回放包不能正常捕捉
如题 取消校验和校验即可: struct nids_chksum_ctl temp;temp.netaddr = 0;temp.mask = 0;temp.action = 1;nids_regist ...
ZAB协议简介
Zookeeper 使用 Zookeeper Atomic Broadcast (ZAB) 协议来保障分布式数据一致性. ZAB是一种支持崩溃恢复的消息广播协议,采用类似2PC的广播模式保证正常运行时 ...
Daily Scrum - 11/23
今天更新blog时发现了老师对我们daily scrum提的要求,从明天起除了简要记录组会的主要内容之外,还会总结上一个工作日每个组员的工作进度.代码提交情况和燃尽图. 今天会议内容主要是人千.章玮同 ...
Java WebSockets
https://github.com/TooTallNate/Java-WebSocket Java WebSockets This repository contains a barebones W ...
hash oracle 分表_一致性Hash算法在数据库分表中的实践相关推荐
- hash算法_一致性hash算法简介
一致性hash算法有什么用?我们为什么需要一致性hash算法?这两个问题的答案可以看这篇文章 分布式系统路由算法简介. 了解了一致性hash算法出现的背景,我们来看看什么是一致性hash算法.一致性h ...
- crc32算法_一致性hash算法负载均衡
有没有好奇过redis.memcache等是怎么实现集群负载均衡的呢? 其实他们都是通过一致性hash算法实现节点调度的. 讲一致性hash算法前,先简述一下求余hash算法: hash(object ...
- 一致性hash算法虚拟节点_一致性Hash算法原理详解
数据分片 先让我们看一个例子吧: 我们经常会用 Redis 做缓存,把一些数据放在上面,以减少数据的压力. 当数据量少,访问压力不大的时候,通常一台Redis就能搞定,为了高可用,弄个主从也就足够了: ...
- 一致性hash算法虚拟节点_一致性 Hash 算法
一致性哈希算法在1997年由麻省理工学院提出,设计目标是为了解决因特网中的热点(Hot spot)问题,初衷和CARP十分类似.一致性哈希修正了CARP使用的简单哈希算法带来的问题,使得DHT可以在P ...
- java的hash算法实现_一致性Hash算法的Java实现详解
package com.baijob.commonTools; import java.util.Collection; import java.util.SortedMap; import java ...
- hash地址_一致性Hash在负载均衡中的应用
作者:marklux 原文:http://marklux.cn/blog/90 简介 一致性Hash是一种特殊的Hash算法,由于其均衡性.持久性的映射特点,被广泛的应用于负载均衡领域,如nginx和 ...
- 压力测试过负载均衡_一致性 Hash 在负载均衡中的应用
点击上方 "程序员小乐"关注, 星标或置顶一起成长 每天凌晨00点00分, 第一时间与你相约 每日英文 If you concentrate on the ONE thing in ...
- mybatis+mysql分库分表_一种简单易懂的 MyBatis 分库分表方案
数据库分库分表除了使用中间件来代理请求分发之外,另外一种常见的方法就是在客户端层面来分库分表 -- 通过适当地包装客户端代码使得分库分表的数据库访问操作代码编写起来也很方便.本文的分库分表方案基于 M ...
- hash,bloomfilter,分布式一致性hash
场景 使用word 文档时,判断某个单词是否拼写正确 垃圾邮件过滤算法 Redis缓存穿透 bitcoin core中交易校验 需求 从海量数据中查询某个字符串是否存在? 平衡二叉搜索树 增删改查时间 ...
最新文章
- tkinter实现弹出输入对话框并获取输入对话框中的值
- 双机热备软件,Legato AAM,双机容错,集群软件,磁盘阵列
- BugBash活动分享
- 排除问题的时候不要随意修改系统筛选数据的逻辑
- 成绩排序的c语言算法,成绩排序系统(练习排序算法和复习C语言)
- GDCM:DICOM文件的输入和输出流测试程序
- Let's Encrypt 发布 ACME v2,开始测试通配符证书
- dialog能提交数据吗_你的数据库,能撑起多少并发,有数吗?
- python教程下载百度云盘到手机_Python教程百度云盘哪里找
- python将excel导入oracle,使用Python将Excel文件导入到Oracle数据库里
- vision安装过程中出错_scrapy安装过程中之Twisted的安装遇到的坑
- 线性表9 - 数据结构和算法14
- 华为p10应用市场无法连接服务器,华为p10如何连接电脑及没反应怎么解决【图文教程】...
- 提问的智慧 程序员成长之路
- 编织机上下料西门子S71200PLC和KTP700触摸屏程序博途V14
- 大数据平台任务调度与监控系统
- mysql参数化查询 in_mysql in 查询参数化
- 美团校招题 小团的装饰物
- C++中使用placement new
- 中图分类法----TU 建筑工业