一、复制原理

MongoDB的复制功能是使用操作日志oplog实现的,oplog包含主节点(Master)的每一次写操作,oplog是local本地数据库中的一个数据集合,其它非主节点(Secondary)通过读取主节点的oplog集合中的记录同步到对应的集合,然后再写入到自身的local数据库的oplog集合中。每个节点都维护着自己的oplog,记录着每一次从主节点复制数据的操作。这样每个成员都可以作为同步源提供给其它成员使用。

注意:需要注意Secondary节点同步数据的顺序是先同步数据,然后再写入oplog;这点和mysql的机制不同。但是每个节点oplog中记录的同步数据是完全一致的,所以也不担心被执行多次。

二、oplog集合

1.insert操作

/* 1 */{"ts" : Timestamp(1520580648, 1),"t" : NumberLong(20),"h" : NumberLong(-8701728013874689868),"v" : 2,"op" : "i","ns" : "test.person","ui" : UUID("782befd9-80ae-4a2c-86ae-33a147e7c948"),"wall" : ISODate("2018-03-09T07:30:48.120Z"),"o" : {"_id" : ObjectId("5aa2382f7239a98c7e679114"),"name" : "zhang"}
}

2.update操作

/* 1 */{"ts" : Timestamp(1520584444, 2),"t" : NumberLong(20),"h" : NumberLong(7151217369265341585),"v" : 2,"op" : "u","ns" : "test.person","ui" : UUID("782befd9-80ae-4a2c-86ae-33a147e7c948"),"o2" : {"_id" : ObjectId("5aa2382f7239a98c7e679114")},"wall" : ISODate("2018-03-09T08:34:04.777Z"),"o" : {"$v" : 1,"$set" : {"name" : "wang"}}
}

  • ts: 操作时间,当前timestamp + 计数器,计数器每秒都被重置
  • h:操作的全局唯一标识
  • v:oplog版本信息
  • op:操作类型:
  1. i:插入操作
  2. u:更新操作
  3. d:删除操作
  4. c:执行命令(如createDatabase,dropDatabase)
  5. n:空操作,特殊用途
  • ns:操作针对的集合
  • ui:
  • o:操作内容,如果是更新操作
  • o2:操作查询条件,仅update操作包含该字段
  • wall:记录的时间戳。

3.查询oplog集合

db.oplog.rs.find({"op":{$in:["i","u","d"]}}).sort({"wall":-1});

三、初始化同步

1.选择一个成员作为同步源,在local.me中创建标识符;删除已存在的数据库。

2.将同步源的所有数据复制到本地。所有的操作都被集合到oplog中。

3.将第一个oplog同步中的操作记录下来。

4.创建相关索引,如果集合比较大该过程可能会花费很长的时间。

5.将创建索引过程中同步源增加的记录同步过来。

6.同步完成,修改节点状态为SECONDARY

四、心跳

每个成员每隔两秒钟就会向其它成员发送一个心跳请求,心跳的请求信息量非常的小,用于检查每个成员的状态。

心跳最主要的功能之一就是让主节点知道自己是否满足集合“大多数”的条件。如果主节点不再得到“大多数”服务器的支持,它就会退位变成备份节点。

成员状态

Number

Name

State Description

0

STARTUP

Not yet an active member of any set. All members start up in this state. The mongod parses the replica set configuration document while inSTARTUP.

1

PRIMARY

The member in state primary is the only member that can accept write operations. Eligible to vote.

2

SECONDARY

A member in state secondary is replicating the data store. Eligible to vote.

3

RECOVERING

Members either perform startup self-checks, or transition from completing a rollback or resync. Eligible to vote.

5

STARTUP2

The member has joined the set and is running an initial sync.

6

UNKNOWN

The member’s state, as seen from another member of the set, is not yet known.

7

ARBITER

Arbiters do not replicate data and exist solely to participate in elections.

8

DOWN

The member, as seen from another member of the set, is unreachable.

9

ROLLBACK

This member is actively performing a rollback. Data is not available for reads.

10

REMOVED

This member was once in a replica set but was subsequently removed.

五、选举

当一个成员无法到达主节点时,它就会申请被选举为主节点。希望被选举为主节点的成员会向它能到达的所有成员发送通知。如果这个成员不符合候选人的要求,其它成员可能会知道相关原因:这个成员的数据落后于副本集,或者已经有一个运行中的主节点(希望被选举为主节点的成员无法到达这个主节点)。在这些情况下,其它成员不会允许进行选举。

如果没有其它成员反对,其他成员就会对这个成员进行选举投票,如果满足副本集中“大多数”赞成票,它就被选举成功,转换成为主节点。否则选举失败仍然处于备份节点状态,之后还可以再次申请被选举为主节点。而主节点会一直主节点状态,除非它由于不再满足“大多数”的要求或者宕机而退位,另外副本集被重新配置也会导致主节点退位。

在网络良好的情况下,同时投票服务器也正常运行那么选举过程会很快,由于节点之间的互ping是每隔2S,所以如果有主节点不可用那么2S之内就会有成员发现,然后就会立即开始选举,整个过程正常只会花费几毫秒。如果存在网络问题或者服务器过载响应缓慢都有可能触发选举。在这种情况下,心跳会在最多10S之后超时。如果选举打成平局,每个成员都需要等待30S才能开始下一次选举,所以如果发生太多错误的情况下选举可能会花费几分钟的时间。

六、回滚

一般情况下跨数据中心复制要比同数据中心复制慢。

上图的两个数据中心之间出现网络故障,DC1最后的操作是126,DC2最后的操作是125;DC1的126操作还没有被复制到DC2;由于采取的是多数节点的投票机制,DC2数据中心的副本满足“大多数”节点的要求(一共5台服务器,3台服务器即可超过半数投票)。因此其中一台服务器会被选举成为新的主节点,这个主节点会继续后续的写操作。假设在DC1的网络恢复之前DC2已经操作到了130。

DC1

123

124

125

126

DC2

123

124

125

126''

127''

128''

129''

130''

在DC1网络恢复之后,DC1就会从DC2同步126之后的操作,但是会发现这个操作是无法操作的,这时候DC1和DC2就会进入回滚过程,DC1和DC2会查找到二者共同的操作点125,DC1和DC2都会回滚到125,然后二者才会继续后面的同步操作

注意:如果回滚的数据量比较大需要很长的时间,这时可能会导致回滚失败,对于回滚失败的节点,必须要重新进行同步。一般造成这种情况的主要原因是备份节点远远落后于主节点,而这时主节点挂了。

备注:

作者:pursuer.chen

博客:http://www.cnblogs.com/chenmh

本站点所有随笔都是原创,欢迎大家转载;但转载时必须注明文章来源,且在文章开头明显处给明链接,否则保留追究责任的权利。

《欢迎交流讨论》

MongoDB 复制机制相关推荐

  1. Raft与MongoDB复制集协议比较

    在一文搞懂raft算法一文中,从raft论文出发,详细介绍了raft的工作流程以及对特殊情况的处理.但算法.协议这种偏抽象的东西,仅仅看论文还是比较难以掌握的,需要看看在工业界的具体实现.本文关注Mo ...

  2. MongoDB 复制集节点增加移除及节点属性配置

    复制集(replica Set)或者副本集是MongoDB的核心高可用特性之一,它基于主节点的oplog日志持续传送到辅助节点,并重放得以实现主从节点一致.再结合心跳机制,当感知到主节点不可访问或宕机 ...

  3. MongoDB 复制集 (一) 成员介绍

       一 MongoDB 复制集简介          MongoDB复制集机制主要分为两种:          Master-Slave    (主从复制)       这个已经不建议使用     ...

  4. MongoDB复制集(Replication Sets)介绍

    近年来,随着大数据越来越火,非关系型数据库的重要性被越来越多的人所认知,越来越多的开发者逐渐加入到NoSQL的阵营中.我们知道NoSQL是Not Only SQL的意思,既然如此,很多关系型数据库所支 ...

  5. MongoDB复制集与Raft协议异同点分析

    此文已由作者温正湖授权网易云社区发布. 欢迎访问网易云社区,了解更多网易技术产品运营经验. 一.日志复制流程: a.raft leader节点在接收client请求后,先将请求写到日志中,再将日志通过 ...

  6. 图文了解 Kafka 的副本复制机制

    让分布式系统的操作变得简单,在某种程度上是一种艺术,通常这种实现都是从大量的实践中总结得到的.Apache Kafka 的受欢迎程度在很大程度上归功于其设计和操作简单性.随着社区添加更多功能,开发者们 ...

  7. 配置MongoDB复制集

    什么是复制集? 复制集是额外的数据副本,是跨多个服务器同步数据的过程,复制集提供了冗余并增加了数据可用性,通过复制集可以对硬件故障和中断的服务进行恢复. 复制集的优势如下: 让数据更安全 高数据可用性 ...

  8. Linux 写时复制机制原理

    在 Linux 系统中,调用 fork 系统调用创建子进程时,并不会把父进程所有占用的内存页复制一份,而是与父进程共用相同的内存页,而当子进程或者父进程对内存页进行修改时才会进行复制 -- 这就是著名 ...

  9. MongoDB复制选举原理及复制集管理

    一.MongoDB复制集的选举原理 复制是基于操作日志oplog,相当于MySQL中的二进制日志,只记录发生改变的记录.复制是将主节点的oplog日志同步应用到其他从节点的过程. 复制集的节点是通过选 ...

最新文章

  1. 从oracle中读取图片,Pb从oracle中读取和保存图片
  2. nginx mozilla_我发现Mozilla的私人浏览模式存在重大缺陷。
  3. python去掉列表中的单引号_Python:如何从列表项中删除单引号(Python: How to remove single quotes from list item)...
  4. Hurst exponent(赫斯特指数)代码与R/S值计算——python
  5. 埃夫特机器人离线编程软件_工业机器人离线编程与虚拟仿真软件
  6. 对讲机的单工、双工介绍
  7. PS2有线手柄的SPI协议
  8. NanoMsg框架|Android的各模式通讯封装(不另编译动态库附DEMO地址)
  9. 基于java校园志愿者管理系统(java毕业设计)
  10. 【文献阅读笔记】之Label Refinement Network for Coarse-to-Fine Semantic Segmentation
  11. python获取股票的市盈率_如何利用python获取股票行情信息?
  12. WhatsApp收不到验证码怎么解决呢?华为手机| 安卓手机| 苹果手机
  13. 侯捷c++课程学习一
  14. 计算机系统能及时处理过程,在( )操作系控制下,计算机系统能及时处理由过程控制反馈的数据并做出响应。...
  15. ccc 邮箱_CCC的完整形式是什么?
  16. ACA世界大赛_让青年设计发声, 第二期!
  17. edge浏览器下载插件出现Download interrupted
  18. 某意大利小哥,竟靠一个缓存中间件直接封神?
  19. 服务器突然Out of memory的问题排查
  20. C / C++ 计算程序运行的时间

热门文章

  1. python推荐淘宝物美价廉商品 2.0
  2. 分布式缓存DistributedCache的使用
  3. CSS Overflow属性详解(转)
  4. jbpm 4.3 与 spring 集成
  5. oracle-sql汇总
  6. C#-几个STL相关
  7. 【Linux 内核】线程调度示例一 ② ( 获取指定调度策略的最大和最小优先级 | 代码示例 )
  8. 【数字信号处理】相关函数应用 ( TDOA 时差估计实例 | 调制波特率 | 带宽 | 码元数量 | 信息量 )
  9. 【运筹学】表上作业法 ( 示例 | 使用 “ 最小元素法 “ 找初始基可行解 )
  10. 【Android 内存优化】Bitmap 内存占用计算 ( Bitmap 图片内存占用分析 | Bitmap 内存占用计算 | Bitmap 不同像素密度间的转换 )