Postgresql 在主备架构的场景下,支持同步流复制功能。本文将以一主一备架构为例,介绍同步流复制(同步备机)的工作方式以及内核代码的相关原理。
工欲善其事,必先利其器。我们现简单的配置一个同步备机,方便后续调试研究代码。
首先配置主库,并使用 pg_basebackup 拉起一个备库
-- 主库添加流复制用户
create role repl login replication;-- 主库 pg_hba.conf 加一行
host replication repl 127.0.0.1/32 trust-- 拉起备库
./pg_basebackup -h localhost -U repl -p 5432 -P -v -R -X stream -D ../data_b -l backup_label
echo "port = 5433" >> ../data_b/postgresql.conf
echo "hot_standby = on" >> ../data_b/postgresql.conf
./pg_ctl start -D ../data_b -l logfile_b
这时候,主备之间还属于异步复制状态,需要主库设置以下两个参数配置同步复制。
alter system set synchronous_commit = on;
alter system set synchronous_standby_names='walreceiver';
select pg_reload_conf();
现在备机已属于同步状态

为了方便后续调试,设置下面两个参数
client_min_messages=LOG
wal_debug=on
首先使用 gdb 卡住备库的 walreceiver 进程,这时候主库执行一条 insert 语句,其结果如下

主库写了两条 XLOG,然后卡住不动:
此时使用 gdb 去看主库,发现其卡在 SyncRepWaitForLSN 函数中等待 latch。当我们释放卡住备库 walreceiver 进程的 gdb 后,latch 被唤醒,该事物最终被标记为提交。
其大致原理如下图所示,主库刷完 XLOG 后,在 SyncRepWaitForLSN 函数中等待 latch。

接下来详细介绍下主库等待、唤醒这一套的实现机制,首先需要熟悉以下变量和函数:
具体流程如下:

这里由于主库先写了 XLOG 并且已落盘,如果此时:
那么就会出现一个场景:第 3 步主库会把这条数据恢复出来,而备库 promote 后就不会有这条数据了。由于 promote 的存在,这里我们仍然认为数据是一致的(如果不 promote,该条事物终究会在备库提交)。
上一篇:消息队列的概念和原理
下一篇:草原的批注