MySQL的Binlog与主从复制_随笔

在MySQL中，可以使用多种存储引擎。其中最常用的InnoDB引擎支持事务，Redo Log和Undo Log就是InnoDB里面的工具，用于实现事务。而Binlog是MySQL层面的东西，用于实现主从复制，与使用的存储引擎无关。

通过监听并解析Mater的Binlog，也可以实现将MySQL中的数据同步到其他应用组件中（比如更新缓存）的效果。

在不发生宕机的情况下，未提交的事务和已回滚的事务是不写入Binlog日志中的，只有提交成功的事务才写入Binlog日志。这一点和Redo Log不一样，Redo Log中会记录未提交、已回滚的事务内容。

Binlog是一种逻辑日志——例如Binlog的statement格式记录原始SQL语句、RAW格式记录某一行修改前后的值——且一个事务的日志在Binlog中是连续排列的，因此要求每个事务都要串行地写入，这意味着每个事务在写Binlog之前都要排他地锁住Binlog，这会导致写的效率很低。MySQL5.6之后，通过pipline技术异步地批量化将已提交的事务内容写入Binlog。

一个事务的提交既要写Binlog日志又要写Redo Log日志，如何保证双写的原子性？一个写成功，写另外一个时发生宕机，重启后如何处理？在讨论这个问题之前，先说下Binlog自身写入的原子性问题：Binlog刷盘到一半，出现宕机，这个问题和Redo Log的写入原子性是同样的问题，通过类似于checksum的办法或者Binlog中的结束标记来判断出某个事务的Binlog这是不是不完整的Binlog，从而把不完整的部分截掉。对于客户端来说，此时宕机，事务肯定是没有提交成功的，所以截掉也没问题。下面来讲如何保证双写Binlog和Redo Log的原子性。由于双写Binlog和Redo Log发生在同一台机器上，这其实是一个内部分布式事务，可以使用两阶段提交法来实现双写的原子性。简单来说就是：

1）第一阶段（准备阶段）：MySQL Server要求innoDB完成将事务内容写入Redo Log中的工作，只等事务提交；以及，MySQL Server完成Binlog内容写入内存的工作，只等刷盘。两个都准备好之后，会向MySQL Server发送OK反馈，MySQL Server紧接着执行第二阶段。

2）第二阶段（提交阶段）：收到客户端的Commit指令，MySQL Server先将内存中的Binlog刷盘，然后让innoDB执行事务的提交。两个都完成之后，会向MySQL Server发送OK反馈，两阶段提交结束。

若双写Binlog和Redo Log的过程中发生宕机，处理思路为：

1）若宕机发生在第一阶段，此时Binlog还在内存中，宕机导致全部消失。而Redo Log记录了未提交的日志，MySQL Server重启后感知到Binlog中不存在Redo Log中记录的未提交事务，会自行回滚未提交事务的Redo Log日志；

2）若宕机发生在第二阶段，Binlog写了一半，innoDB还未执行提交，MySQL Server重启后会对Binlog做截断，对Redo Log中记录的未提交事务做回滚；

3）若宕机发生在第二阶段，Binlog写入成功，innoDB还未执行提交，MySQL Server重启后会通过checksum的办法或者Binlog中的结束标记感知到Binlog写入成功，紧接着对Binlog中存在的、但Redo Log未提交的事务发起提交。

在MySQL的Master / Slave集群模式中，有三种主从复制模式：

1）同步复制：所有的Slave都收到Master发送的Binlog，并且接收完，Master才认为事务提交成功，再对客户端返回成功。这种方式最安全，但是性能很差；

2）异步复制：只要Master事务提交成功，就对客户端返回成功。后台线程异步地将Binlog发送给Slave，然后Slave回放Binlog。这种方式性能最好，但是可能会导致数据丢失；

3）半同步复制：Master事务提交后，同时把Binlog同步给Slave，只要有部分（数量可以配置）Slave收到了Binlog，就认为事务提交成功，对客户端返回。

对于半异步复制，如果Slave超时后还未返回，也会退化为异步复制。所以无论是异步复制还是半异步复制，都无法严格保证主从中的数据完全一致，主从复制的延迟会导致主节点宕机后部分数据未来得及同步到从节点，从而丢失数据。但是主节点宕机后，还是要立即切换到从节点，保证服务的可用（牺牲一致性保证可用性），数据的丢失可以通过后续的人工干预来补偿。

MySQL 主从一直是面试常客，里面的知识点虽然基础，但是能回答全的同学不多。

比如楼哥之前面试小米，就被问到过主从复制的原理，以及主从延迟的解决方案，因为回答的非常不错，给面试官留下非常好的印象。你之前面试，有遇到过哪些 MySQL 主从的问题呢？

所谓 MySQL 主从，就是建立两个完全一样的数据库，一个是主库，一个是从库， 主库对外提供读写的 *** 作，从库对外提供读的 *** 作 ，下面是一主一从模式：

对于数据库单机部署，在 4 核 8G 的机器上运行 MySQL 5.7 时，大概可以支撑 500 的 TPS 和 10000 的 QPS， 当遇到一些活动时，查询流量骤然，就需要进行主从分离。

大部分系统的访问模型是读多写少，读写请求量的差距可能达到几个数量级，所以我们可以通过一主多从的方式， 主库只负责写入和部分核心逻辑的查询，多个从库只负责查询，提升查询性能，降低主库压力。

MySQL 主从还能做到服务高可用，当主库宕机时，从库可以切成主库，保证服务的高可用，然后主库也可以做数据的容灾备份。

整体场景总结如下：

MySQL 的主从复制是依赖于 binlog 的，也就是记录 MySQL 上的所有变化并以二进制形式保存在磁盘上二进制日志文件。

主从复制就是将 binlog 中的数据从主库传输到从库上，一般这个过程是异步的，即主库上的 *** 作不会等待 binlog 同步的完成。

详细流程如下：

当主库和从库数据同步时，突然中断怎么办？因为主库与从库之间维持了一个长链接，主库内部有一个线程，专门服务于从库的这个长链接的。

对于下面的情况，假如主库执行如下 SQL，其中 a 和 create_time 都是索引：

我们知道，数据选择了 a 索引和选择 create_time 索引，最后 limit 1 出来的数据一般是不一样的。

所以就会存在这种情况：在 binlog = statement 格式时，主库在执行这条 SQL 时，使用的是索引 a，而从库在执行这条 SQL 时，使用了索引 create_time，最后主从数据不一致了。

那么我们改如何解决呢？

可以把 binlog 格式修改为 row，row 格式的 binlog 日志记录的不是 SQL 原文，而是两个 event:Table_map 和 Delete_rows。

Table_map event 说明要 *** 作的表，Delete_rows event用于定义要删除的行为，记录删除的具体行数。 row 格式的 binlog 记录的就是要删除的主键 ID 信息，因此不会出现主从不一致的问题。

但是如果 SQL 删除 10 万行数据，使用 row 格式就会很占空间的，10 万条数据都在 binlog 里面，写 binlog 的时候也很耗 IO。但是 statement 格式的 binlog 可能会导致数据不一致。

设计 MySQL 的大叔想了一个折中的方案，mixed 格式的 binlog，其实就是 row 和 statement 格式混合使用， 当 MySQL 判断可能数据不一致时，就用 row 格式，否则使用就用 statement 格式。

有时候我们遇到从数据库中获取不到信息的诡异问题时，会纠结于代码中是否有一些逻辑会把之前写入的内容删除，但是你又会发现，过了一段时间再去查询时又可以读到数据了，这基本上就是主从延迟在作怪。

主从延迟，其实就是“从库回放” 完成的时间，与 “主库写 binlog” 完成时间的差值， 会导致从库查询的数据，和主库的不一致 。

谈到 MySQL 数据库主从同步延迟原理，得从 MySQL 的主从复制原理说起：

总结一下主从延迟的主要原因 ：主从延迟主要是出现在 “relay log 回放” 这一步，当主库的 TPS 并发较高，产生的 DDL 数量超过从库一个 SQL 线程所能承受的范围，那么延时就产生了，当然还有就是可能与从库的大型 query 语句产生了锁等待。

我们一般会把从库落后的时间作为一个重点的数据库指标做监控和报警，正常的时间是在毫秒级别，一旦落后的时间达到了秒级别就需要告警了。

解决该问题的方法，除了缩短主从延迟的时间，还有一些其它的方法，基本原理都是尽量不查询从库。

具体解决方案如下：

在实际应用场景中，对于一些非常核心的场景，比如库存，支付订单等，需要直接查询从库，其它非核心场景，就不要去查主库了。

两台机器 A 和 B，A 为主库，负责读写，B 为从库，负责读数据。

如果 A 库发生故障，B 库成为主库负责读写，修复故障后，A 成为从库，主库 B 同步数据到从库 A。

一台主库多台从库，A 为主库，负责读写，B、C、D为从库，负责读数据。

如果 A 库发生故障，B 库成为主库负责读写，C、D负责读，修复故障后，A 也成为从库，主库 B 同步数据到从库 A。

复制之所以工作得益于MySQL把对数据库的变更都记录在 binlog中，然后主库把它读出来，放到从库上去应用。当然binlog 的用途不仅限于此，比如 PITR等

在5.1.4版本以前，binlog格式只能是 statement -based replication ,在以后的版本中引入了 row-based replication 以及 mixed-based replication。

下面我会简单的介绍一下SBR、RBR、MBR 这三种格式下binlog是如何组织的，更重要的是在这三种格式下，replication是如何进行工作的。当然我主要介绍 RBR模式下的复制，因为RBR模式下我们的复制是认为是最安全的方式，即使是使用MBR也会有可能踩到坑。

在MySQL中，Binlog有两类文件，一类文件用于记录数据变更，一类文件用于记录binlog list。

Binlog list文件就是 ${HOSTNAME}-bin.index ；用于记录当前有哪些binlog

binlog的数据文件名字类似于 ${HOSTNAME}-bin.00001,这类文件是我们重点关注的对象。

先来大概的看看binlog 的文件内容：

svan-mac:mydata xiean$ mysqlbinlog -vvvv mysql-bin.000010

/*!50530 SET @@SESSION.PSEUDO_SLAVE_MODE=1*/

/*!50003 SET @OLD_COMPLETION_TYPE=@@COMPLETION_TYPE,COMPLETION_TYPE=0*/

DELIMITER /*!*/

# at 4

#151218 15:19:30 server id 5331 end_log_pos 123 CRC32 0xd483743a Start: binlog v 4, server v 5.7.9-log created 151218 15:19:30

# Warning: this binlog is either in use or was not closed properly.

BINLOG '

grNzVg/TFAAAdwAAAHsAAAABAAQANS43LjktbG9nAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA

AAAAAAAAAAAAAAAAAAAAAAAAEzgNAAgAEgAEBAQEEgAAXwAEGggAAAAICAgCAAAACgoKKioAEjQA

ATp0g9Q=

'/*!*/

# at 123

#151218 15:19:30 server id 5331 end_log_pos 154 CRC32 0x622c3733 Previous-GTIDs

# [empty]

SET @@SESSION.GTID_NEXT= 'AUTOMATIC' /* added by mysqlbinlog */ /*!*/

DELIMITER

# End of log file

/*!50003 SET COMPLETION_TYPE=@OLD_COMPLETION_TYPE*/

/*!50530 SET @@SESSION.PSEUDO_SLAVE_MODE=0*/

抽一段binlog出来看看：

# at 141

#151218 15:19:30server id 5331 end_log_pos 245

Query thread_id=3350 exec_time=11 error_code=0

at 141

当前事件在文件中的起始位置，单位bytes

#151218 15:19:30

当前事件开始时间

Server id

当前事件在哪个Server 执行的

End_log_pos

下一个事件在文件中的开始位置，即当前事件内容为 4~end_log_pos-1范围

exec_time

执行所花费的时间(如果是Master )；

error_code

执行该事件时的结果

我们把Binlog 文件拆分成3个部份

简单描述－－>

{

"header": "desc …",

"event": "xxxxxxx",

"footer": "log rotat"

}

第一部份：由 4-bytes 开始，这4-bytes 表明它是一个MySQL binlog 文件（由log_event.h 这个文件常量：BINLOG_MAGIC (0xfe 0x62 0x69 0x6e = 0xfe 'b''i''n') 表示），这也就能解释我们的第一个event 为什么起始位置是 4 了原因了。

第二部份：一个一个的 event ，每个event 根据binlog版本不同，解释出来的含义有所不同(在MySQL 5.0＋ binlog版本都使用的是 V4版本)

第三部份：也就是文件最后event用于记录log-rotation 事件，表明了接下来的日志将写入哪个文件。

Event 是binlog 记录的最小单位，event 的上一级是event group ，复制或者恢复的时候基于 event group 来重放日志。对于一个组来说，要么都执行，要么都不执行。而对于DML来说一个 event 包含多个event，而对于DDL 来说，一个event 就是一个 event group。对于每个Event里边有哪些东西，以及event group 是如何划分的我们将在下面讨论。

触发器，存储过程，函数在MySQL里边是如何处理的呢？

触发器，存储过程，函数在创建的时候都会记录Binlog

触发器在执行的时候 Master、Slave 都会被调用，Master上的触发器将会在Master上被调用，Slave上的触发器将会在Slave上被调用。

存储过程在执行的时候，Master上会被转化成具体的SQL语句存储在Binlog里边，因此在binlog里边是看不到任何 call 来调用存储过程的event 。

函数在执行的时候并不会被解析成为具体的语句，相反函数执行时和触发器比较相像，在Master上和Slave都会被调用。

三种模式下Binlog 是如何记录的

基于语句的复制：是MySQL 5.7.7 版本以前默认配置，它将SQL语句（而不是实际的数据变化）从主服务器复制到从服务器。

优点：在某些情况下，最终写入日志文件的数据更少，例如更新或者删除许多行时。对于只影响几行数据的简单语句，基于行的复制占用的空间更少。

缺点：最明显的是它不支持不确定性的语句，例如当前时间函数。

基于行的复制：使用单个的表行记录变化，而不是语句。主服务器将消息，也就是事件写入二进制日志，表示单个表行的变化。这与其他RDBMS中更加传统的复制方式类似。

优点：需要更少的锁定，意味着能够达到更高的并发。

缺点：它会产生更多需要记录的数据，占用的空间大。

混合模式日志：可以根据要记录的事件实时改变二进制日志格式。使用混合模式复制时，默认采用基于语句的复制，但是在某些情况下自动切换到基于行的复制

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/zaji/8323629.html

MySQL的Binlog与主从复制

发表评论

评论列表（0条）