为何MYSQL很少用分区表，而用分库分表_随笔

分库分表是MYSQL应对大数据、高并发的常见解决方案，有很多朋友特别是熟悉ORACLE的朋友可能会问，

MYSQL有分区表，分区表同样能达到IO分散、提高性能的目的，而且更简单，更方便，为何还要采用分库分表呢。

我想主要有以下几个方便的原因：

1、MYSQL 对多CPU的支持还不是很好，还不能充分发挥多CPU的能力，如不支持并行，很多东西都不支持在线DDL等，

如果将分表数据堆积成分区表，即便IO不是问题，MYSQL自身管理上也是个问题，效率比分表差太多。

2、MYSQL分区表自身的不完善，坑太多，有时完全起不到分区表的作用，和巨大单表无二致，甚至更差。

3、分区表，分区键设计不太灵活，如果不走分区键，很容易出现全表锁，性能大幅下降。

4、自己分库分表，自己掌控业务场景与访问模式，可控。分区表，研发写了一个sql，都不确定mysql是怎么玩的，不太可控。

5、备份恢复问题，巨大的单表导致备份恢复时间成倍增加，加大整库备份恢复失败风险，在一些业务场景下，

甚至不能在有限的时间窗口内完成备份。

6、管理维护问题，如DDL，表一大简直是一场灾难。

所以，现在很多的互联网公司的一些互联网应用，很少有采用分区表的，而大都采用分库分表。

mysql分库分表一般有如下场景

其中1，2相对较容易实现,本文重点讲讲水平拆表和水平拆库,以及基于mybatis插件方式实现水平拆分方案落地。

在《聊一聊扩展字段设计》一文中有讲解到基于KV水平存储扩展字段方案,这就是非常典型的可以水平分表的场景。主表和kv表是一对N关系,随着主表数据量增长,KV表最大N倍线性增长。

这里我们以分KV表水平拆分为场景

对于kv扩展字段查询,只会根据id + key 或者 id 为条件的方式查询,所以这里我们可以按照id 分片即可

分512张表(实际场景具体分多少表还得根据字段增加的频次而定)

分表后表名为kv_000 ~ kv_511

id % 512 = 1 .... 分到 kv_001,

id % 512 = 2 .... 分到 kv_002

依次类推!

水平分表相对比较容易,后面会讲到基于mybatis插件实现方案

场景:以下我们基于博客文章表分库场景来分析

目标:

表结构如下(节选部分字段):

按照user_id sharding

假如分1024个库,按照user_id % 1024 hash

user_id % 1024 = 1 分到db_001库

user_id % 1024 = 2 分到db_002库

依次类推

目前是2个节点,假如后期达到瓶颈,我们可以增加至4个节点

最多可以增加只1024个节点,性能线性增长

对于水平分表/分库后,非shardingKey查询首先得考虑到

基于mybatis分库分表,一般常用的一种是基于spring AOP方式, 另外一种基于mybatis插件。其实两种方式思路差不多。

为了比较直观解决这个问题,我分别在Executor 和StatementHandler阶段2个拦截器

实现动态数据源获取接口

测试结果如下

由此可知,我们需要在Executor阶段切换数据源

对于分库:

原始sql:

目标sql:

其中定义了三个注解

@useMaster 是否强制读主

@shardingBy 分片标识

@DB 定义逻辑表名库名以及分片策略

1)编写entity

Insert

select

以上顺利实现mysql分库,同样的道理实现同时分库分表也很容易实现。

此插件具体实现方案已开源: https://github.com/bytearch/mybatis-sharding

目录如下:

mysql分库分表,首先得找到瓶颈在哪里(IO or CPU),是分库还是分表,分多少？不能为了分库分表而拆分。

原则上是尽量先垂直拆分后水平拆分。

以上基于mybatis插件分库分表是一种实现思路,还有很多不完善的地方,

例如:

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/zaji/7420167.html

为何MYSQL很少用分区表，而用分库分表

发表评论

评论列表（0条）