MYSQL实战优化——数据页、表空间_随笔

经过前面的介绍现在我们都知道，一行一行的数据是存放在数据页里的，所以接下来我们该分析一下数据页的结构了。之前介绍过，每个数据页，实际上是默认有16kb的大小，那么这16kb的大小就是存放大量的数据行吗？明显不是的，其实一个数据页拆分成了很多个部分，大体上来说包含：文件头、数据页头，最小记录和最大记录、多个数据行、空闲空间、数据页目录、文件尾部。下面我们来看一张图：

简单来说，就是平时我们创建的那些表，其实都有一个表空间的概念，在磁盘上都会对应着“表名.ibd”这样的一个磁盘数据文件。所以在物理层面，表空间就是对应一些磁盘上的数据文件。有的表空间，比如系统表空间可能对应的是多个磁盘文件，我们自己创建的表对应的表空间可能就是对应了一个“表名.ibd”数据文件。

在表空间的磁盘文件里会有很多的数据页，但是如果一个表空间包含了太多数据页的话就不便于管理，所以在表空间里又引入了一个的概念，英文就是extent，一个数据区对应着连续的64个数据页，每个数据页是16kb，所以一个数据区是1mb，然后256个数据区被划分为一组。

对于表空间而言，它的第一组数据区的第一个数据区的前3个数据页都是固定的，里面存放了一些描述性的数据。比如fsp_hdr这个数据页，它里面就存放了表空间和这一组数据区的一些属性。ibuf_bitmap数据页，里面存放的是这一组数据页的所有insert buffer的一些信息。inode数据页，这里也存放了一些特殊信息。

我们现在先不去具体了解它们是干什么的，只要知道第一组数据区的第一个数据区的前3个数据页，都是存放一些特殊信息的。然后这个表空间里的其它各组数据区，每一组数据区的第一个数据区的头两个数据页都是存放特殊信息的，比如xdes数据页就是用来存放这一组数据区的一些相关属性的，其实就是很多描述这组数据区的东西。下面我们通过一张图来看一下表空间的存储结构。

1、linux *** 作系统的存储系统软件层原理分析以及IO调度优化原理

简单来说，linux的存储系统分为 VFS层、文件系统层，Page Cache缓存层，通用Block层、IO调度层、Block设备驱动层、Block设备层 ，如下图：

最后IO完成调度之后，就会决定哪个IO请求先执行，哪个IO请求后执行，此时可以执行的IO请求就会交给Block设备驱动层，最后经过驱动把IO请求发送给真正的存储硬件，也就是Block设备层。硬件设备完成IO读写 *** 作，最后就把响应经过上面的层级反向依次返回，最终MySQL可以得到本次IO读写 *** 作的结果。

对底层表的封装，意味着索引也是按照分区的子表定义的，而没有全局索引。（所以即使有唯一性索引，在不同子表中可能会有重复数据）

单表数据量超大时索引失效

将单表分区成数个区域，通过分区函数，可以快速地定位到数据的区域。而且相比于索引，分区不需要额外的数据结构记录每个分区的数据，代价更低。只需要一个简单的表达式就可以指向正确的分区

可以只是用简单的分区方式存放表，不要任何索引，只要将查询定位到需要的大致数据位置，通过where条件，将需要的数据限制在少数分区中，则效率是很高的。WARNNING：查询需要扫描的分区个数限制在一个很小的数量。

如果数据有明显的“热点”，可以将热点数据单独放在一个分区，让这个分区的数据能够有机会都缓存在内存中。

如果分区表达式的值可以是NULL：第一个分区会使一个特殊分区。以partition by range year(order_date)为例，所有在order_date列为NULL或者非法值的数据都会被放到第一个分区。那么所有的查询在定位分区后都会增加扫描第一个分区。而且如果第一个分区很大的时候，查询的成本会被这个“拖油瓶”分区无情的增加。

创建一个无用的第一分区可以解决这个问题，partition p_nulls values less than (0)

对于分区列和索引列不匹配的查询，虽然查询能够使用索引，但是无法通过分区定位到目标数据的分区（也就是数据分布相对更加分散）,需要遍历每个分区内的索引，除非查询中的条件同时也包含分区条件。所以期望分区条件范围被热门查询索引所包含。

对于 范围分区 技术，需要适当限制分区的数量，否则对于大量数据批量导入的场景，选择分区的成本过高。对于大多数系统，100个左右的分区是没有问题的。

对用户来说，分区表是一个独立的逻辑表，但是底层由多个物理子表组成，实现分区的代码实际上是通过对一组底层表的对象封装，但对SQL层来说是一个完全封装底层的黑盒子。

MySQL实现分区的方式也意味着索引也是按照分区的子表定义， 没有全局索引 。

分区的意思是指将同一表中不同行的记录分配到不同的物理文件中 ，几个分区就有几个.idb文件。MySQL数据库的分区是局部分区索引，一个分区中既存了数据，又放了索引。也就是说，每个区的聚集索引和非聚集索引都放在各自区的（不同的物理文件）。

1、可以让单表 存储更多的数据 。

2、 分区表的数据更容易维护 ，可以通过删除与那些数据有关的分区，更容易删除数据，也可以增加新的分区来支持新插入的数据。另外，还可以对一个独立分区进行优化、检查、修复等 *** 作。

3、部分查询能够从查询条件确定只落在少数分区上， 查询速度会很快 。

4、通过跨多个磁盘来分散数据查询，来 获得更大的查询吞吐量 。

要使定时事件起作用，MySQL的常量GLOBAL event_scheduler必须为on或者是1。

1、查看scheduler的当前状态：

2、修改scheduler状态为打开(0:off , 1:on)：

3、临时打开定时器(四种方法)：

4、永久生效的方法，修改配置文件my.cnf

5、临时开启某个事件

6、临时关闭某个事件

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/zaji/7597553.html

MYSQL实战优化——数据页、表空间

发表评论

评论列表（0条）