PHP + Mysql多个表并行查询如何实现_随笔

在PHP-FPM处理HTTP请求时，有时会遇到一个请求需要进行多次MySQL查询（在报表类应用中比较常见）。通常我们会以串行方式查询：

$link = new mysqli()

$rs1 = $link->query('SELECT * FROM table1')

while ($row = $rs1->fetch_row()) { ... }

$rs2 = $link->query('SELECT * FROM table2')

while ($row = $rs2->fetch_row()) { ... }

$rs3 = $link->query('SELECT * FROM table3')

while ($row = $rs3->fetch_row()) { ... }

串行查询方式有个缺点：在MySQL返回数据之前，PHP一直是处于空等的状态，不会继续往后执行。如果数据量大或者查询复杂，MySQL响应可能会比较慢，那么以串行方式查询会有一些延迟。给用户最直接的感受就是 Loading… 的圈圈一直打转。

那么有什么办法可以减少查询MySQL的时间？用多进程并行查询不行，因为PHP-FPM 中不允许用 pcntl_fork 一类的调用。

幸好还有 mysqlnd，mysqlnd提供了类似 stream_select 的机制（见这篇文章），可以做到在单进程中对MySQL并行查询。这主要运用了mysqli_poll 和 reap_async_query 两个函数。

还是通过例子来介绍MySQL并行查询的实施方法。假设要并行地向MySQL发出10个查询，最基本的代码应该是这样的：

1. $links = []

2. for ($i = 0 $i !== 10 $i++) {

3. $links[$i] = new mysqli('127.0.0.1', 'user', 'password', 'db1')

4. $links[$i]->query('SELECT SLEEP(1)', MYSQLI_ASYNC)

5. }

6. $allResult = []

7. while (!empty($links)) {

8. $reads = $links

9. $errors = $reject = []

10. if (!mysqli_poll($reads, $errors, $reject, null)) {

11. continue

12. }

13. foreach ($reads as $read) {

14. $idx = array_search($read, $links, true)

15. $allResult[$idx] = []

16. $result = $read->reap_async_query()

17. while ($row = $result->fetch_row()) {

18. $allResult[$idx][] = $row

19. }

20. $read->close()

21. unset($links[$idx])

22. }

23. }

解释下这段代码的含义：

2~5行，同时发起10个MySQL连接，并发出查询

注意query() 的第二个参数带上了 MYSQLI_ASYNC 表示非阻塞查询

10行，使用mysqli_poll 轮询10个连接的查询有无返回

mysqli_poll 的第一个参数$reads是个数组，包含需要轮询那些连接。mysqli_poll 执行完后，会改写$reads，改写后$reads包含的是那些已经有数据返回连接。

mysqli_poll的第四个参数，控制的是轮询的等待时间，单位是“秒”。如果像本例当中设置为null，那么mysqli_poll轮询是阻塞的：只有监听的连接中，任意一个连接有数据返回了，mysqli_poll才会返回。如果等待时间设置为0，那么每次执行mysqli_poll会立即返回，外层的while会频繁循环。

第11~19行，遍历已经有数据返回的连接

reap_async_query和普通query一样，返回的是mysqli_result，可以一行行fetch数据

20~21行，对于已经获得了数据的连接，下次mysqli_poll就不需要再轮询这个连接了，所以关闭连接，并从$links数组删除这个连接

当所有的连接都返回了数据，$links数组空了，while循环也就终止了。

使用并行查询的方式，可以大大缩短处理HTTP请求的时间，假设本例中的10个SQL查询，每个需要执行1秒。因为是并行，处理所有的查询，也只需要1秒左右。

为给那些只为获得答案的看众节省时间。提前下个结论，

mysql目前暂不具备并行运行某一查询的能力

。相信很多人有一个误解，似乎MySQL 5.4对某一查询带来的性能改进是非常巨大的。事实上，这需要针对具体应用来讲，如果追求某个具体查询的响应时间，5.4 将比5.1或之前的版本差。简单的来说，5.4提高的是并发量，而不是减少单条语句的执行时间。

初次看到这个话题的人要注意几个概念，并行和多线程不是同一个概念。“同时进行”的技术分很多类，有

查询间的并行，

查询内的并行和 *** 作内的并行

。举个生活中的例子，

如果你与其他人合租房子的话，早上起来后，多个人可以同时刷牙，洗脸和做饭，大家各忙各的（虽然女房客可能会给厕所加上mutex而其他人只能在原地spin）。单单这套房子来说，它在较短的时间内解决了好几个人的早上洗漱问题。这就是查询间并发了。

早上诸多行动中，以刷牙、做饭、吃饭这三个动作为例，我们通常的做法是把微波炉转上，然后刷牙，刷牙结束后，早饭也弄好了（至少我是这么做的），这样我们达到了查询内的并行。

再细化下去，现在加一个动作：整理电脑包，按照上一种方式我们可以按这样的顺序做事情：做饭刷牙 02 02 02—》 02 02 02吃饭 02 02 02 02 — -》02 整理电脑包

如果你有两只手的话，我们可以用一只手刷牙，另外一只手整理电脑包，这样进一步缩短你的运行时间，这样你就做到了 *** 作内的并行。

总结起来：第一种情况整体吞吐量很大，但个人的准备时间可能更长了。第二种情况，个人的处理时间减少了。第三种情况，个人的处理时间进一步减少。

有兴趣的人可以在

database system concepts

这本书中了解相关概念。查询间的并行对于数据库管理软件来说是再正常不过的功能，所以下面我们将直接跳过这类“同时进行”。从理论上讲，数据库的多个模块：IO、SQL解析和SQL执行等都可以达到并行执行的目的。

通过将关系划分到多个磁盘来减少从磁盘检索关系所需的时间，从而使得数据库IO可以并行执行。另外在一个查询中的多个联接 *** 作和排序 *** 作也可并行发生。对等值联接和自然联接, 可以将两个输入关系划分到多个处理器上, 各处理器在本地计算联接.

当然以上讨论的一切一切都基于CPU是多核的。

但是目前我个人不支持mysql并行化，这也符合很大一部分mysql开发人员的意见。理由：

就mysql目前的应用来看，使用者更在意mysql数据库的吞吐量，而不是效应速度（当然了，响应速度也是很重要的）。mysql目前的简单架构replication可大幅提高数据库端的吞吐量。

目前现存的其他开源技术亦能满足并行查询的需求如hadoop、map reduce。

最后，我们还可以利用mysql proxy来达到并行的目的。查询在mysql proxy中被划分成多个部分，各个部分可在不同的mysql服务器上查询获得数据，再由mysql proxy合并返回给读者。

Coordinator 线程负责判断事务是否可以并行执行，如果可以并行就把事务分发给 WorkThread 线程执行，如果判断不能执行，如 DDL ，跨库 *** 作等，就等待所有的worker线程执行完成之后，再由 Coordinator 执行。

一组事务同时提交也就意味着组内事务不存在冲突，故组内的事务在从节点上就可以并发执行，问题在于如何区分事务是否在同一组中的，于是在binlog中出现了两个新的参数信息 last_committed 和 sequence_number

Enjoy GreatSQL :)

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/zaji/8614559.html

PHP + Mysql多个表并行查询如何实现

发表评论

评论列表（0条）