Linux 平均负载_系统运维

1、查看Linux系统CPU个数

2、每次发现系统变慢时，我们通常做的第一件事，就是执行top或者uptime命令

2.1、如果1分钟、5分钟、15分钟的三个值基本相同，或者相差不大，那就说明系统负载很平稳。

2.2、但如果1分钟的值远小于15 分钟的值，就说明系统最近1分钟的负载在减少，而过去15分钟内却有很大的负载。

2.3、反过来，如果1分钟的值远大于 15 分钟的值，就说明最近1分钟的负载在增加，这种增加有可能只是临时性的，也有可能还会持续增加下去，所以就需要持续观察。一旦1分钟的平均负载接近或超过了CPU的个数，就意味着系统正在发生过载的问题，这时就得分析调查是哪里导致的问题，并要想办法优化了。

eg：假设我们在一个单 CPU 系统上看到平均负载为 1.73，0.60，7.98，那么说明在过去 1 分钟内，系统有 73% 的超载，而在 15 分钟内，有 698% 的超载，从整体趋势来看，系统的负载在降低。

2.4、当平均负载高于 CPU 数量70%的时候，你就应该分析排查负载高的问题了。一旦负载过高，就可能导致进程响应变慢，进而影响服务的正常功能。

2.5、CPU 使用率，是单位时间内 CPU 繁忙情况的统计，跟平均负载并不一定完全对应

2.5.1、CPU 密集型进程，使用大量 CPU 会导致平均负载升高，此时这两者是一致的；

2.5.2、I/O 密集型进程，等待 I/O 也会导致平均负载升高，但 CPU 使用率不一定很高；

2.5.3、大量等待 CPU 的进程调度也会导致平均负载升高，此时的CPU使用率也会比较高。

3、使用工具iostat（stress）、mpstat、pidstat 等工具，找出平均负载升高的根源

3.1、stress 是一个 Linux 系统压力测试工具，这里我们用作异常进程模拟平均负载升高的场景

3.2、而 sysstat 包含了常用的 Linux 性能工具，用来监控和分析系统的性能。我们的案例会用到这个包的两个命令 mpstat 和 pidstat。

3.2.1、mpstat 是一个常用的多核 CPU 性能分析工具，用来实时查看每个 CPU 的性能指标，以及所有CPU的平均指标。

3.2.2、pidstat 是一个常用的进程性能分析工具，用来实时查看进程的 CPU、内存、I/O 以及上下文切换等性能指标

首先，在第一个终端运行 stress 命令，模拟一个 CPU 使用率 100% 的场景

接着，在第二个终端运行uptime查看平均负载的变化情况

最后，在第三个终端运行mpstat查看 CPU 使用率的变化情况

那么到底是哪个进程，导致 iowait 这么高呢？我们还是用 pidstat 来查询

首先还是运行 stress 命令，但这次模拟 I/O 压力，即不停地执行 sync

还是在第二个终端运行uptime查看平均负载的变化情况

然后，第三个终端运行mpstat查看 CPU 使用率的变化情况

那么到底是哪个进程，导致 iowait 这么高呢？我们还是用 pidstat 来查询

当系统中运行进程超出 CPU 运行能力时，就会出现等待 CPU 的进程。比如，我们还是使用 stress，但这次模拟的是 4 个进程

由于系统只有 1 个CPU，明显比 4 个进程要少得多，因而，系统的 CPU 处于严重过载状态，平均负载高达3.71

接着再运行pidstat来看一下进程的情况

系统平均负载被定义为在特定时间间隔内运行队列中的平均进程树。如果一个进程满足以下条件则其就会位于运行队列中：- 它没有在等待I/O *** 作的结果- 它没有主动进入等待状态（也就是没有调用'wait'）- 没有被停止（例如：等待终止）例如：[root@www2 init.d]# uptime 7：51pm up 2 days， 5：43， 2 users，load average： 8.13 ， 5.90 ， 4.94 命令输出的最后内容表示在过去的1 、5 、15分钟内运行队列中的平均进程数量。一般来说只要每个CPU 的当前活动进程数不大于3 那么系统的性能就是良好的，如果每个CPU 的任务数大于5 ，那么就表示这台机器的性能有严重问题。对于上面的例子来说，假设系统有两个CPU ，那么其每个CPU 的当前任务数为：8.13/2=4.065.这表示该系统的性能是可以接受的。

一、查看系统负荷

在Linux系统中，我们一般使用 uptime命令查看（ w命令和 top命令也行）。（另外，它们在苹果公司的Mac电脑上也适用。）

你在终端窗口键入uptime，系统会返回一行信息。

这行信息的后半部分，显示 "load average"，它的意思是 "系统的平均负荷" ，里面有三个数字，我们可以从中判断系统负荷是大还是小。它们的意思分别是1分钟、5分钟、15分钟内系统的平均负荷。当CPU完全空闲的时候，平均负荷为0；当CPU工作量饱和的时候，平均负荷为1。那么很显然， "load average"的值越低，比如等于0.2或0.3，就说明电脑的工作量越小，系统负荷比较轻。

二. 判断系统负荷是否过重，必须理解load average的真正含义

首先，假设最简单的情况，你的电脑只有一个CPU，所有的运算都必须由这个CPU来完成

如果CPU每分钟最多处理100个进程，那么系统负荷0.2，意味着CPU在这1分钟里只处理20个进程；系统负荷1.0，意味着CPU在这1分钟里正好处理100个进程；系统负荷1.7，意味着除了CPU正在处理的100个进程以外，还有70个进程正排队等着CPU处理。

为了电脑顺畅运行，系统负荷最好不要超过1.0，这样就没有进程需要等待了，所有进程都能第一时间得到处理。很显然，1.0是一个关键值，超过这个值，系统就不在最佳状态了，你要动手干预了。

三、系统负荷的经验法则

1.0是系统负荷的理想值吗？

不一定，系统管理员往往会留一点余地，当这个值达到0.7，就应当引起注意了。经验法则是这样的：

当系统负荷持续大于0.7，你必须开始调查了，问题出在哪里，防止情况恶化。

当系统负荷持续大于1.0，你必须动手寻找解决办法，把这个值降下来。

当系统负荷达到5.0，就表明你的系统有很严重的问题，长时间没有响应，或者接近死机了。你不应该让系统达到这个值。

四、多处理器

如果你的电脑装了2个CPU，会发生什么情况呢？

2个CPU，意味着电脑的处理能力翻了一倍，能够同时处理的进程数量也翻了一倍。

2个CPU表明系统负荷可以达到2.0，此时每个CPU都达到100%的工作量。推广开来， n个CPU的电脑，可接受的系统负荷最大为n.0 。

五、多核处理器

芯片厂商往往在一个CPU内部，包含多个CPU核心，这被称为多核CPU 。

在系统负荷方面，多核CPU与多CPU效果类似，所以考虑系统负荷的时候，必须考虑这台电脑有几个CPU、每个CPU有几个核心。然后，把系统负荷除以总的核心数，只要每个核心的负荷不超过1.0 ，就表明电脑正常运行。

怎么知道电脑有多少个CPU核心呢？

"cat /proc/cpuinfo"命令，可以查看CPU信息。"grep -c 'model name' /proc/cpuinfo"命令，直接返回CPU的总核心数。

六、最佳观察时长

最后一个问题，"load average"一共返回三个平均值----1分钟系统负荷、5分钟系统负荷，15分钟系统负荷，----应该参考哪个值？

如果只有1分钟的系统负荷大于1.0，其他两个时间段都小于1.0，这表明只是暂时现象，问题不大。

如果15分钟内，平均系统负荷大于1.0（调整CPU核心数之后），表明问题持续存在，不是暂时现象。所以，你应该主要观察"15分钟系统负荷"，将它作为电脑正常运行的指标。

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/yw/7613453.html

Linux 平均负载

发表评论

评论列表（0条）