如何对占据服务器大量cpu资源的用户进行限制_系统运维

研究生工作过程中遇到有学生无视linux服务器实际的CPU核心数，开出几十上百个运算密集型进程，其他用户登陆困难或无响应等异常情况，需要对占用大头（CPU老虎？）的CPU资源做出限制。

使用cgroup可以实现用户组级别的限制，把老虎们扔进限制组就能解决问题，如果需要分别限制用户那就每个老虎一个组（前提是老虎属于少数，如果多数人都是老虎那就得考虑加CPU甚至加服务器了，组里穷，提买服务器基本属于说废话）。

注意linux中创建用户时默认会创建同名的组，所以按用户限制时不需要额外建组，直接限制用户的名字即可。

1.安装cgroup

服务器环境为centos7，使用yum安装cgroup：

2.配置cgroup

设置cgroup服务开机启动：

编辑/etc/cgconfig.conf：

编辑/etc/cgrules.conf：

第一列为用户（组）名，第二列为限制类型，第三列为限制器名，即前述/etc/cgconfig.conf中的限制器

注：同一个限制器下建议只放置一个用户，如果放置多个用户（或者含多个用户的组）会导致组内争抢限制器的资源，组内一个人高占用会使得其他人卡住，违背了使用限制器的初衷“限制少数高占用用户，使得低占用用户体验流畅”。

重启服务：

完成

面对这种CPU老虎，服务器终于重新丝滑流畅了起来

并发socket连接数的多少决定于系统资源的多少，没有一个常值的．在实际开发或者linux系统管理中也会根据需要进行相应的设置．

1．一般来说每一个网络连接，都会建立相应的socket句柄，同时每个连接也会有标准输入输出等基本的文件文件句柄，而且每一个socket连接都是进行文件 *** 作的，因此连接数决定于系统资源．

2．Linux上一般可以通过ulimit来进行相应的资源限制，默认能打开的文件描述符自己可以查看．如下图所示：

3．ulimit的命令格式：ulimit [-acdfHlmnpsStvw] [size]

参数说明：

-H 设置硬资源限制.

-S 设置软资源限制.

-a 显示当前所有的资源限制.

-c size:设置core文件的最大值.单位:blocks

-d size:设置数据段的最大值.单位:kbytes

-f size:设置创建文件的最大值.单位:blocks

-l size:设置在内存中锁定进程的最大值.单位:kbytes

-m size:设置可以使用的常驻内存的最大值.单位:kbytes

-n size:设置内核可以同时打开的文件描述符的最大值.单位:n

-p size:设置管道缓冲区的最大值.单位:kbytes

-s size:设置堆栈的最大值.单位:kbytes

-t size:设置CPU使用时间的最大上限.单位:seconds

-v size:设置虚拟内存的最大值.单位:kbytes

-u <程序数目>　用户最多可开启的程序数目

你可以使用 mpstat 单独查看每个处理器或者系统整体的活动，可以是每次一个快照或者动态更新。

为了使用这个工具，你首先需要安装 sysstat：

# yum update &&yum install sysstat [基于 CentOS 的系统]

# aptitutde update &&aptitude install sysstat [基于 Ubuntu 的系统]

# zypper update &&zypper install sysstat[基于 openSUSE 的系统]

你可以在 Linux 中学习 Sysstat 和其中的工具 mpstat、pidstat、iostat 和 sar,了解更多和 sysstat 和其中的工具相关的信息。

安装完 mpstat 之后，就可以使用它生成处理器统计信息的报告。

你可以使用下面的命令每隔 2 秒显示所有 CPU（用-P ALL 表示）的 CPU 利用率（-u），共显示3次。

# mpstat -P ALL -u 2 3

示例输出：

Linux 3.19.0-32-generic (tecmint.com) Wednesday 30 March 2016 _x86_64_(4 CPU)

11:41:07 IST CPU%usr %nice%sys %iowait%irq %soft %steal %guest %gnice %idle

11:41:09 IST all5.850.001.120.120.000.000.000.000.00 92.91

11:41:09 IST04.480.001.000.000.000.000.000.000.00 94.53

11:41:09 IST12.500.000.500.000.000.000.000.000.00 97.00

11:41:09 IST26.440.000.990.000.000.000.000.000.00 92.57

11:41:09 IST3 10.450.001.990.000.000.000.000.000.00 87.56

11:41:09 IST CPU%usr %nice%sys %iowait%irq %soft %steal %guest %gnice %idle

11:41:11 IST all 11.600.121.120.500.000.000.000.000.00 86.66

11:41:11 IST0 10.500.001.000.000.000.000.000.000.00 88.50

11:41:11 IST1 14.360.001.492.480.000.000.000.000.00 81.68

11:41:11 IST22.000.501.000.000.000.000.000.000.00 96.50

11:41:11 IST3 19.400.001.000.000.000.000.000.000.00 79.60

11:41:11 IST CPU%usr %nice%sys %iowait%irq %soft %steal %guest %gnice %idle

11:41:13 IST all5.690.001.240.000.000.000.000.000.00 93.07

11:41:13 IST02.970.001.490.000.000.000.000.000.00 95.54

11:41:13 IST1 10.780.001.470.000.000.000.000.000.00 87.75

11:41:13 IST22.000.001.000.000.000.000.000.000.00 97.00

11:41:13 IST36.930.000.500.000.000.000.000.000.00 92.57

Average: CPU%usr %nice%sys %iowait%irq %soft %steal %guest %gnice %idle

Average: all7.710.041.160.210.000.000.000.000.00 90.89

Average: 05.970.001.160.000.000.000.000.000.00 92.87

Average: 19.240.001.160.830.000.000.000.000.00 88.78

Average: 23.490.171.000.000.000.000.000.000.00 95.35

Average: 3 12.250.001.160.000.000.000.000.000.00 86.59

要查看指定的 CPU（在下面的例子中是 CPU 0），可以使用：

# mpstat -P 0 -u 2 3

示例输出：

Linux 3.19.0-32-generic (tecmint.com) Wednesday 30 March 2016 _x86_64_(4 CPU)

11:42:08 IST CPU%usr %nice%sys %iowait%irq %soft %steal %guest %gnice %idle

11:42:10 IST03.000.000.500.000.000.000.000.000.00 96.50

11:42:12 IST04.080.000.002.550.000.000.000.000.00 93.37

11:42:14 IST09.740.000.510.000.000.000.000.000.00 89.74

Average: 05.580.000.340.850.000.000.000.000.00 93.23

上面命令的输出包括这些列：

CPU：整数表示的处理器号或者 all 表示所有处理器的平均值。

%usr：运行在用户级别的应用的 CPU 利用率百分数。

%nice：和 %usr相同，但有 nice 优先级。

%sys：执行内核应用的 CPU 利用率百分比。这不包括用于处理中断或者硬件请求的时间。

%iowait：指定（或所有）CPU 的空闲时间百分比，这表示当前 CPU 处于 I/O *** 作密集的状态。

%irq：用于处理硬件中断的时间所占百分比。

%soft：和%irq相同，但是是软中断。

%steal：虚拟机非自主等待（时间片窃取）所占时间的百分比，即当虚拟机在竞争 CPU 时所从虚拟机管理程序那里“赢得”的时间。应该保持这个值尽可能小。如果这个值很大，意味着虚拟机正在或者将要停止运转。

%guest：运行虚拟处理器所用的时间百分比。

%idle： CPU 没有运行任何任务所占时间的百分比。如果你观察到这个值很小，意味着系统负载很重。在这种情况下，你需要查看详细的进程列表、以及下面将要讨论的内容来确定这是什么原因导致的。

运行下面的命令使处理器处于极高负载，然后在另一个终端执行 mpstat 命令：

# dd if=/dev/zero of=test.iso bs=1G count=1

# mpstat -u -P 0 2 3

# ping -f localhost # Interrupt with Ctrl + C after mpstat below completes

# mpstat -u -P 0 2 3

最后，和 “正常” 情况下 mpstat 的输出作比较：

正如你在上面图示中看到的，在前面两个例子中，根据%idle的值可以判断 CPU 0 负载很高。

在下一部分，我们会讨论如何识别资源饥饿型进程，如何获取更多和它们相关的信息，以及如何采取恰当的措施。

Linux 进程报告

我们可以使用有名的ps命令，用-eo选项（根据用户定义格式选中所有进程）和--sort选项（指定自定义排序顺序）按照 CPU 使用率排序列出进程，例如：

# ps -eo pid,ppid,cmd,%cpu,%mem --sort=-%cpu

上面的命令只会显示PID、PPID、和进程相关的命令、 CPU 使用率以及 RAM 使用率，并按照 CPU 使用率降序排序。创建 .iso 文件的时候运行上面的命令，下面是输出的前面几行：

一旦我们找到了感兴趣的进程(例如PID=2822的进程)，我们就可以进入/proc/PID(本例中是/proc/2822) 列出目录内容。

这个目录就是进程运行的时候保存多个关于该进程详细信息的文件和子目录的目录。

例如：

/proc/2822/io：包括该进程的 IO 统计信息（IO *** 作时的读写字符数）。

/proc/2822/attr/current：显示了进程当前的 SELinux 安全属性。

/proc/2822/cgroup：如果启用了 CONFIGCGROUPS 内核设置选项，这会显示该进程所属的控制组（简称cgroups），你可以使用下面命令验证是否启用了 CONFIGCGROUPS：

# cat /boot/config-$(uname -r) | grep -i cgroups

如果启用了该选项，你应该看到：

CONFIG_CGROUPS=y

根据红帽企业版 Linux 7 资源管理指南第一到四章的内容、openSUSE 系统分析和调优指南第九章、Ubuntu 14.04 服务器文档Control Groups 章节，你可以使用cgroups管理每个进程允许使用的资源数目。

/proc/2822/fd这个目录包含每个打开的描述进程的文件的符号链接。下面的截图显示了 tty1（第一个终端）中创建 .iso 镜像进程的相关信息：

上面的截图显示 stdin（文件描述符 0）、stdout（文件描述符 1）、stderr（文件描述符 2）相应地被映射到 /dev/zero、 /root/test.iso 和 /dev/tty1。

在 Linux 中为每个用户设置资源限制

如果你不够小心、让任意用户使用不受限制的进程数，最终你可能会遇到意外的系统关机或者由于系统进入不可用的状态而被锁住。为了防止这种情况发生，你应该为用户可以启动的进程数目设置上限。

你可以在 /etc/security/limits.conf 文件末尾添加下面一行来设置限制：* hard nproc 10

第一个字段可以用来表示一个用户、组或者所有人(*)，第二个字段强制限制可以使用的进程数目（nproc）为 10。退出并重新登录就可以使设置生效。

然后，让我们来看看非 root 用户（合法用户或非法用户）试图引起 shell fork 炸d时会发生什么。如果我们没有设置限制， shell fork 炸d会无限制地启动函数的两个实例，然后无限循环地复制任意一个实例。最终导致你的系统卡死。

但是，如果使用了上面的限制，fort 炸d就不会成功，但用户仍然会被锁在外面直到系统管理员杀死相关的进程。

提示：limits.conf文件中可以查看其它 ulimit 可以更改的限制。

其它 Linux 进程管理工具

除了上面讨论的工具，一个系统管理员还可能需要：

a) 通过使用 renice 调整执行优先级（系统资源的使用）。这意味着内核会根据分配的优先级（众所周知的 “niceness”，它是一个范围从-20到19的整数）给进程分配更多或更少的系统资源。

这个值越小，执行优先级越高。普通用户（而非 root）只能调高他们所有的进程的 niceness 值（意味着更低的优先级），而 root 用户可以调高或调低任何进程的 niceness 值。

renice 命令的基本语法如下：

# renice [-n] <new priority><UID, GID, PGID, or empty>identifier

如果 new priority 后面的参数没有（为空），默认就是 PID。在这种情况下，PID=identifier 的进程的 niceness 值会被设置为<new priority>

b) 需要的时候中断一个进程的正常执行。这也就是通常所说的“杀死”进程。实质上，这意味着给进程发送一个信号使它恰当地结束运行并以有序的方式释放任何占用的资源。

按照下面的方式使用 kill 命令杀死进程：

# kill PID

另外，你也可以使用pkill结束指定用户(-u)、指定组(-G), 甚至有共同的父进程 ID (-P)的所有进程。这些选项后面可以使用数字或者名称表示的标识符。

# pkill [options] identifier

例如：

杀死组GID=1000的所有进程.

# pkill -G 1000

杀死PPID 是 4993的所有进程.

# pkill -P 4993

在运行pkill之前，先用pgrep测试结果、或者使用-l选项列出进程名称是一个很好的办法。它需要和pkill相同的参数、但是只会返回进程的 PID（而不会有其它 *** 作），而pkill会杀死进程。

# pgrep -l -u gacanepa

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/yw/8889145.html

如何对占据服务器大量cpu资源的用户进行限制

发表评论

评论列表（0条）