Linux健康检查脚本health-check-script

Linux健康检查脚本health-check-script,第1张

    平时在Linux做巡视时,都通过命令行来输入指令,比如df -k等等,但是对于多指令多任务来说,单个指令就显得不够效率。于是笔者想着有没有啥脚本可以自动完成这个任务呢?笔者以前的文章-sysstat性能监控工具,里面有系统监控工具 Sysstat,可以查看CPU使用率、硬盘和网络吞吐数据等等信息。但是这个也是命令行,并且也没有集合的脚本。带着问题,笔者想着自己写一个脚本来,但是想着检查项目还是不熟悉,于是在github上搜索一番,找到一款老外写的脚本,于是乎,clone下来测试一番。

    github真是太劲了。

    开始clone脚本:

    sudo  git clone  https://github.com/SimplyLinuxFAQ/health-check-script.git

    进入目录:cd health-check-script/

    由于health-check.sh文件没有执行权限,需要加上可执行权限sudo chmod +x health-check.sh,然后执行./health-check.sh。

    脚本大概分为几个部分,现罗列其中的几个。

1、 系统基本信息

    脚本写的非常好,比如查看hostname,即/etc/hostname文件里面的内容。整个指令结构显示看hostname -f是否执行成功,然后hostname -f或者hostname -s,也就是 long host name或者 short host name。 &&为与, ||时或。

hostname -f &>/dev/null &&printf "Hostname : $(hostname -f)" || printf "Hostname : $(hostname -s)"

2、 磁盘Disk Usage

FS_USAGE=$(df -PThl -x tmpfs -x iso9660 -x devtmpfs -x squashfs|awk '!seen[$1]++'|sort -k6n|tail -n +2)

3、负载率uptime

echo -e "Current Load Average : $(uptime|grep -o "load average.*"|awk '{print $3" " $4" " $5}')"

4、三次重启事件

last -x 2> /dev/null|grep reboot 1> /dev/null && /usr/bin/last -x 2> /dev/null|grep reboot|head -3 || \

5、三次关机事件

last -x 2> /dev/null|grep shutdown 1> /dev/null && /usr/bin/last -x 2> /dev/null|grep shutdown|head -3 || \

6、占用cpu最高的进程

ps -eo pcpu,pid,ppid,user,stat,args --sort=-pcpu|grep -v $$|head -6|sed 's/$/\n/'

7、占用内存最高的进程

ps -eo pmem,pid,ppid,user,stat,args --sort=-pmem|grep -v $$|head -6|sed 's/$/\n/'

    这个脚本关注点在系统信息、磁盘、内存、进程信息,没有打印网络状态,需要监控的进程等等信息,可以使用指令iostat、ps -ef | grep your_process。在局域网中,如果循环可以读取/etc/hosts文件内容,按照ip来远程到linux主机ssh ip_addrsss,执行脚本内容来检查整个服务器的信息。

    最后看一下测试效果,检查结果正常的话,会有颜色提示的,这也是笔者才知道shell可以设置颜色的。开始位是\e[  , 结束位是\e[0m  ,第一个数字代表字体颜色,第二个数字代表底色,当然还可以有其他下划线等等特殊效果。

GCOLOR="\e[4732m ------ OK/HEALTHY \e[0m"

WCOLOR="\e[4331m ------ WARNING \e[0m"

CCOLOR="\e[4731m ------ CRITICAL \e[0m"

    笔者从生产系统上和网络资料上总结出几种优化脚本,脚本从磁盘和内存方面入手,让Linux系统保持活力。特别是第三种清理缓存释放内存,可以结合笔者以前的文章-Linux健康检查脚本health-check-script来做进一步的包装,特别是在做大量数据备份之后,完成自动检测和清理工作。

    下面的delete_data函数中的三条命令可以完成目录下所有文件、log文件和log.gz文件按过期时间清理。

delete_data()

{

    delete_time=$1

    #清理目录下所有过期文件

    find /home/pi/log/ -mtime +$delete_time -exec rm -r {} \

    #清理目录下.log过期文件

    find /home/pi/log/  -mtime +$delete_time -name '*.log' -exec rm -r {} \

    #清理目录下.log.gz过期文件

    find /home/pi/log/  -mtime +$delete_time -name '*.log.gz' -exec rm -r {} \

}

2.1目录下文件单独压缩打包

#将/home/pi/log/目录下的.log文件打包成.gz文件,

find /home/pi/log/  -name '*.log' -exec gzip -f {} \

运行测试,默认gzip 会删除源文件,并生成xx.gz文件。

zcat  filename.gz  可以直接查看文件内容。gunzip –c filename.gz  可以解压缩并保留源文件,但是解压后显示在标准输出上,没有解压后文件。gunzip -cv filename.gz >filename ,可以保留源文件和压缩后文件,-v是显示进度。压缩保留源文件是 gzip  -cv filename > filename.gz 。

2.2目录下文件以前一起打包压缩

    gzip无法压缩文件夹,仅用于压缩单个文件,要压缩文件夹,应该使用tar + gzip ,即是tar -z。

#将log目录下的文件打包并以时间命令,打包后以 gzip 压缩

tar -zcvf  $(date +%Y%m%d%H%M%S)log.tar.gz log/

tar -ztvf log.tar.gz可以查看包内有哪些文件。

tar -zxvf 20210219143137log.tar.gz         解压缩到当前目录

tar  -zxvf  20210219143137log.tar.gz  -C  log2/  将包解压到log2目录下。

    频繁的文件访问(特别是数据备份后)会导致系统的Cache使用量大增。sysctl命令用于运行时配置内核参数,这些参数位于/proc/sys目录下。

    这里我们来看一下 buff/cache的作用。

    buffer指Linux内存的 缓冲区缓存 Buffer cache,cache指Linux内存中的 页面缓存 Page cache。

    Cache(Page cache,页面缓存): 主要用来作为文件系统上的文件数据的缓存来用,尤其是针对当进程对文件有read/write *** 作的时候。

    Buffer(Buffer cache,缓冲区缓存): 主要是针对块设备进行缓存的,比如当我们对一个文件进行写 *** 作的时候,page cache的内容会被改变,而buffer cache则可以用来将page标记为不同的缓冲区,并记录是哪一个缓冲区被修改了。这样,内核在后续执行脏数据的回写(writeback)时,就不用将整个page写回,而只需要写回修改的部分即可。

    Linux内核会在内存将要耗尽的时候,触发内存回收的工作,以便释放出内存给急需内存的进程使用。怎么手动清除呢?修改/proc/sys/vm/drop_caches 的值。看看英语说明:

to free pagecache, use echo 1 >/proc/sys/vm/drop_caches

to free dentries and inodes, use echo 2 >/proc/sys/vm/drop_caches

to free pagecache, dentries and inodes, use echo 3 >/proc/sys/vm/drop_caches.

    即3可以释放所有类型的缓存。

  同时为了防止数据丢失,命令sync 将脏页的内容写回硬盘,但可能伴随着系统磁盘IO飙高。

  运行free -m命令,再运行下面的脚本中的命令,发现 buff/cache减少了21M。

读写失败时dd的返回值分别是多少一直查不到,而如果这个没法弄明白的话,校验的对错就没什么意义了(根本不知道是dd出的错还是md5sum出的错),算了,你将就一下吧,查到后改一下就好了。

#!

/bin/bash

infile="$1"

cycle=0

copy=0

err=0

if

[

"$#"

-ne

1

]

||

[

!

-f

"$1"

]

then

echo

"用法:test

<infile>"

exit

1

fi

echo

-e

"<>警告<>:本测试程序对磁盘有较大损害,请您谨慎运行。"

echo

-e

"

按Crtl+C键终止测试"

echo

-e

"开始测试?(y/n)y:c"

while

read

-r

answer

</dev/tty

do

if

[

"$answer"

==

'n'

]

||

[

"$answer"

==

'N'

]

then

echo

"结果:$cycle

轮共

$copy

次复制,读/写错误

$err

次"

rm

-f

${infile}_*

exit

0

fi

let

cycle++

echo

"=========================

$cycle

==========================="

rm

-f

"$infile"_*

sync

let

copy++

#方便起见,选第一分区爆之

while

[

"$(df

-k|sed

-n

'3q2s/

*/

/g2p'|cut

-d

'

'

-f

4)"

-gt

1

]

do

echo

"===========

副本

$copy

==========="

outfile="${infile}_${copy}"

dd

if="$infile"

of="$outfile"

#关于dd命令如果遭遇读失败或写失败的返回码无据可查,但肯定不是0,

另一种实现方法是用md5sum

--status检验,但这种方法看起来多此一举反而导致读写比变>为3:1

if

[

"$?"

-ne

0

]

then

let

err++

fi

let

copy++

echo

&&

sync

trap

"echo

'结果:'

$cycle

'轮共'

$copy

'次复制,读/写错误'

$err

'次'

&&

rm

-f

${infile}_*

&&

exit"

1

2

3

15

done

echo

-e

"磁盘已满,删除测试文件后继续?(y/n)y:c"

done


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/yw/8591700.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-04-18
下一篇2023-04-18

发表评论

登录后才能评论

评论列表(0条)

    保存