线上服务mcelog负载异常分析处理流程

线上服务mcelog负载异常分析处理流程,第1张

线上服务mcelog负载异常分析处理流程

一、难题简介:

Nginx网络服务器,惠普,有很多懈怠。其中一台网络服务器mcelog负载较高,其日志秒级已经危及到这台网络服务器的业务流程。

tail-f/var/log/mcelog

#关注这些信息。这是一个连续的循环系统。盯着它

Transaction:Memory scrubbing error MemCtrl:Corrected patrol scrub error  Erroroverflow Corrected  error

#留意其他信息

CPU16 BANK 9 MCE11 337335    MCi_MISCregister valid 337336    MCi_ADDRregister valid 337337    MCA:MEMORY CONTROLLER MS_CHANNEL1_ERR 337338    Transaction:Memory scrubbing error 337339    MemCtrl:Corrected patrol scrub error 337340    337341    STATUScc0048c0000800c1 MCGSTATUS 0 337342    MCGCAP1000812 APICID 8 SOCKETID 0 337343    CPUIDVendor Intel Family 6 Model 45 337344    Hardwareevent. This is not a software error. 337345    MCE10 337346    CPU16 BANK 9 337347    MISC90011000010008c ADDR 15e0e2000 337348    TIME1495308194 Sun May 21 03:23:14 2017 337349    MCGstatus: 337350    MCistatus: 337351    Erroroverflow 337352    Correctederror 337353    MCi_MISCregister valid 337354    MCi_ADDRregister valid 337355    MCA:MEMORY CONTROLLER MS_CHANNEL1_ERR 337356    Transaction:Memory scrubbing error 337357    MemCtrl:Corrected patrol scrub error 337358    337359    STATUScc0003c0000800c1 MCGSTATUS 0 337360    MCGCAP1000812 APICID 9 SOCKETID 0 337361    CPUIDVendor Intel Family 6 Model 45 337362    Hardwareevent. This is not a software error. 337363    MCE11 337364    CPU17 BANK 9 337365    MISC90011000010008c ADDR 15e0f8000 337366    TIME1495308194 Sun May 21 03:23:14 2017 337367    MCGstatus: 337368    MCistatus: 337369    Erroroverflow 337370    Correctederror

tail-f/var/log/messages


二。mcelog的简单指示

2.1)mcelog这是什么服务?

一个特殊的工具,用于检查不正确的硬件配置,尤其是不正确的内存和CPU。

2.2)mcelog工作模式?

Cron触发器(高效率高度问题)

守护进程(centos当前模式)默认登录/var/log/mcelog。

2.3)mcelog安装

你可以编译程序yummcelogor。


三。问题分析:

3.1)错误信息:

Transaction:Memory scrubbing error MemCtrl:Corrected patrol scrub error Erroroverflow Corrected  error

注意,从上面的错误信息可以判断出内存有问题,mcelog日志中的错误很可能是硬件配置信息的常见故障。

3.2)其他信息

MCE(机器检查异常)是一种错误的计算机系统。原因可能是:

内存出错、内存缓存文件常见故障、cpu常见故障也可能与电脑主板、系统总线有关。


CPU16第9排

CPU17第9排...

银行定义:

传统式内存系统软件为了更好地确保CPU的一切正常工作中,务必一次传送完CPU在一个传送周期时间内所必须的数据信息。而CPU在一个传送周期时间能接受的数据信息容积便是CPU系统总线的位宽,企业是bit(位)。内存与CPU中间的数据传输根据电脑主板上的北桥芯片开展,内存系统总线的数据信息位宽相当于CPU系统总线的位宽,这一位宽就称作物理学Bank。
bank:一直想根据bank和上边日志,清查很有可能哪一个扩展槽有什么问题。这儿期待大伙儿给与提醒。

3.3)查询网络服务器的显示灯:

一切正常。(这里有一个事故,但是如果问题刚刚造成,显示灯不会马上出现问题。)

3.4)咨询盆友

建议:一般硬件配置比较难。建议更换内存并备份数据信息。


四。决议顺序(renzhiyuan.blog.51cto.com)

4.1)业务流程的顺利交接,确保所有业务流程的正常运行。

4.2)备份数据信息,确保数据信息的易用性。

4.3)不要重启,先尝试清除内存缓存文件、inode和文件目录。清除缓存文件问题。

4.4)如果负载较高,考虑关闭mcelog服务项目。

4.5)惠普服务器有硬件配置分析的功能,可以先检查一下。

4.6)提前准备好相同规格的内存条,尽量拆卸更换(最好不要动每个内存条原来的零件,一般内存都不多,可以试试。如果能看出哪个扩展槽有问题,可以先更换)

4.7)如果内存模块更换失败,很可能会考虑到维护而解决其他硬件配置问题。

4.8)上述所有进展和结果应归档并立即向领导干部反映。


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/zz/777548.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2022-05-03
下一篇2022-05-03

发表评论

登录后才能评论

评论列表(0条)

    保存