
一、难题简介:
Nginx网络服务器,惠普,有很多懈怠。其中一台网络服务器mcelog负载较高,其日志秒级已经危及到这台网络服务器的业务流程。
tail-f/var/log/mcelog
#关注这些信息。这是一个连续的循环系统。盯着它
Transaction:Memory scrubbing error MemCtrl:Corrected patrol scrub error Erroroverflow Corrected error#留意其他信息
CPU16 BANK 9 MCE11 337335 MCi_MISCregister valid 337336 MCi_ADDRregister valid 337337 MCA:MEMORY CONTROLLER MS_CHANNEL1_ERR 337338 Transaction:Memory scrubbing error 337339 MemCtrl:Corrected patrol scrub error 337340 337341 STATUScc0048c0000800c1 MCGSTATUS 0 337342 MCGCAP1000812 APICID 8 SOCKETID 0 337343 CPUIDVendor Intel Family 6 Model 45 337344 Hardwareevent. This is not a software error. 337345 MCE10 337346 CPU16 BANK 9 337347 MISC90011000010008c ADDR 15e0e2000 337348 TIME1495308194 Sun May 21 03:23:14 2017 337349 MCGstatus: 337350 MCistatus: 337351 Erroroverflow 337352 Correctederror 337353 MCi_MISCregister valid 337354 MCi_ADDRregister valid 337355 MCA:MEMORY CONTROLLER MS_CHANNEL1_ERR 337356 Transaction:Memory scrubbing error 337357 MemCtrl:Corrected patrol scrub error 337358 337359 STATUScc0003c0000800c1 MCGSTATUS 0 337360 MCGCAP1000812 APICID 9 SOCKETID 0 337361 CPUIDVendor Intel Family 6 Model 45 337362 Hardwareevent. This is not a software error. 337363 MCE11 337364 CPU17 BANK 9 337365 MISC90011000010008c ADDR 15e0f8000 337366 TIME1495308194 Sun May 21 03:23:14 2017 337367 MCGstatus: 337368 MCistatus: 337369 Erroroverflow 337370 Correctederrortail-f/var/log/messages
二。mcelog的简单指示
2.1)mcelog这是什么服务?
一个特殊的工具,用于检查不正确的硬件配置,尤其是不正确的内存和CPU。
2.2)mcelog工作模式?
Cron触发器(高效率高度问题)
守护进程(centos当前模式)默认登录/var/log/mcelog。
2.3)mcelog安装
你可以编译程序yummcelogor。
三。问题分析:
3.1)错误信息:
Transaction:Memory scrubbing error MemCtrl:Corrected patrol scrub error Erroroverflow Corrected error注意,从上面的错误信息可以判断出内存有问题,mcelog日志中的错误很可能是硬件配置信息的常见故障。
3.2)其他信息
MCE(机器检查异常)是一种错误的计算机系统。原因可能是:
内存出错、内存缓存文件常见故障、cpu常见故障也可能与电脑主板、系统总线有关。
CPU16第9排
CPU17第9排...
银行定义:
bank:一直想根据bank和上边日志,清查很有可能哪一个扩展槽有什么问题。这儿期待大伙儿给与提醒。
3.3)查询网络服务器的显示灯:
一切正常。(这里有一个事故,但是如果问题刚刚造成,显示灯不会马上出现问题。)
3.4)咨询盆友
建议:一般硬件配置比较难。建议更换内存并备份数据信息。
四。决议顺序(renzhiyuan.blog.51cto.com)
4.1)业务流程的顺利交接,确保所有业务流程的正常运行。
4.2)备份数据信息,确保数据信息的易用性。
4.3)不要重启,先尝试清除内存缓存文件、inode和文件目录。清除缓存文件问题。
4.4)如果负载较高,考虑关闭mcelog服务项目。
4.5)惠普服务器有硬件配置分析的功能,可以先检查一下。
4.6)提前准备好相同规格的内存条,尽量拆卸更换(最好不要动每个内存条原来的零件,一般内存都不多,可以试试。如果能看出哪个扩展槽有问题,可以先更换)
4.7)如果内存模块更换失败,很可能会考虑到维护而解决其他硬件配置问题。
4.8)上述所有进展和结果应归档并立即向领导干部反映。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)