
修改以下内容,targets填入alertmanager的ip和端口
位置: /etc/alertmanager/alertmanageryml
注意:这里用的是163的邮箱测试的,开启tls加密一直没调通,不开tls可以,不开tls的smtp端口是25
位置: /etc/alertmanager/templates/emailtmpl[TOC]
本次使用IBM x3650 M3的服务器作为实验服务器使用LSI芯片RIAD卡 支持Web BIOS
这里推荐先检查服务器前信息板卡有无报错,在登陆服务器IPMI管理口查看服务器事件日志。
服务器事件日志在
Eventlog中查看
主要涉及两个指示灯(当硬件故障时告警会有提示)
发生硬盘驱动器错误,这个需要检查是否有硬盘有故障指示灯亮起。
如硬盘故障灯亮起。 则需要更换硬盘
下图为硬盘凉了的告急,如果没做的Raid你就凉透了
显示器也会出现如下报错(那你系统是悲剧了)
其实如果在部署的时候,配置了Riad 1、5、6、10可以直接将备件硬盘更换上即可。(这个时候raid卡会自动同步新盘的数据)
有时会发现加入磁盘无法同步,进入WEBBIOS 选择后加入的硬盘,将其设置"Make Unconfi good"后,再设置成热备盘就可以自动同步了。
Raid 控制器故障。若无法进入控制器建议重新更换控制器。
把Raid卡换了就可以了。更换后需要重新导入阵列信息。
==关机的情况下==将磁盘拔出,调换顺序,对阵列本身无任何影响。
但阵列卡设置中,会发现磁盘顺序变更。
这里的调换 包括硬盘的排列顺序和硬盘的位置。
这里虽然进入了系统 服务器 DASD在报错
这里是确认了服务器硬盘没有损坏,数据完整情况下。
如服务器出现:
阵列卡(同型号和不同型号)
将故障服务器关机,拆下硬盘,放入备用服务器开机后需要先进入WeBBIOS,进入后阵列卡会提示有新的阵列信息,是否需要导入(选择Preview导入)。
读取到阵列配置以后直接将硬盘阵列导入阵列卡即可恢复系统(选择improt )
当硬盘被意外拔出后会出现此状态
进入此状态硬盘,重新标记为Make Unconfi good 若还是此状态那你的盘就凉凉了
无法自动同步的情况下,需要重新启动服务器进入WebBioss使用手动重构的方式。(一般把盘激活后设置为HSP)
重构时候,可以点击进入查看进度。(此时可以重启服务器进入系统。无需在此界面等待)vcenter告警邮件批量设置,可以通过vcenter的告警管理界面来实现。步骤如下:1在vcenter的“告警”选项卡下,点击“管理”按钮;2点击“添加”按钮,在d出的“添加告警”窗口中,输入接受告警邮件的邮箱地址;3点击“确定”按钮,完成vcenter告警邮件批量设置。服务器中的电源供应器出现故障。
服务器管理口出现power supply failure可能是由于长时间使用、环境温度高、电源负载过高等原因导致电源故障,就会导致服务器无法正常运行。出现这种情况需要尽快更换电源供应器以恢复服务器的功效。
当检测到主板有电压跌落,或异常掉电时,也可能会产生power supply failure告警,此时服务器自动关机,导致 *** 作系统业务中断。
曾经做过几次大规模服务器监控,下面推荐几款监控软件和辅助软件。
1zabbix一款老牌经典的监控软件。是一个企业级的分布式开源监控方案。能够实时监控从成千上万台服务器、虚拟机和网络设备中收集到的数以百万计的指标。
提供图形 *** 作界面,可以方便的添加监控指标、告警指标。支持邮件、微信等的告警通知。
2Prometheus,近些年监控方面的当红炸子鸡,Prometheus是由SoundCloud开发的开源监控报警系统和时序列数据库(TSDB)。Prometheus使用Go语言开发,是GoogleBorgMon监控系统的开源版本。
其优点是轻量级,配置简易,上手简单,丰富的告警模板。
以上是两款监控软件,下面推荐几款监控辅助软件。
1grafana监控展示界面,在我们获取到监控数据后,可能需要把数据展示出来,给领导们邀功。grafana就是这样一款软件,开源免费,模板丰富。可直接对接zabbixprometheus和mysql数据库等。
2钉钉机器人。服务器出现告警怎么办,当然是发消息通知运维人员啊。钉钉机器人就提供这么一个功能。在钉钉群里面直接创建机器人,会给我们一个restfull的接口,我们就可以直接发送post请求。原生linux就直接用curl发送,Prometheus提供插件可以直接对接。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)