Prometheus配置alertmanager告警邮件通知_服务器

位置： /etc/prometheus/prometheusyml
修改以下内容，targets填入alertmanager的ip和端口

位置： /etc/alertmanager/alertmanageryml
注意：这里用的是163的邮箱测试的，开启tls加密一直没调通，不开tls可以，不开tls的smtp端口是25

位置： /etc/alertmanager/templates/emailtmpl

[TOC]

本次使用IBM x3650 M3的服务器作为实验服务器使用LSI芯片RIAD卡支持Web BIOS

这里推荐先检查服务器前信息板卡有无报错，在登陆服务器IPMI管理口查看服务器事件日志。
服务器事件日志在
Eventlog中查看

主要涉及两个指示灯（当硬件故障时告警会有提示）

发生硬盘驱动器错误，这个需要检查是否有硬盘有故障指示灯亮起。
如硬盘故障灯亮起。则需要更换硬盘

下图为硬盘凉了的告急，如果没做的Raid你就凉透了

显示器也会出现如下报错（那你系统是悲剧了）

其实如果在部署的时候，配置了Riad 1、5、6、10可以直接将备件硬盘更换上即可。（这个时候raid卡会自动同步新盘的数据）

有时会发现加入磁盘无法同步，进入WEBBIOS 选择后加入的硬盘，将其设置"Make Unconfi good"后，再设置成热备盘就可以自动同步了。

Raid 控制器故障。若无法进入控制器建议重新更换控制器。

把Raid卡换了就可以了。更换后需要重新导入阵列信息。

==关机的情况下==将磁盘拔出，调换顺序，对阵列本身无任何影响。
但阵列卡设置中，会发现磁盘顺序变更。
这里的调换包括硬盘的排列顺序和硬盘的位置。
这里虽然进入了系统服务器 DASD在报错
这里是确认了服务器硬盘没有损坏，数据完整情况下。
如服务器出现：

阵列卡（同型号和不同型号）
将故障服务器关机，拆下硬盘，放入备用服务器开机后需要先进入WeBBIOS，进入后阵列卡会提示有新的阵列信息，是否需要导入（选择Preview导入）。

读取到阵列配置以后直接将硬盘阵列导入阵列卡即可恢复系统（选择improt ）

当硬盘被意外拔出后会出现此状态

进入此状态硬盘，重新标记为Make Unconfi good 若还是此状态那你的盘就凉凉了

无法自动同步的情况下，需要重新启动服务器进入WebBioss使用手动重构的方式。（一般把盘激活后设置为HSP）

重构时候，可以点击进入查看进度。（此时可以重启服务器进入系统。无需在此界面等待）

vcenter告警邮件批量设置，可以通过vcenter的告警管理界面来实现。步骤如下：1在vcenter的“告警”选项卡下，点击“管理”按钮；2点击“添加”按钮，在d出的“添加告警”窗口中，输入接受告警邮件的邮箱地址；3点击“确定”按钮，完成vcenter告警邮件批量设置。

服务器中的电源供应器出现故障。
服务器管理口出现power supply failure可能是由于长时间使用、环境温度高、电源负载过高等原因导致电源故障，就会导致服务器无法正常运行。出现这种情况需要尽快更换电源供应器以恢复服务器的功效。
当检测到主板有电压跌落，或异常掉电时，也可能会产生power supply failure告警，此时服务器自动关机，导致 *** 作系统业务中断。

曾经做过几次大规模服务器监控，下面推荐几款监控软件和辅助软件。

1zabbix一款老牌经典的监控软件。是一个企业级的分布式开源监控方案。能够实时监控从成千上万台服务器、虚拟机和网络设备中收集到的数以百万计的指标。

提供图形 *** 作界面，可以方便的添加监控指标、告警指标。支持邮件、微信等的告警通知。

2Prometheus，近些年监控方面的当红炸子鸡，Prometheus是由SoundCloud开发的开源监控报警系统和时序列数据库(TSDB)。Prometheus使用Go语言开发，是GoogleBorgMon监控系统的开源版本。

其优点是轻量级，配置简易，上手简单，丰富的告警模板。

以上是两款监控软件，下面推荐几款监控辅助软件。

1grafana监控展示界面，在我们获取到监控数据后，可能需要把数据展示出来，给领导们邀功。grafana就是这样一款软件，开源免费，模板丰富。可直接对接zabbixprometheus和mysql数据库等。

2钉钉机器人。服务器出现告警怎么办，当然是发消息通知运维人员啊。钉钉机器人就提供这么一个功能。在钉钉群里面直接创建机器人，会给我们一个restfull的接口，我们就可以直接发送post请求。原生linux就直接用curl发送，Prometheus提供插件可以直接对接。

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/zz/13208702.html

Prometheus配置alertmanager告警邮件通知

发表评论

评论列表（0条）