多应用+插件架构,代码干净,二开方便,首家独创一键云编译技术,文档视频完善,免费商用码云13.8K 广告
[TOC] > [github alertmanager](https://github.com/prometheus/alertmanager) ## 告警分组 分组将类似性质的告警分类为单个通知。在较大的架构中,许多系统一旦出现故障可能同时触发成百上千的告警时特别有用 当网络进行分区时,集群中正在运行数十个或数百个服务实例。您有一半的服务实例不再可以访问数据库。Prometheus 中的告警规则配置为在每个服务实例无法与数据库通信时为其发送警报。其结果就是数百个告警被发送到 Alertmanager。 作为用户,人们只希望获得一个告警,同时仍然能够准确查看受影响的服务实例。因此,可以将 Alertmanager 配置为按告警的集群和告警的名称分类告警,以便发送一个简洁的通知。 告警的分组,分组通知的时间以及这些通知的接收者由配置文件中的路由树配置。 ## 告警抑制 抑制是一种概念,如果某些其他告警已经触发,则抑制某些告警的通知。 **示例**: 假设有一个通知您无法访问整个集群的告警。如果该特定警报正在触发,可以将 Alertmanager 配置为使与该群集有关的所有其他告警静音。这样可以防止与实际问题无关的数百或数千个触发告警通知。 通过 Alertmanager 的配置文件配置抑制告警规则。 ## 告警静默 静默是一种可以在给定时间内直接使告警静音的方法。静默是根据匹配器配置的,就像路由树一样。检查传入告警是否与活动静默等值或正则表达式匹配。如果匹配,则不会针对该告警发送任何通知。 在Alertmanager 的 Web 页面中配置沉默规则。 ## AlertManager 与 granfana 的报警区别 **告警管理:** * Alertmanager 更专注于告警的管理和路由,适用于需要复杂告警处理和分发策略的场景。 * Grafana 的告警功能主要是为了补充其监控和可视化功能,适用于简单告警需求。 **数据源和集成:** * Alertmanager 与 Prometheus 紧密集成,主要处理来自 Prometheus 的告警。 * Grafana 支持多种数据源,不仅可以处理来自 Prometheus 的数据,还可以处理其他监控系统的数据。 **告警分组和抑制:** * Alertmanager 提供了强大的告警分组和抑制功能,适用于大型分布式系统的告警管理。 * Grafana 的告警分组和抑制功能相对简单。 **配置和使用:** * Alertmanager 的配置需要编写配置文件,适合有一定运维经验的用户。 * Grafana 提供了直观的 Web 界面,配置和使用相对简单,适合各类用户。 > granfana 的告警可以不依赖于 AlertManager ,独立其做作用 > 也可以为复杂的告警交给 alertManager ,简单的告警交给 AlertManager