Alertmanager pas d'alertes reçues du tout

valerie79 23/12/2024
RÉSOLU
valerie79
Auteur Actif
Avatar de valerie79
valerie79
Auteur Actif

salut

on a mis en place prometheus et alertmanager sur notre infra. prometheus scrape bien les métriques, j'ai des règles d'alerting qui se déclenchent (je vois "firing" dans l'ui de prometheus et d'alertmanager sur /status).

par contre Alertmanager n'envoie aucune alerte nulle part. j'ai configuré un receiver Slack et un receiver PagerDuty. j'ai vérifié les webhooks, les tokens, etc. tout semble correct. y'a rien dans les channels Slack ou sur PagerDuty.

les logs d'Alertmanager ne montrent rien d'anormal, genre pas d'erreur de connexion ou d'envoi. je sèche là.

23/12/2024 à 02:34

11 commentaires

maillet-elodie
Membre Actif
Avatar de maillet-elodie
maillet-elodie
Membre Actif

hello !

premier truc à vérifier : ta config alertmanager. c'est hyper sensible à l'indentation. surtout la partie route et receivers. t'as un route: principal qui envoie vers un receiver par défaut ? et des sous-routes qui filtrent ?

et dans ta route principale, t'as bien continue: false pour pas que les alertes soient traitées par plusieurs routes ?

Modifié le 23/05/2026 à 16:20
eleonore05
Membre Actif Secouriste
Avatar de eleonore05
eleonore05
Membre Actif Secouriste

regardes les logs d'Alertmanager en mode debug. alertmanager --log.level=debug. et vérifie aussi que les alertes ont pas déjà été résolues silencieusement. dans l'UI d'Alertmanager tu vois bien des alertes "Firing" ?

Modifié le 23/05/2026 à 16:20
valerie79
Auteur Actif
Avatar de valerie79
valerie79
Auteur Actif

user_key:2 oui la config est simple, une route par défaut vers un receiver default-slack. continue: false est bien là. user_key:3 j'ai mis en debug, je vois les alertes arriver de prometheus et qu'elles sont "active", "firing", mais aucune mention d'envoi vers un receiver. et oui, l'ui montre bien des alertes "firing".

Modifié le 23/05/2026 à 16:20

c'est bizarre si les logs sont muets sur l'envoi. t'as un inhibit_rules ou des silences actifs qui pourraient bloquer l'envoi ?

Modifié le 23/05/2026 à 16:20
valerie79
Auteur Actif
Avatar de valerie79
valerie79
Auteur Actif

non pas de inhibit_rules ni de silences actifs. c'est une install toute fraîche.

Modifié le 23/05/2026 à 16:20
maillet-elodie
Membre Actif
Avatar de maillet-elodie
maillet-elodie
Membre Actif

vérifie le group_by et group_wait, group_interval, repeat_interval de tes routes. si le group_wait est trop long ou si l'alerte résout avant d'être envoyée, ça peut poser problème. mais vu que tu dis "firing" dans l'UI ça devrait être bon. t'es sûr que le receiver dans ta route correspond bien au nom du receiver défini ? la casse est importante.

Modifié le 23/05/2026 à 16:20
valerie79
Auteur Actif
Avatar de valerie79
valerie79
Auteur Actif

oui la casse est bonne. group_wait est à 30s, group_interval 5min, repeat_interval 4h. c'est assez standard. l'alerte reste "firing" plusieurs minutes.

Modifié le 23/05/2026 à 16:20
eleonore05
Membre Actif Secouriste
Avatar de eleonore05
eleonore05
Membre Actif Secouriste

est-ce que ton alertmanager a un accès réseau direct à slack et pagerduty ? pas de proxy, de dns qui coince ou autre ? même si tes logs ne montrent pas d'erreur, ça vaut le coup de s'assurer que les requêtes http sortent bien. un tcpdump sur le port 443 pourrait montrer si les paquets partent.

Modifié le 23/05/2026 à 16:20
xavier-diaz
Membre Actif
Avatar de xavier-diaz
xavier-diaz
Membre Actif

un cas tordu que j'ai déjà vu : problème de synchronisation d'horloge (NTP) entre ton serveur Alertmanager et les services externes. si l'horloge est trop décalée, ça peut foirer la signature ou la validité des requêtes, même si ça ne remonte pas comme une erreur TLS claire. t'as vérifié que ton serveur est bien syncé via NTP ?

30/12/2024 à 20:46
valerie79
Auteur Actif
Avatar de valerie79
valerie79
Auteur Actif

putain user_key:5 t'es un génie !

le serveur était pas du tout syncé NTP, il avait 3h de retard. une fois le NTP configuré et l'heure corrigée, les alertes ont commencé à tomber direct dans Slack et PagerDuty. j'aurais jamais pensé à ça, surtout que les logs Alertmanager ne disaient rien sur un souci d'heure ou de signature.

merci à tous, particulièrement à toi user_key:5 !

31/12/2024 à 20:24
xavier-diaz
Membre Actif
Avatar de xavier-diaz
xavier-diaz
Membre Actif

content d'avoir pu aider ! ouais le NTP c'est souvent un truc con qui fout le bordel de façon silencieuse. c'est un piège classique.

01/01/2025 à 19:03

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire