Prometheus alerte pour tout et rien, alertmanager débordé

claudine-gosselin 23/12/2025
RÉSOLU

yo les sre j'ai un souci prometheus. on a des alertes qui tombent pour tout et rien, l'alertmanager est saturé on reçoit des centaines de notifs par jour. genre des spikes cpu d'une seconde sur un pod qui s'autoscale après. c'est ingérable on loupe les vraies alertes du coup

23/12/2025 à 11:11

5 commentaires

hrenaud
Membre Actif Secouriste
Avatar de hrenaud
hrenaud
Membre Actif Secouriste

salut. typique des alertes trop sensibles. il faut revoir tes thresholds. une spike d'une seconde c'est pas une alerte, c'est du bruit. mets des for: 5m ou 10m sur tes rules pour qu'une alerte ne se déclenche que si la condition est vraie pendant cette durée

24/12/2025 à 07:26
charles-leroux
Membre Actif
Avatar de charles-leroux
charles-leroux
Membre Actif

et aussi regarde tes silences dans alertmanager. si c'est un déploiement ou une maintenance faut pas hésiter à muter temporairement. et le grouping par service ça aide à pas inonder quand un seul truc lâche

25/12/2025 à 07:22

le for: 5m c'est une super idée j'y avais pas pensé ça va filtrer pas mal de faux positifs. pour les silences on essaie mais on a tellement de microservices que c'est un enfer à gérer. je vais refaire un audit de toutes les règles d'alerte

26/12/2025 à 05:23
hrenaud
Membre Actif Secouriste
Avatar de hrenaud
hrenaud
Membre Actif Secouriste

c'est la base. une alerte doit signifier que quelqu'un doit faire quelque chose. si personne ne fait rien, c'est pas une alerte mais une métrique. bon courage pour le nettoyage

27/12/2025 à 04:04

merci j'ai du taff mais ça va être plus propre après

28/12/2025 à 02:06

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire