Sujet :

Prometheus alerte pour tout et rien, alertmanager débordé

RÉSOLU

Liste des sujets Répondre Créer un sujet

claudine-gosselin

Membre depuis le 05/08/2024

yo les sre j'ai un souci prometheus. on a des alertes qui tombent pour tout et rien, l'alertmanager est saturé on reçoit des centaines de notifs par jour. genre des spikes cpu d'une seconde sur un pod qui s'autoscale après. c'est ingérable on loupe les vraies alertes du coup

hrenaud

Membre depuis le 29/04/2024

salut. typique des alertes trop sensibles. il faut revoir tes thresholds. une spike d'une seconde c'est pas une alerte, c'est du bruit. mets des for: 5m ou 10m sur tes rules pour qu'une alerte ne se déclenche que si la condition est vraie pendant cette durée

charles-leroux

Membre depuis le 06/05/2024

et aussi regarde tes silences dans alertmanager. si c'est un déploiement ou une maintenance faut pas hésiter à muter temporairement. et le grouping par service ça aide à pas inonder quand un seul truc lâche

claudine-gosselin

Membre depuis le 05/08/2024

le for: 5m c'est une super idée j'y avais pas pensé ça va filtrer pas mal de faux positifs. pour les silences on essaie mais on a tellement de microservices que c'est un enfer à gérer. je vais refaire un audit de toutes les règles d'alerte

hrenaud

Membre depuis le 29/04/2024

c'est la base. une alerte doit signifier que quelqu'un doit faire quelque chose. si personne ne fait rien, c'est pas une alerte mais une métrique. bon courage pour le nettoyage

claudine-gosselin

Membre depuis le 05/08/2024

merci j'ai du taff mais ça va être plus propre après

Répondre

vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire