Sujet :

SRE : Prometheus des alertes qui spamment ma vie

RÉSOLU

Liste des sujets Répondre Créer un sujet

margaud35

Membre depuis le 21/07/2024

les gars j'en peux plus de prometheus j'ai des alertes qui partent toutes les 5 minutes pour des trucs qui s'autocorrigent en 30s. genre cpu spike ou latence sur une requete. mes devs se plaignent du spam c'est insupportable. comment vous gérez l'alert fatigue ?

lefort-michel

Membre depuis le 02/01/2025

faut revoir tes seuils et tes durées d'évaluation (for clause) sur tes règles d'alert. un cpu spike ponctuel c pas une alerte si ça dure pas. mets un for: 5m au moins pour les trucs pas critiques

boulay-roger

Membre depuis le 27/07/2024

et utilise des recording rules pour pré-agréger des métriques. par exemple calcule une moyenne sur 5min de ton cpu usage et alerte sur cette métrique agrégée plutôt que sur le raw. ça lisse pas mal les pics

elisabeth-mahe

Membre depuis le 02/05/2024

dans alertmanager tu peux aussi jouer avec les silences temporaires pour les maintenances planifiées et surtout la inhibit_rules pour pas recevoir 10 alertes différentes quand une seule root cause est là

margaud35

Membre depuis le 21/07/2024

d'acc j'avais sous-estimé l'importance du for et des recording rules. je vais refaire un passe sur toutes mes alertes avec ces principes. et l'inhibit_rules ça a l'air super utile aussi. thx pour les tips ça va me sauver

Répondre

vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire