prometheus alert fatigue sur nos services critiques

Posté par fdiallo le 26/03/2025
RÉSOLU

fdiallo

Membre depuis le 22/04/2020

hello la team, on a mis en place prometheus et alertmanager il y a qqs mois. c'est cool mais on est noyés sous les alertes. la fatigue est réelle. on a des pages d'alertes "critical" qui ne sont pas vraiment critiques. des idées pour nettoyer tout ça et retrouver un peu de sérénité ?

Commentaires

ahernandez

Membre depuis le 13/08/2019

gros classique. la première étape c'est de revoir tes thresholds. sont-ils réalistes ? est-ce que "cpu > 80% pendant 1min" est vraiment critique ou est-ce que ça devrait être "cpu > 95% pendant 5min" ? utilise la clause 'for' dans tes règles d'alerting.

elamy

Membre depuis le 26/01/2021

et surtout arrête d'alerter sur l'utilisation des ressources brutes. alerte sur l'impact utilisateur. par ex si ta latence p99 augmente ou si ton taux d'erreur http augmente. les golden signals quoi.

ahernandez

Membre depuis le 13/08/2019

exactement. des fois on alerte sur une JVM qui consomme trop de ram mais ça n'a aucun impact sur le service. concentre-toi sur les SLIs/SLOs. si un service n'a pas de SLO défini il ne devrait pas avoir d'alerte critical.

bruneau-claude

Membre depuis le 18/09/2019

pense aussi à l'alertmanager. tu peux regrouper les alertes similaires pour éviter 1000 notifications pour un seul problème. et utiliser les silences pour les maintenances planifiées.

fdiallo

Membre depuis le 22/04/2020

ok je vois le tableau. j'ai pas mal d'alertes sur cpu/mem brutes qui effectivement ne déclenchent pas toujours d'impact user. on a des slis/slos basiques mais on pourrait les affiner. merci pour l'input.

elamy

Membre depuis le 26/01/2021

pour commencer des active/active ou active/passive sur tes alertes c'est bien. par exemple si t'as une alerte pour "service down" et une autre pour "service unreachable" regroupe-les ou mets la unreachable comme info si le down est déjà là.

ahernandez

Membre depuis le 13/08/2019

c un processus continu la gestion des alertes. review tes alertes chaque semaine ou chaque fois qu'une alerte inutile se déclenche. un bon système d'alerte c un système où chaque alerte demande une action.

fdiallo

Membre depuis le 22/04/2020

ça marche je vais faire une review complète de nos règles et commencer par les seuils et les clauses 'for'. et essayer de baser plus d'alertes sur les vrais slis. thx la team !

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire