prometheus alert fatigue sur nos services critiques

Question

hello la team, on a mis en place prometheus et alertmanager il y a qqs mois. c'est cool mais on est noyés sous les alertes. la fatigue est réelle. on a des pages d'alertes "critical" qui ne sont pas vraiment critiques. des idées pour nettoyer tout ça et retrouver un peu de sérénité ?

ahernandez · Answer

gros classique. la première étape c'est de revoir tes thresholds. sont-ils réalistes ? est-ce que "cpu > 80% pendant 1min" est vraiment critique ou est-ce que ça devrait être "cpu > 95% pendant 5min" ? utilise la clause 'for' dans tes règles d'alerting.

elamy · Answer

et surtout arrête d'alerter sur l'utilisation des ressources brutes. alerte sur l'impact utilisateur. par ex si ta latence p99 augmente ou si ton taux d'erreur http augmente. les golden signals quoi.

ahernandez · Answer

exactement. des fois on alerte sur une JVM qui consomme trop de ram mais ça n'a aucun impact sur le service. concentre-toi sur les SLIs/SLOs. si un service n'a pas de SLO défini il ne devrait pas avoir d'alerte critical.

bruneau-claude · Answer

pense aussi à l'alertmanager. tu peux regrouper les alertes similaires pour éviter 1000 notifications pour un seul problème. et utiliser les silences pour les maintenances planifiées.

fdiallo · Answer

ok je vois le tableau. j'ai pas mal d'alertes sur cpu/mem brutes qui effectivement ne déclenchent pas toujours d'impact user. on a des slis/slos basiques mais on pourrait les affiner. merci pour l'input.

elamy · Answer

pour commencer des active/active ou active/passive sur tes alertes c'est bien. par exemple si t'as une alerte pour "service down" et une autre pour "service unreachable" regroupe-les ou mets la unreachable comme info si le down est déjà là.

ahernandez · Answer

c un processus continu la gestion des alertes. review tes alertes chaque semaine ou chaque fois qu'une alerte inutile se déclenche. un bon système d'alerte c un système où chaque alerte demande une action.

fdiallo · Answer

ça marche je vais faire une review complète de nos règles et commencer par les seuils et les clauses 'for'. et essayer de baser plus d'alertes sur les vrais slis. thx la team !

prometheus alert fatigue sur nos services critiques

8 commentaires

Laisser une réponse

Cours complet d'introduction à la SDL 2

Créer ses propres images Docker avec le Dockerfile

Gestion des différents événements en SDL 2

La supervision dans kubernetes

Au-delà du Code : L'IA Transforme la Productivité de l'Ingénieur DevOps

Rejoindre la communauté