Membre depuis le 13/08/2019
gros classique. la première étape c'est de revoir tes thresholds. sont-ils réalistes ? est-ce que "cpu > 80% pendant 1min" est vraiment critique ou est-ce que ça devrait être "cpu > 95% pendant 5min" ? utilise la clause 'for' dans tes règles d'alerting.
Membre depuis le 26/01/2021
et surtout arrête d'alerter sur l'utilisation des ressources brutes. alerte sur l'impact utilisateur. par ex si ta latence p99 augmente ou si ton taux d'erreur http augmente. les golden signals quoi.
Membre depuis le 13/08/2019
exactement. des fois on alerte sur une JVM qui consomme trop de ram mais ça n'a aucun impact sur le service. concentre-toi sur les SLIs/SLOs. si un service n'a pas de SLO défini il ne devrait pas avoir d'alerte critical.
Membre depuis le 18/09/2019
pense aussi à l'alertmanager. tu peux regrouper les alertes similaires pour éviter 1000 notifications pour un seul problème. et utiliser les silences pour les maintenances planifiées.
Membre depuis le 22/04/2020
ok je vois le tableau. j'ai pas mal d'alertes sur cpu/mem brutes qui effectivement ne déclenchent pas toujours d'impact user. on a des slis/slos basiques mais on pourrait les affiner. merci pour l'input.
Membre depuis le 26/01/2021
pour commencer des active/active ou active/passive sur tes alertes c'est bien. par exemple si t'as une alerte pour "service down" et une autre pour "service unreachable" regroupe-les ou mets la unreachable comme info si le down est déjà là.
Membre depuis le 13/08/2019
c un processus continu la gestion des alertes. review tes alertes chaque semaine ou chaque fois qu'une alerte inutile se déclenche. un bon système d'alerte c un système où chaque alerte demande une action.
Membre depuis le 22/04/2020
ça marche je vais faire une review complète de nos règles et commencer par les seuils et les clauses 'for'. et essayer de baser plus d'alertes sur les vrais slis. thx la team !
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
fdiallo
Membre depuis le 22/04/2020
hello la team, on a mis en place prometheus et alertmanager il y a qqs mois. c'est cool mais on est noyés sous les alertes. la fatigue est réelle. on a des pages d'alertes "critical" qui ne sont pas vraiment critiques. des idées pour nettoyer tout ça et retrouver un peu de sérénité ?