Membre depuis le 15/01/2025
yo la team on a une infra qui grandit vite et le nombre d'alertes prometheus est devenu ingérable. on a des dizaines d'alertes pour un seul problème genre un noeud qui tombe ça trigger cpu memory disk network. c'est quoi votre approche pour agréger ça proprement sans tout louper
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
Commentaires
gerard-louise
Membre depuis le 21/07/2024
salut tu as configuré ton alertmanager group_by ? c'est la base pour pas être spammé. tu peux grouper par cluster ou par namespace ou même par instance si ça te dit
jean-weiss
Membre depuis le 20/11/2024
en plus du group_by check tes silences. si tu as des maintenances prévues ou des incidents en cours des silences alertmanager sont tes amis pour calmer le jeu temporairement
afrancois
Membre depuis le 21/05/2024
et aussi les inhibit rules si une alerte "critique" en rend une autre "warning" inutile ou redondante genre si le cluster est down pas besoin d'alerter sur chaque pod qui est crashlopping
gilles-auger
Membre depuis le 24/01/2025
pense aussi à la cardinalité de tes labels. si tes alerts ont trop de labels qui varient souvent ça peut casser ton group_by. normalise tes labels avant d'envoyer à alertmanager
descamps-elodie
Membre depuis le 15/01/2025
ok je vois l'idée c'était pas super bien configuré le group_by avec les bons labels. je vais revoir ça avec les `cluster` et `env` labels on verra ce que ça donne thx les gars