Prometheus alertmanager trop de bruit sur les alerts d'infra

Question

yo la team on a une infra qui grandit vite et le nombre d'alertes prometheus est devenu ingérable. on a des dizaines d'alertes pour un seul problème genre un noeud qui tombe ça trigger cpu memory disk network. c'est quoi votre approche pour agréger ça proprement sans tout louper

gerard-louise · Answer

salut tu as configuré ton alertmanager group_by ? c'est la base pour pas être spammé. tu peux grouper par cluster ou par namespace ou même par instance si ça te dit

jean-weiss · Answer

en plus du group_by check tes silences. si tu as des maintenances prévues ou des incidents en cours des silences alertmanager sont tes amis pour calmer le jeu temporairement

afrancois · Answer

et aussi les inhibit rules si une alerte "critique" en rend une autre "warning" inutile ou redondante genre si le cluster est down pas besoin d'alerter sur chaque pod qui est crashlopping

gilles-auger · Answer

pense aussi à la cardinalité de tes labels. si tes alerts ont trop de labels qui varient souvent ça peut casser ton group_by. normalise tes labels avant d'envoyer à alertmanager

descamps-elodie · Answer

ok je vois l'idée c'était pas super bien configuré le group_by avec les bons labels. je vais revoir ça avec les cluster et env labels on verra ce que ça donne thx les gars

Prometheus alertmanager trop de bruit sur les alerts d'infra

5 commentaires

Laisser une réponse

Les Slices (tableaux dynamiques) dans le langage de programmation Go

Les channels dans le langage de programmation Go

Sauvegarder et restaurer votre cluster Kubernetes

Les Merge Requests sur GitLab pour collaborer et valider

sched_ext : Réécrire l'Ordonnanceur Linux via eBPF

Rejoindre la communauté