Sujet :

Alertes prometheus qui flappent pour un rien sur nos pods

RÉSOLU

Liste des sujets Répondre Créer un sujet

roy-eric

Membre depuis le 06/09/2024

yo la team. on a des alertes Prometheus qui flappent non-stop sur les pods de nos microservices. genre cpuusagehigh ou MemoryUsageHigh. ça s'active 30s puis ça se désactive direct. c'est super chiant on sait plus quoi regarder

roland33

Membre depuis le 21/07/2024

salut. c'est un souci de threshold trop bas ou de duration trop courte ? si tes pods ont des pics d'utilisation courts c'est normal que ça flappe. essaie d'augmenter la duration de ton alerte à genre 5min et de mettre un threshold un peu plus haut. et regarde la métrique rate(container_cpu_usage_seconds_total[5m]) au lieu du instant

roy-eric

Membre depuis le 06/09/2024

d'acc je vais essayer d'augmenter la durée et le seuil. on utilisait la métrique brute container_cpu_usage_seconds_total du coup c'est ptete ça. je vais passer sur la rate sur 5min pour lisser. merci du tip

roland33

Membre depuis le 21/07/2024

de rien. si ça continue de flapper après ça c'est ptete un problème de resilience de tes services plutôt que de monitoring. mais commence par affiner tes alertes

roy-eric

Membre depuis le 06/09/2024

ok super je vous tiens au jus. thx

Répondre

vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire