Alertes prometheus qui flappent pour un rien sur nos pods

roy-eric 28/07/2025
RÉSOLU
roy-eric
Auteur
Avatar de roy-eric
roy-eric
Auteur

yo la team. on a des alertes Prometheus qui flappent non-stop sur les pods de nos microservices. genre cpuusagehigh ou MemoryUsageHigh. ça s'active 30s puis ça se désactive direct. c'est super chiant on sait plus quoi regarder

28/07/2025 à 00:10

4 commentaires

roland33
Membre Actif
Avatar de roland33
roland33
Membre Actif

salut. c'est un souci de threshold trop bas ou de duration trop courte ? si tes pods ont des pics d'utilisation courts c'est normal que ça flappe. essaie d'augmenter la duration de ton alerte à genre 5min et de mettre un threshold un peu plus haut. et regarde la métrique rate(container_cpu_usage_seconds_total[5m]) au lieu du instant

28/07/2025 à 18:57
roy-eric
Auteur
Avatar de roy-eric
roy-eric
Auteur

d'acc je vais essayer d'augmenter la durée et le seuil. on utilisait la métrique brute container_cpu_usage_seconds_total du coup c'est ptete ça. je vais passer sur la rate sur 5min pour lisser. merci du tip

29/07/2025 à 14:48
roland33
Membre Actif
Avatar de roland33
roland33
Membre Actif

de rien. si ça continue de flapper après ça c'est ptete un problème de resilience de tes services plutôt que de monitoring. mais commence par affiner tes alertes

30/07/2025 à 14:03
roy-eric
Auteur
Avatar de roy-eric
roy-eric
Auteur

ok super je vous tiens au jus. thx

31/07/2025 à 08:21

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire