Alertes prometheus qui flappent pour un rien sur nos pods

Question

yo la team. on a des alertes Prometheus qui flappent non-stop sur les pods de nos microservices. genre cpuusagehigh ou MemoryUsageHigh. ça s'active 30s puis ça se désactive direct. c'est super chiant on sait plus quoi regarder

roland33 · Answer

salut. c'est un souci de threshold trop bas ou de duration trop courte ? si tes pods ont des pics d'utilisation courts c'est normal que ça flappe. essaie d'augmenter la duration de ton alerte à genre 5min et de mettre un threshold un peu plus haut. et regarde la métrique rate(container_cpu_usage_seconds_total[5m]) au lieu du instant

roy-eric · Answer

d'acc je vais essayer d'augmenter la durée et le seuil. on utilisait la métrique brute container_cpu_usage_seconds_total du coup c'est ptete ça. je vais passer sur la rate sur 5min pour lisser. merci du tip

roland33 · Answer

de rien. si ça continue de flapper après ça c'est ptete un problème de resilience de tes services plutôt que de monitoring. mais commence par affiner tes alertes

roy-eric · Answer

ok super je vous tiens au jus. thx

Alertes prometheus qui flappent pour un rien sur nos pods

4 commentaires

Laisser une réponse

Guide pour configurer de votre environnement GoLang

Filtrer les sorties Kubernetes

Les Datas Source sur Terraform

Comprendre et utiliser Packetbeat dans la stack ELK

Data Mesh : L'Ère des Données Distribuées et l'Impact sur le DevOps

Rejoindre la communauté