alertes prometheus qui flappent comme des malades sur le cpu

Question

on a des alertes prometheus qui deviennent ingérables ça flappe tout le temps sur le cpu usage de nos pods k8s. on a mis un seuil à 80% pendant 5min mais dès que ça pique un peu ça gueule et ça revient normal 2min après. comment on gère ça proprement sans augmenter le seuil à 95% ?

fdiallo · Answer

hmm le flapping c la plaie. t'as pensé à ajouter une agrégation par quantile genre avg_over_time ou rate ? plutot que le cpu instantané ça prend en compte la tendance

auguste30 · Answer

ouais et regarde aussi la cardinalité de tes métriques si t'as trop de labels différents pour le cpu ça peut ralentir prometheus et le rendre moins réactif aux changements. ça peut contribuer au flapping si les requêtes sont lentes

ollivier-thibault · Answer

t'as mis des blackouts ou des silences pendant les périodes de maintenance ? ça aide à réduire le bruit. et si c'est spécifique à un service vérifie la config de ressource requests/limits de ton pod dans k8s si c'est pas un souci d'autoscaling qui met trop de pression

bouchet-francois · Answer

les blackouts on utilise ça mais c'est pas pour le flapping régulier. les labels c'est propre j'ai vérifié. par contre l'agrégation par quantile ça m'intéresse. genre avg_over_time(node_cpu_seconds_total[5m]) ça serait mieux ?

fdiallo · Answer

exactement ou même histogram_quantile si tu veux voir la distribution des latences par exemple. pour le cpu usage direct regarde plutôt les fonctions comme irate ou rate avec un bon range vector pour lisser les pics

auguste30 · Answer

et n'oublie pas le FOR clause dans ton alert. si c'est FOR 5m et que ça dure 2min c'est normal que ça flappe. peut-être qu'il faut un FOR 10m ou même un GROUP BY pour agréger par namespace/deployment pour avoir des alertes moins granulaires

bouchet-francois · Answer

ok j'ai refait les règles d'alerting avec rate et avg_over_time sur 10min et le flapping a quasi disparu. on a toujours les alertes quand c'est vraiment critique mais on est plus spammés. thx pour les tips les gars c'était bien relou ce truc

alertes prometheus qui flappent comme des malades sur le cpu

7 commentaires

Laisser une réponse

Gérez vos conteneurs avec le Docker Compose

Les variables d'environnement dans Kubernetes

Augmenter les performances de votre Playbook

Jumeaux Numériques : La Révolution des Opérations Prédictives

SRE vs DevOps : Le clash des cultures qui paralyse vos déploiements

Rejoindre la communauté

Oops! An Error Occurred

The server returned a "500 Internal Server Error".