alertes prometheus qui flappent comme des malades sur le cpu

Posté par bouchet-francois le 04/06/2024
RÉSOLU

bouchet-francois

Membre depuis le 01/04/2023

on a des alertes prometheus qui deviennent ingérables ça flappe tout le temps sur le cpu usage de nos pods k8s. on a mis un seuil à 80% pendant 5min mais dès que ça pique un peu ça gueule et ça revient normal 2min après. comment on gère ça proprement sans augmenter le seuil à 95% ?

Commentaires

fdiallo

Membre depuis le 19/05/2024

hmm le flapping c la plaie. t'as pensé à ajouter une agrégation par quantile genre avg_over_time ou rate ? plutot que le cpu instantané ça prend en compte la tendance

auguste30

Membre depuis le 01/10/2023

ouais et regarde aussi la cardinalité de tes métriques si t'as trop de labels différents pour le cpu ça peut ralentir prometheus et le rendre moins réactif aux changements. ça peut contribuer au flapping si les requêtes sont lentes

ollivier-thibault

Membre depuis le 20/05/2024

t'as mis des blackouts ou des silences pendant les périodes de maintenance ? ça aide à réduire le bruit. et si c'est spécifique à un service vérifie la config de ressource requests/limits de ton pod dans k8s si c'est pas un souci d'autoscaling qui met trop de pression

bouchet-francois

Membre depuis le 01/04/2023

les blackouts on utilise ça mais c'est pas pour le flapping régulier. les labels c'est propre j'ai vérifié. par contre l'agrégation par quantile ça m'intéresse. genre avg_over_time(node_cpu_seconds_total[5m]) ça serait mieux ?

fdiallo

Membre depuis le 19/05/2024

exactement ou même histogram_quantile si tu veux voir la distribution des latences par exemple. pour le cpu usage direct regarde plutôt les fonctions comme irate ou rate avec un bon range vector pour lisser les pics

auguste30

Membre depuis le 01/10/2023

et n'oublie pas le FOR clause dans ton alert. si c'est FOR 5m et que ça dure 2min c'est normal que ça flappe. peut-être qu'il faut un FOR 10m ou même un GROUP BY pour agréger par namespace/deployment pour avoir des alertes moins granulaires

bouchet-francois

Membre depuis le 01/04/2023

ok j'ai refait les règles d'alerting avec rate et avg_over_time sur 10min et le flapping a quasi disparu. on a toujours les alertes quand c'est vraiment critique mais on est plus spammés. thx pour les tips les gars c'était bien relou ce truc

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire