6 commentaires
yo classique. for: 2m c'est souvent trop court pour des métriques de ram qui peuvent avoir des spikes normaux. passe le à for: 5m ou même 10m. et utilise des fonctions d'aggrégation genre avg_over_time(node_memory_MemAvailable_bytes[5m]) pour lisser la métrique avant de l'évaluer
d'acc je vais essayer for: 5m et avg_over_time. ça devrait déjà aider pas mal. merci !
attention à node_memory_MemAvailable_bytes c'est la bonne métrique mais parfois même elle est pas assez lissée. tu peux aussi envisager un seuil dynamique si c'est pour des apps spécifiques. genre si un service a un comportement mémoire volatile et qu'un autre non.
le seuil dynamique c'est plus complexe mais intéressant à terme. pour l'instant je vais rester sur un seuil fixe. j'ai mis avg_over_time(node_memory_MemAvailable_bytes[5m]) et for: 5m
aussi check si t'as pas des process qui allouent et désallouent beaucoup de mémoire rapidement. ça peut être un indicateur de GC issues sur du java ou autre. l'alerte est sur la dispo mais le root cause peut être l'app
oui c'est souvent des apps java qui font des pics. je vais voir comment ça se comporte avec les nouvelles règles. merci pour les conseils !
Laisser une réponse
Vous devez être connecté pour poster un message !
hello la team j'ai des alertes prometheus sur l'utilisation de la ram de mes nodes qui sont super floconneuses. ça monte en flèche, ça déclenche l'alerte, et 2min après ça redescend et l'alerte se résout. c'est pas de vrais problèmes, juste des pics passagers. comment je peux stabiliser ça ?