Alertes Prometheus floconneuses pour la RAM

Question

hello la team j'ai des alertes prometheus sur l'utilisation de la ram de mes nodes qui sont super floconneuses. ça monte en flèche, ça déclenche l'alerte, et 2min après ça redescend et l'alerte se résout. c'est pas de vrais problèmes, juste des pics passagers. comment je peux stabiliser ça ?
# exemple de ma règle d'alerte
- alert: HighMemoryUsage
  expr: (node_memory_MemTotal_bytes - node_memory_MemAvailable_bytes) / node_memory_MemTotal_bytes * 100 > 85
  for: 2m
  labels:
    severity: warning
  annotations:
    summary: "La mémoire utilisée dépasse 85% sur {{ $labels.instance }}"

margaret80 · Answer

yo classique. for: 2m c'est souvent trop court pour des métriques de ram qui peuvent avoir des spikes normaux. passe le à for: 5m ou même 10m. et utilise des fonctions d'aggrégation genre avg_over_time(node_memory_MemAvailable_bytes[5m]) pour lisser la métrique avant de l'évaluer

descamps-elodie · Answer

d'acc je vais essayer for: 5m et avg_over_time. ça devrait déjà aider pas mal. merci !

ramos-cecile · Answer

attention à node_memory_MemAvailable_bytes c'est la bonne métrique mais parfois même elle est pas assez lissée. tu peux aussi envisager un seuil dynamique si c'est pour des apps spécifiques. genre si un service a un comportement mémoire volatile et qu'un autre non.

descamps-elodie · Answer

le seuil dynamique c'est plus complexe mais intéressant à terme. pour l'instant je vais rester sur un seuil fixe. j'ai mis avg_over_time(node_memory_MemAvailable_bytes[5m]) et for: 5m

margaret80 · Answer

aussi check si t'as pas des process qui allouent et désallouent beaucoup de mémoire rapidement. ça peut être un indicateur de GC issues sur du java ou autre. l'alerte est sur la dispo mais le root cause peut être l'app

descamps-elodie · Answer

oui c'est souvent des apps java qui font des pics. je vais voir comment ça se comporte avec les nouvelles règles. merci pour les conseils !

Alertes Prometheus floconneuses pour la RAM

6 commentaires

Laisser une réponse

Les goroutines dans le langage de programmation Go

Déployer, manipuler et sécuriser un serveur Registry Docker privé

Les variables CI/CD dans GitLab pour gérer vos secrets

Révolutionnez vos tests et l'IA avec les Données Synthétiques pour un DevOps Confidentiel

L'Ère des Environnements DevOps Neuro-Adaptatifs : L'IA au Service de l'Expérience Humaine

Rejoindre la communauté