alertes prometheus ghost sans métrique correspondante

Question

yo tout le monde ! j'ai un truc chelou sur prometheus. j'ai des alertes qui se déclenchent genre highcpuusage pour des services mais quand je vais sur grafana je vois que le cpu est super bas genre 5%. aucune métrique ne justifie l'alerte. je pige rien

# Règle d'alerte dans Prometheus (simplifié)
- alert: HighCpuUsage
  expr: sum(rate(node_cpu_seconds_total{mode="idle"}[5m])) by (instance) < 0.1
  for: 5m
  labels:
    severity: critical
  annotations:
    summary: "CPU usage is high on {{ $labels.instance }}"

nath02 · Answer

slt. déjà quelle est la requête promql exacte de ton alerte ? et est-ce que tu as de l'autoscaling ou des services qui se shutdown/startup souvent ? des fois c'est des métriques de vieilles instances ou des instances en train de mourir qui polluent

brigitte-camus · Answer

la requête est celle que j'ai mise là. et oui on a un autoscaling très dynamique sur nos clusters k8s. des instances se créent et se terminent h24. mais prom devrait clean les métriques des instances mortes non ?

nath02 · Answer

pas forcément direct. des fois l'exporter continue d'envoyer des métriques pendant que l'instance est en terminating ou prometheus garde une trace de l'historique pendant un certain temps (retention). si ta règle d'alerte ne filtre pas ces cas tu peux avoir des fausses alertes. essaie d'ajouter un filtre sur un label de l'instance qui indique son état de vie. genre si t'as un label ec2_lifecycle_state ou pod_status

brigitte-camus · Answer

ok je vois le truc. j'ai vérifié et on a un label ec2_lifecycle_state qui peut être terminated. j'ai modifié l'alerte pour exclure ces instances. je teste ça

nath02 · Answer

parfait ça devrait résoudre ton souci. c'est un piège classique avec les infrastructures éphémères et les règles d'alerte qui ne sont pas assez robustes pour gérer les churn d'instances

brigitte-camus · Answer

c'était bien ça ! les alertes ghost ont disparu. énorme merci pour le coup de main j'aurais jamais trouvé sans vous

alertes prometheus ghost sans métrique correspondante

6 commentaires

Laisser une réponse

Explication pas à pas du programme GO hello world

Ajouter des utilisateurs sur GitLab et gérer la collaboration

Jumeaux Numériques : La Révolution des Opérations Prédictives

L'Ère de l'Observabilité Prédictive : Quand l'IA Anticipe les Pannes et Réinvente la Résilience Opérationnelle

L'Ère des Agents Autonomes: Réinventer l'Orchestration DevOps

Rejoindre la communauté