Sujet :

Alerte PromQL qui flappe de fou sur le CPU

RÉSOLU

Liste des sujets Répondre Créer un sujet

emmanuelle33

Membre depuis le 30/03/2024

salut le monde

j'ai une alerte prometheus qui devient folle. c'est pour le cpu usage des pods et ça flappe non stop. toutes les 5min ça se déclenche et ça s'auto-résout. le seuil est à 80% sur 5min mais j'ai l'impression que le cpu fait juste des pics rapides et redescend aussitôt. genre 90% pendant 30s puis 10%. du coup l'alerte est useless

# mon alerte actuelle
- alert: HighCpuUsage
  expr: |
    sum(rate(container_cpu_usage_seconds_total{container!=""}[5m])) by (pod, namespace) * 100 > 80
  for: 5m
  labels:
    severity: warning
  annotations:
    summary: "CPU usage high for {{ $labels.pod }} in {{ $labels.namespace }}"

comment je peux lisser ça pour éviter le flapping ?

marguerite43

Membre depuis le 24/04/2024

bah déjà ton for: 5m est un peu court si tu veux lisser des pics. si le pic dure 30s et que tu regardes sur 5m en rate c'est pas assez. essaie d'augmenter le for genre 10m ou même 15m. ça va obliger l'alerte à rester déclenchée plus longtemps avant de te notifier

gilles-descamps

Membre depuis le 20/04/2024

le rate en soi c'est pour lisser sur la période que tu lui donnes [5m] mais si t'as des pics très courts le rate peut quand même monter haut. ptete utiliser avg_over_time ou un quantile pour mieux représenter l'usage "réel" sur une période plus large ? genre avg_over_time(container_cpu_usage_seconds_total{container!=""}[15m])

emmanuelle33

Membre depuis le 30/03/2024

ok je vois. j'ai testé en augmentant le for à 10m et en mettant avg_over_time sur 10m pour le calcul du cpu et ça a l'air bcp plus stable. les alertes se déclenchent que si le problème est vraiment persistant. merci les gars pour le coup de main !

Répondre

vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire