Sujet :
RÉSOLU
Liste des sujets Répondre Créer un sujet
Membre depuis le 30/03/2024
salut le monde
j'ai une alerte prometheus qui devient folle. c'est pour le cpu usage des pods et ça flappe non stop. toutes les 5min ça se déclenche et ça s'auto-résout. le seuil est à 80% sur 5min mais j'ai l'impression que le cpu fait juste des pics rapides et redescend aussitôt. genre 90% pendant 30s puis 10%. du coup l'alerte est useless
# mon alerte actuelle
- alert: HighCpuUsage
expr: |
sum(rate(container_cpu_usage_seconds_total{container!=""}[5m])) by (pod, namespace) * 100 > 80
for: 5m
labels:
severity: warning
annotations:
summary: "CPU usage high for {{ $labels.pod }} in {{ $labels.namespace }}"
comment je peux lisser ça pour éviter le flapping ?
vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
marguerite43
Membre depuis le 24/04/2024
bah déjà ton
for: 5mest un peu court si tu veux lisser des pics. si le pic dure 30s et que tu regardes sur 5m enratec'est pas assez. essaie d'augmenter leforgenre10mou même15m. ça va obliger l'alerte à rester déclenchée plus longtemps avant de te notifiergilles-descamps
Membre depuis le 20/04/2024
le
rateen soi c'est pour lisser sur la période que tu lui donnes[5m]mais si t'as des pics très courts leratepeut quand même monter haut. ptete utiliseravg_over_timeou unquantilepour mieux représenter l'usage "réel" sur une période plus large ? genreavg_over_time(container_cpu_usage_seconds_total{container!=""}[15m])emmanuelle33
Membre depuis le 30/03/2024
ok je vois. j'ai testé en augmentant le
forà10met en mettantavg_over_timesur10mpour le calcul du cpu et ça a l'air bcp plus stable. les alertes se déclenchent que si le problème est vraiment persistant. merci les gars pour le coup de main !