Sujet :
RÉSOLU
Liste des sujets Répondre Créer un sujet
Membre depuis le 17/11/2024
hello j'ai un souci avec prometheus mes alertes cpu sur certains services spamment trop. dès qu'un pod redémarre ou qu'il y a un petit spike l'alerte part. je veux des alertes pour les vrais problèmes pas pour les trucs éphémères
# exemple d'alerte qui spamme
- alert: HighCpuUsage
expr: sum(rate(container_cpu_usage_seconds_total{container="my-app"}[5m])) by (pod) > 0.8
for: 2m
labels:
severity: warning
annotations:
summary: "CPU usage for pod {{ $labels.pod }} is high"
vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
emmanuelle-humbert
Membre depuis le 19/11/2024
pour les spikes tu peux essayer d'utiliser
irateau lieu deratesi tu veux capter les changements plus rapides mais t'as le même problème de sensibilité. le mieux c'est d'ajouter ungroup bysur la moyenne des pods si c'est un service qui a plusieurs réplicashonore-teixeira
Membre depuis le 06/01/2025
ouais ou alors augmente le
forgenre 5m ou 10m ça filtre les trucs courts. et si c'est un truc genre batch ou redémarrage planifié utilisealertmanager silencespour la période. et pour le CPU 80% ça me parait haut pour une alerte warning surtout si tu peux scalerhenri-aubert
Membre depuis le 13/04/2024
tu peux aussi utiliser des
recording rulespour lisser tes métriques et alerter sur ces métriques agrégées. ça évite d'avoir des expr complexes dans tes alertes et ça pré-calcule des trucs utileschristelle39
Membre depuis le 16/12/2024
pense à l'approche SLI/SLO tu peux définir des alertes basées sur des objectifs de performance plutôt que des seuils arbitraires sur l'utilisation du CPU. c'est plus orienté impact utilisateur que ressource
qrobert
Membre depuis le 17/11/2024
ok merci pour tous les tips je vais tester d'augmenter le
forà 5m et surtout regarder lesrecording ruleset lessilences. la suggestion de passer sur du SLI/SLO est intéressante pour plus tard. je vous tiens au jus