3 commentaires
tu peux aussi utiliser le concept de 'burn rate' au lieu d'un seuil fixe. genre si ton cpu dépasse 70% pendant 5min mais que l'objectif de ton service est 99.9% de disponibilité cpu tu peux calculer si ça 'burn' ton budget d'erreur trop vite. c'est plus compliqué à setup mais ça évite les faux positifs sur des fluctuations normales
Laisser une réponse
Vous devez être connecté pour poster un message !
les gars j'ai une alerte prometheus qui me rend fou. c'est pour l'utilisation cpu d'un de nos services qui tourne dans un pod k8s. dès que le pod dépasse 70% d'utilisation pendant 5 minutes ça alerte. le problème c'est qu'il monte souvent à 80% pendant des pics légitimes puis il redescend et ça spamme alors qu'il y a pas de souci