Membre depuis le 30/03/2019
c'est la joie des 5xx internes. au lieu de juste regarder le 5xx faudrait que tu compares avec le total des requêtes. genre si t'as 5 requêtes sur 1000 c'est pas grave mais 5 sur 10 c'est la cata. un truc avec un ratio serait plus pertinent
Membre depuis le 27/07/2019
ouais grave. ou bien tu peux mettre un `for: 5m` pour que l'alerte ne se déclenche que si la condition est vraie pendant 5 minutes. ça aide à ignorer les pics passagers ou les petits glitchs
Membre depuis le 23/10/2022
ah ok je vois. je vais tenter un `sum(rate(http_requests_total{job="api-gateway", status=~"5.."})) / sum(rate(http_requests_total{job="api-gateway"})) * 100 > 1` avec un `for: 2m`. ça devrait être plus robuste. thx pour l'idée du ratio
Membre depuis le 30/03/2019
yes ça c une alerte qui a plus de gueule ! pense aussi à ignorer les statuts 503 si c du maintenance mode planifié par exemple
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
virginie-joseph
Membre depuis le 23/10/2022
hello à tous. mon alerte prometheus sur la dispo de l'api gateway se déclenche souvent pour rien. genre l'api est up et fonctionnelle mais prometheus hurle qu'elle est down. je check les métriques et effectivement y'a des 5xx mais c'est pas représentatif de la vraie indispo. comment filtrer mieux ça ?