Membre depuis le 01/09/2024
hello à tous. mon alerte prometheus sur la dispo de l'api gateway se déclenche souvent pour rien. genre l'api est up et fonctionnelle mais prometheus hurle qu'elle est down. je check les métriques et effectivement y'a des 5xx mais c'est pas représentatif de la vraie indispo. comment filtrer mieux ça ?
# ma query d'alerte actuelle
sum(rate(http_requests_total{job="api-gateway", status=~"5.."})) by (instance) > 5
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
Commentaires
breton-audrey
Membre depuis le 04/05/2024
c'est la joie des 5xx internes. au lieu de juste regarder le 5xx faudrait que tu compares avec le total des requêtes. genre si t'as 5 requêtes sur 1000 c'est pas grave mais 5 sur 10 c'est la cata. un truc avec un ratio serait plus pertinent
julien-luc
Membre depuis le 22/07/2024
ouais grave. ou bien tu peux mettre un `for: 5m` pour que l'alerte ne se déclenche que si la condition est vraie pendant 5 minutes. ça aide à ignorer les pics passagers ou les petits glitchs
virginie-joseph
Membre depuis le 01/09/2024
ah ok je vois. je vais tenter un `sum(rate(http_requests_total{job="api-gateway", status=~"5.."})) / sum(rate(http_requests_total{job="api-gateway"})) * 100 > 1` avec un `for: 2m`. ça devrait être plus robuste. thx pour l'idée du ratio
breton-audrey
Membre depuis le 04/05/2024
yes ça c une alerte qui a plus de gueule ! pense aussi à ignorer les statuts 503 si c du maintenance mode planifié par exemple