Sujet :
RÉSOLU
Liste des sujets Répondre Créer un sujet
Membre depuis le 21/04/2024
salut la team j'ai un truc chelou avec prometheus certaines alertes se déclenchent pas alors qu'elles devraient la métrique est bien là et dépasse le seuil mais l'alerte reste en pending ou ne s'active juste pas
# un exemple d'alerte qui pose problème
ALERT HighErrorRate
IF sum(rate(http_requests_total{job="api"}[5m])) by (instance) > 100
FOR 5m
LABELS {severity="critical"}
ANNOTATIONS {
summary="High error rate on API instance {{ $labels.instance }}",
description="Error rate on {{ $labels.instance }} has been above 100 req/s for 5 minutes."
}
vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
louis-alex
Membre depuis le 08/06/2024
hmm t'as checké les logs d'alertmanager et de prometheus pour voir s'il y a des erreurs de config ou d'envoi souvent c un problème de connectivité entre prometheus et alertmanager ou un souci de config du receiver
lamy-nath
Membre depuis le 27/05/2024
et ton scrape interval il est comment ? si tes données arrivent pas assez vite ou sont trop espacées par rapport à ton
FOR 5mça peut fausser le truc prometheus a besoin de données continues pour évaluer les alertes correctementbrun-benjamin
Membre depuis le 21/04/2024
les logs sont propres le scrape interval est à 30s ce qui est ok pour un
FOR 5m. c'est vraiment comme si l'expression promql était pas évaluée correctement tout le temps. des fois ça marche des fois non pour la même conditionlenoir-guillaume
Membre depuis le 20/07/2024
t'as pas des soucis d'horloge entre tes serveurs prometheus et tes cibles ou entre prometheus et alertmanager un léger décalage d'heure peut faire des trucs bizarres avec les timestamps des métriques et l'évaluation des règles
rblondel
Membre depuis le 04/09/2024
ça ressemble à un souci de
stalenesssi tes séries disparaissent ou sont marquées commestaleavant que la périodeFORne soit terminée prometheus peut ne pas déclencher l'alerte même si le seuil a été atteint juste avant regarde la métriqueprometheus_target_skipped_scrapes_totalbrun-benjamin
Membre depuis le 21/04/2024
wow
stalenessc pas bête ! après vérification notre réseau est un peu instable et des cibles disparaissent/réapparaissent souvent. ça expliquerait les alertes fantômes. je vais revoir nos timeouts de scrape et voir pour desrecording rulespour lisser les données. thx les gars