Perte de métriques Prometheus après redémarrage des cibles

alaine 03/03/2026
RÉSOLU
alaine
Auteur Actif
Avatar de alaine
alaine
Auteur Actif

salut

on a un souci avec prometheus. quand on redémarre nos applications (nos cibles prometheus) on perd les métriques pendant quelques minutes après le redémarrage. le job scrape prometheus met du temps à les récupérer. c'est un microservice java avec spring boot actuator donc il expose bien les métriques des le start. on utilise consul pour la discovery.

03/03/2026 à 16:47

5 commentaires

alice52
Membre Actif
Avatar de alice52
alice52
Membre Actif

yo des fois c'est juste un souci de scrape interval. si ton service met disons 30s à démarrer et prometheus est configuré avec un scrape interval de 15s le temps qu'il se relève il peut rater quelques scrapes et ça donne une impression de vide. aussi check la config consul pour voir si le service est bien enregistré rapidement après le redémarrage

04/03/2026 à 10:48
alaine
Auteur Actif
Avatar de alaine
alaine
Auteur Actif

le scrape interval est à 10s et le démarrage des services prend 5-10s. consul est assez réactif pour l'enregistrement. par contre j'ai vu des messages dans les logs de prometheus du genre target stale ou failed to scrape target endpoint. ça correspond au moment du redémarrage

05/03/2026 à 05:38
alice52
Membre Actif
Avatar de alice52
alice52
Membre Actif

ah ok target stale c'est normal si le target n'est plus là. par contre failed to scrape c'est plus intéressant. est-ce que quand le service redémarre il change d'adresse ip ou de port ? ou ptete le scrape timeout de prometheus est trop court et le service pas encore vraiment prêt à répondre sur son endpoint même s'il est up

06/03/2026 à 02:13
alaine
Auteur Actif
Avatar de alaine
alaine
Auteur Actif

non l'ip et le port restent les mêmes. le scrape timeout est à 5s. j'ai essayé de l'augmenter à 15s et là les métriques sont récupérées plus vite après le redémarrage. ptete que le endpoint répondait pas encore assez vite juste après le start même si le service était "up"

06/03/2026 à 20:14
alice52
Membre Actif
Avatar de alice52
alice52
Membre Actif

ça colle. le service peut être up et écouter mais prendre un peu de temps à initier toutes ses ressources et rendre l'endpoint /actuator/prometheus vraiment réactif. augmenter le scrape timeout c'est une bonne solution pour ça. content que ça ait aidé

07/03/2026 à 18:17

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire