Prometheus qui rate des scrapes par intermittence

augustin55 08/11/2025
RÉSOLU
augustin55
Auteur Actif
Avatar de augustin55
augustin55
Auteur Actif

salut les sres. j'ai un souci avec prometheus. sur certains de nos services (des jvm app avec un exporter custom) prometheus rate les scrapes de manière intermittente. genre ça scrape bien 2-3 fois puis un scrape échoue puis ça repart. l'instance de l'appli est up, l'exporter répond bien quand je curl à la main depuis le prom server. je pige pas le pourquoi du comment. prom 2.30, 1000 cpus 4To ram

# partie de ma config prometheus.yml
- job_name: 'my-java-app'
  metrics_path: '/metrics'
  scheme: http
  static_configs:
    - targets: ['10.0.0.1:8080', '10.0.0.2:8080']
  scrape_interval: 15s
  scrape_timeout: 10s
08/11/2025 à 01:33

5 commentaires

hugues47
Membre Actif Secouriste
Avatar de hugues47
hugues47
Membre Actif Secouriste

hello. première chose à regarder côté prom c'est les logs. y'a quoi quand le scrape échoue ? des timeouts ? des erreurs de connexion ? et regarde la métrique prometheus_target_scrape_pool_exceeded_max_samples ou _exceeded_sample_limit si ton exporter sort trop de métriques

09/11/2025 à 00:37

aussi check la latence réseau entre prometheus et tes cibles. même si un curl passe à la main ça veut pas dire que c stable en permanence. un peu de perte de paquets ou de congestion réseau sur 15s de scrape interval ça peut faire foirer un scrape. un mtr depuis prometheus vers la cible pour voir

09/11/2025 à 21:36
augustin55
Auteur Actif
Avatar de augustin55
augustin55
Auteur Actif

ok les logs de prom montrent bien des scrape_timeout. j'ai pas d'erreurs d'exceeded_max_samples. le mtr est clean. j'ai l'impression que c'est aléatoire mais ça arrive plus souvent quand l'appli est un peu chargée. ptete un souci sur l'exporter lui-même ou la jvm qui lag un peu à répondre aux requêtes /metrics

10/11/2025 à 20:13
edith18
Membre
Avatar de edith18
edith18
Membre

c'est fort possible. si la jvm est sous pression le thread qui gère l'endpoint /metrics peut prendre du temps à répondre. augmente ton scrape_timeout à 30s juste pour voir si ça atténue le problème. et regarde les métriques de la jvm elle-même (cpu usage heap usage gc activity) pour voir si y'a pas des pics qui corrèlent avec les échecs de scrape

11/11/2025 à 14:48
augustin55
Auteur Actif
Avatar de augustin55
augustin55
Auteur Actif

bingo ! j'ai monté le scrape_timeout à 30s et les ratés ont presque disparu. en fait la jvm faisait des pauses gc assez longues par intermittence et ça rendait l'endpoint /metrics lent à répondre. faut qu'on optimise les settings gc. thx la team pour le diagnostic rapide !

12/11/2025 à 10:10

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire