Prometheus qui rate des scrapes par intermittence

Posté par augustin55 le 08/11/2025
RÉSOLU

augustin55

Membre depuis le 29/03/2019

salut les sres. j'ai un souci avec prometheus. sur certains de nos services (des jvm app avec un exporter custom) prometheus rate les scrapes de manière intermittente. genre ça scrape bien 2-3 fois puis un scrape échoue puis ça repart. l'instance de l'appli est up, l'exporter répond bien quand je curl à la main depuis le prom server. je pige pas le pourquoi du comment. prom 2.30, 1000 cpus 4To ram

# partie de ma config prometheus.yml
- job_name: 'my-java-app'
  metrics_path: '/metrics'
  scheme: http
  static_configs:
    - targets: ['10.0.0.1:8080', '10.0.0.2:8080']
  scrape_interval: 15s
  scrape_timeout: 10s

Commentaires

hugues47

Membre depuis le 25/03/2019

hello. première chose à regarder côté prom c'est les logs. y'a quoi quand le scrape échoue ? des timeouts ? des erreurs de connexion ? et regarde la métrique prometheus_target_scrape_pool_exceeded_max_samples ou _exceeded_sample_limit si ton exporter sort trop de métriques

sabine-foucher

Membre depuis le 06/11/2024

aussi check la latence réseau entre prometheus et tes cibles. même si un curl passe à la main ça veut pas dire que c stable en permanence. un peu de perte de paquets ou de congestion réseau sur 15s de scrape interval ça peut faire foirer un scrape. un mtr depuis prometheus vers la cible pour voir

augustin55

Membre depuis le 29/03/2019

ok les logs de prom montrent bien des scrape_timeout. j'ai pas d'erreurs d'exceeded_max_samples. le mtr est clean. j'ai l'impression que c'est aléatoire mais ça arrive plus souvent quand l'appli est un peu chargée. ptete un souci sur l'exporter lui-même ou la jvm qui lag un peu à répondre aux requêtes /metrics

edith18

Membre depuis le 28/09/2019

c'est fort possible. si la jvm est sous pression le thread qui gère l'endpoint /metrics peut prendre du temps à répondre. augmente ton scrape_timeout à 30s juste pour voir si ça atténue le problème. et regarde les métriques de la jvm elle-même (cpu usage heap usage gc activity) pour voir si y'a pas des pics qui corrèlent avec les échecs de scrape

augustin55

Membre depuis le 29/03/2019

bingo ! j'ai monté le scrape_timeout à 30s et les ratés ont presque disparu. en fait la jvm faisait des pauses gc assez longues par intermittence et ça rendait l'endpoint /metrics lent à répondre. faut qu'on optimise les settings gc. thx la team pour le diagnostic rapide !

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire