Prometheus qui rate des scrapes par intermittence

Question

salut les sres. j'ai un souci avec prometheus. sur certains de nos services (des jvm app avec un exporter custom) prometheus rate les scrapes de manière intermittente. genre ça scrape bien 2-3 fois puis un scrape échoue puis ça repart. l'instance de l'appli est up, l'exporter répond bien quand je curl à la main depuis le prom server. je pige pas le pourquoi du comment. prom 2.30, 1000 cpus 4To ram
# partie de ma config prometheus.yml
- job_name: 'my-java-app'
  metrics_path: '/metrics'
  scheme: http
  static_configs:
    - targets: ['10.0.0.1:8080', '10.0.0.2:8080']
  scrape_interval: 15s
  scrape_timeout: 10s

hugues47 · Answer

hello. première chose à regarder côté prom c'est les logs. y'a quoi quand le scrape échoue ? des timeouts ? des erreurs de connexion ? et regarde la métrique prometheus_target_scrape_pool_exceeded_max_samples ou _exceeded_sample_limit si ton exporter sort trop de métriques

sabine-foucher · Answer

aussi check la latence réseau entre prometheus et tes cibles. même si un curl passe à la main ça veut pas dire que c stable en permanence. un peu de perte de paquets ou de congestion réseau sur 15s de scrape interval ça peut faire foirer un scrape. un mtr depuis prometheus vers la cible pour voir

augustin55 · Answer

ok les logs de prom montrent bien des scrape_timeout. j'ai pas d'erreurs d'exceeded_max_samples. le mtr est clean. j'ai l'impression que c'est aléatoire mais ça arrive plus souvent quand l'appli est un peu chargée. ptete un souci sur l'exporter lui-même ou la jvm qui lag un peu à répondre aux requêtes /metrics

edith18 · Answer

c'est fort possible. si la jvm est sous pression le thread qui gère l'endpoint /metrics peut prendre du temps à répondre. augmente ton scrape_timeout à 30s juste pour voir si ça atténue le problème. et regarde les métriques de la jvm elle-même (cpu usage heap usage gc activity) pour voir si y'a pas des pics qui corrèlent avec les échecs de scrape

augustin55 · Answer

bingo ! j'ai monté le scrape_timeout à 30s et les ratés ont presque disparu. en fait la jvm faisait des pauses gc assez longues par intermittence et ça rendait l'endpoint /metrics lent à répondre. faut qu'on optimise les settings gc. thx la team pour le diagnostic rapide !

Prometheus qui rate des scrapes par intermittence

5 commentaires

Laisser une réponse

Gérez vos conteneurs avec le Docker Compose

Pipeline et outils DevOps

Comprendre et utiliser Metricbeat dans la stack ELK

Les différentes stratégies pour migrer vers le Cloud (6 R)

Les Pages Wiki sur GitLab pour centraliser votre documentation

Rejoindre la communauté