Membre depuis le 25/03/2019
hello. première chose à regarder côté prom c'est les logs. y'a quoi quand le scrape échoue ? des timeouts ? des erreurs de connexion ? et regarde la métrique prometheus_target_scrape_pool_exceeded_max_samples ou _exceeded_sample_limit si ton exporter sort trop de métriques
Membre depuis le 06/11/2024
aussi check la latence réseau entre prometheus et tes cibles. même si un curl passe à la main ça veut pas dire que c stable en permanence. un peu de perte de paquets ou de congestion réseau sur 15s de scrape interval ça peut faire foirer un scrape. un mtr depuis prometheus vers la cible pour voir
Membre depuis le 29/03/2019
ok les logs de prom montrent bien des scrape_timeout. j'ai pas d'erreurs d'exceeded_max_samples. le mtr est clean. j'ai l'impression que c'est aléatoire mais ça arrive plus souvent quand l'appli est un peu chargée. ptete un souci sur l'exporter lui-même ou la jvm qui lag un peu à répondre aux requêtes /metrics
Membre depuis le 28/09/2019
c'est fort possible. si la jvm est sous pression le thread qui gère l'endpoint /metrics peut prendre du temps à répondre. augmente ton scrape_timeout à 30s juste pour voir si ça atténue le problème. et regarde les métriques de la jvm elle-même (cpu usage heap usage gc activity) pour voir si y'a pas des pics qui corrèlent avec les échecs de scrape
Membre depuis le 29/03/2019
bingo ! j'ai monté le scrape_timeout à 30s et les ratés ont presque disparu. en fait la jvm faisait des pauses gc assez longues par intermittence et ça rendait l'endpoint /metrics lent à répondre. faut qu'on optimise les settings gc. thx la team pour le diagnostic rapide !
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
augustin55
Membre depuis le 29/03/2019
salut les sres. j'ai un souci avec prometheus. sur certains de nos services (des jvm app avec un exporter custom) prometheus rate les scrapes de manière intermittente. genre ça scrape bien 2-3 fois puis un scrape échoue puis ça repart. l'instance de l'appli est up, l'exporter répond bien quand je curl à la main depuis le prom server. je pige pas le pourquoi du comment. prom 2.30, 1000 cpus 4To ram