Prometheus qui rate des scrapes, metrics perdues

Question

salut l'équipe on a un problème aléatoire avec prometheus. de temps en temps il rate des scrapes sur certains de nos services k8s. on se retrouve avec des trous dans nos graphes grafana. on est sur prometheus 2.30. des idées ?
les services c'est majoritairement du go et nodejs, avec des /metrics standards. pas de trucs exotiques.

ichauvet · Answer

Tu as checké les logs de Prometheus pour voir ce qu'il dit quand il rate un scrape ? Cherche des scrape_timeout ou des target_down. C'est le premier truc à regarder.

alain-moulin · Answer

c pas un souci de service discovery dans K8s ? Si tes pods sont recréés ou changent d'IP, prometheus peut mettre un peu de temps à les redécouvrir via le service discovery. Y'a des metrics sur le Kube-state-metrics pour ça.

sauvage-paulette · Answer

Oui j'ai des timeout. des target_down aussi. souvent c'est quand un pod redémarre ou que le déploiement est en cours.

nicole46 · Answer

Combien de temps dure ton scrape_timeout et ton scrape_interval ? si tes services prennent du temps à démarrer et à exposer les métriques, ou si le réseau est saturé, tu peux augmenter le timeout.

ichauvet · Answer

Si c'est lié aux redémarrages de pods, c'est ptete juste le temps que l'endpoint soit prêt. Tu peux augmenter le initialDelaySeconds de ton readiness probe pour donner plus de temps au service de démarrer et exposer ses métriques avant d'être considéré comme prêt.

alain-moulin · Answer

et la charge cpu/mémoire de ton pod prometheus ? si prometheus est sous-provisionné, il peut ne pas arriver à scraper toutes les cibles dans les temps, surtout si t'as beaucoup de targets ou de métriques.

sauvage-paulette · Answer

scrape_interval est à 15s et timeout à 10s. j'ai déjà essayé d'augmenter le timeout à 12s ça change rien. le pod prometheus est sur des nodes avec plein de ressources et il utilise peu de cpu/ram.

nicole46 · Answer

Hmmm si le pod prometheus a des ressources, et que les services ont le temps. Ptete un truc réseau entre prometheus et tes pods cibles. Est-ce que le CNI de ton k8s a des soucis de latence ou de paquets droppés entre les nodes ?

ichauvet · Answer

Ou regarde si tes targets n'ont pas de problèmes de perf elles-mêmes. Si l'endpoint /metrics prend du temps à répondre, prometheus va timeout. c'est quel type de service qui pose problème ? un truc spécifique ?

sauvage-paulette · Answer

c surtout sur un service users-api en go. j'ai testé son endpoint /metrics en curl depuis le pod prometheus, il répond en 20ms. CNI c'est calico, pas de souci apparent sur les logs.

Prometheus qui rate des scrapes, metrics perdues

Commentaires

Laisser une réponse

La portée des variables dans le langage de programmation Go

Conclusion du cours Kubernetes

Déployer, manipuler et sécuriser un serveur Registry Docker privé

Rejoindre la communauté