7 commentaires
yo. si les pods sont sains c'est ptete pas l'appli en elle-même. regarde tes prometheus logs. y'a des messages sur des timeouts lors du scrape ? ou des erreurs de connexion ? ça pourrait être un souci réseau au niveau du cni ou des kube-proxy.
hmm timeouts et scrapes manquants ça sent le réseau ou la charge sur les targets. est-ce que les pods qui flapent sont toujours sur les mêmes noeuds ? ou aléatoirement partout ? si c'est sur les mêmes noeuds ça peut être un souci cni localisé.
et la taille des réponses /metrics. si elles sont super grosses ça peut prendre plus de temps à scraper surtout si ya un peu de latence réseau. essaie de réduire l'intervalle de scrape pour voir si ça empire ou s'améliore, ça donnera une idée de la sensibilité.
bon c'était un mix de coredns qui avait des pics de charge et des réponses /metrics trop grosses sur certains services. j'ai optimisé les metrics endpoints et on a scale up coredns. ça a l'air beaucoup plus stable maintenant. merci pour l'aide les gars c'était bien relou ce truc !
Laisser une réponse
Vous devez être connecté pour poster un message !
salut. on a prometheus qui tourne en k8s et nos targets (pods avec annotations) elles flapent de ouf. des fois elles sont up, des fois down, puis up. ça arrive aléatoirement sur des services différents. la conf de scraping est basique on scrape sur /metrics. les pods sont sains par ailleurs. c'est super chiant pour les alertes. une idée de pourquoi ça fait ça ?