Membre depuis le 14/06/2024
salut la gang
on a prometheus qui tourne dans k8s et il nous rate des targets aléatoirement on a des alertes 'target down' pour des pods qui sont up et healthy. j'ai l'impression que c'est souvent quand y'a du scaling ou du rolling update sur nos déploiements. le prometheus operator est bien configuré avec les servicemonitors et podmonitors
# exemple de servicemonitor (simplifié)
apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
name: my-app-monitor
labels:
release: prometheus-stack
spec:
selector:
matchLabels:
app: my-app
endpoints:
- port: web
path: /metrics
interval: 15s
quand je vais voir l'UI de prometheus les targets apparaissent et disparaissent. c'est ultra chiant pour la fiabilité de nos métriques
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
Commentaires
christiane81
Membre depuis le 10/01/2025
yo t'as vérifié les labels sur tes services et pods s'ils sont bien consistants avec les selectors de tes servicemonitors/podmonitors un petit typo et hop target perdue
marthe75
Membre depuis le 14/06/2024
oui j'ai double check tout est bon là-dessus les labels matchent bien. ce qui est bizarre c'est que ça marche pendant un temps et après ça se met à flancher
cgimenez
Membre depuis le 21/07/2024
ça pourrait être un problème de timeout de scrape. si tes apps mettent du temps à répondre aux requêtes /metrics prometheus peut les considérer comme down. t'as des latences sur tes endpoints metrics
marthe75
Membre depuis le 14/06/2024
pas que je sache les endpoints metrics sont censés être super légers et rapides. mais je peux augmenter le scrape timeout pour voir si ça change quelque chose
dupre-michel
Membre depuis le 15/06/2024
autre piste : la capacité de prometheus lui-même. si t'as trop de targets ou si ton prometheus est sous-dimensionné il peut avoir du mal à scrape toutes les targets dans le temps imparti. check les métriques de prometheus sur le nombre de scrapes ratés et l'utilisation cpu/mem
marthe75
Membre depuis le 14/06/2024
ok je vais regarder ça. j'ai augmenté le scrape_timeout pour un de mes servicemonitors de 15s à 30s et ça semble un peu mieux. je vais aussi monitorer prometheus plus en détail
marthe75
Membre depuis le 14/06/2024
c'était un mix des deux. certains de nos services étaient un peu lents à répondre et prometheus lui-même commençait à être un peu juste. on a scaled up prometheus et ajusté les timeouts pour les services les plus lents. ça a réglé le problème à 90%. merci pour l'aide les gars