prometheus ne scrape plus certaines targets après une maj de k8s

Posté par honore03 le 26/04/2024
RÉSOLU

honore03

Membre depuis le 10/12/2022

yo la gang j'ai un truc chelou sur notre infra. on a fait une maj mineure de k8s (1.23 vers 1.24) et depuis prometheus ne scrape plus du tout certaines de nos targets. genre les exporters de node-exporter et kube-state-metrics ils marchent nickel mais nos services applicatifs eux il les voit plus. le prometheus operator est à jour aussi. rien dans les logs de prometheus qui donne d'erreur claire. il dit juste "no healthy targets" pour les jobs impactés.

Commentaires

francois-evrard

Membre depuis le 04/04/2024

hello. avec les maj k8s des fois y'a des changements sur l'api discovery ou sur les rbac. as-tu vérifié que le service account de prometheus operator a toujours les bonnes permissions pour lister les services et les pods dans tous les namespaces où il doit scraper ? un ptit kubectl auth can-i get services -n my-app-ns --as=system:serviceaccount:monitoring:prometheus-k8s

corinne86

Membre depuis le 01/04/2024

ouais et si les rbac sont ok regarde les service monitors. ptete que les labels selectors ne matchent plus après la maj ou que des services ont changé de noms. un coup d'oeil à la config de tes service monitors et des services impactés

alphonse-goncalves

Membre depuis le 02/04/2024

des fois avec les maj k8s les network policies peuvent être réinitialisées ou mal appliquées. assure-toi que prometheus peut bien atteindre les ips de tes services applicatifs sur le port des metrics. un ptit curl direct depuis le pod prometheus vers l'ip d'un service problématique pour voir si ça passe

francois-evrard

Membre depuis le 04/04/2024

et une autre chose à vérifier c la config d'ip-vs sur tes nodes. certaines versions de k8s ou cni peuvent avoir des soucis avec ip-vs et le service discovery interne quand prometheus essaye de résoudre le service endpoint.

honore03

Membre depuis le 10/12/2022

ok je suis sur la piste des rbac. le can-i me retourne un no pour certains namespaces. faut que je revois mes clusterrole et rolebindings. la maj a ptete viré un truc ou changé un api group. merci la team je vous dis si c'était ça

honore03

Membre depuis le 10/12/2022

c'était bien les rbac ! un clusterrolebinding avait sauté. je l'ai recréé et tout est revenu dans l'ordre. ouf ! merci encore pour l'aide

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire