Sujet :

Prometheus qui rate des scrapes après upgrade K8s

RÉSOLU

Liste des sujets Répondre Créer un sujet

umillet

Membre depuis le 04/04/2024

salut la gang j'ai un souci bizarre depuis qu'on a fait l'upgrade k8s de 1.25 à 1.27. prometheus rate des scrapes de temps en temps. pas tous les pods mais quelques-uns aléatoirement dans des namespaces différents. les pods sont bien up et les endpoints prometheus répondent quand je les teste en curl depuis le pod prometheus. aucune erreur dans les logs prometheus non plus à part des "context deadline exceeded" pour les cibles qui ratent

guillon-agathe

Membre depuis le 23/04/2024

hmm ça sent le problème de cgroup ou de limite réseau pour prometheus après l'upgrade. k8s 1.27 a durci pas mal de trucs sur la gestion des ressources système. t'as regardé les métriques CPU/memory de ton pod prometheus et de son nœud ? des fois le scraping devient lent si prometheus est throttlé

godard-antoinette

Membre depuis le 29/04/2024

check aussi tes coredns. avec l'upgrade k8s des fois les configs coredns peuvent changer ou y avoir des soucis de perf. si prometheus a du mal à résoudre les ips des pods à scraper ça peut provoquer ces timeouts. t'as des logs d'erreurs dns dans les pods qui ratent ?

margot49

Membre depuis le 18/04/2024

c peut-être un souci de conntrack sur tes nœuds. si prometheus ouvre trop de connexions et que la table conntrack est pleine ou qu'elle a du mal à nettoyer les vieilles entrées ça peut faire ramer les nouvelles connexions. regarde d'abord les logs de coredns comme dit user3 sinon un tcpdump sur le pod prometheus quand ça rate pour voir si les paquets partent et reviennent

umillet

Membre depuis le 04/04/2024

ok je viens de checker les métriques prometheus est ok niveau ressources. par contre user4 tu m'as donné une piste avec conntrack. après l'upgrade le paramètre net.netfilter.nf_conntrack_max sur les nodes était revenu à sa valeur par défaut. j'ai remis notre valeur custom plus haute et depuis 10 min plus de deadline exceeded. je surveille mais je pense que c'était ça. thx à tous

dlaroche

Membre depuis le 24/04/2024

nickel c'est souvent un truc de bas niveau qui pète après un upgrade majeur. bien joué d'avoir trouvé. pense à persister ta config conntrack pour pas que ça revienne à défaut

umillet

Membre depuis le 04/04/2024

oui je vais faire ça. merci encore pour l'aide précieuse

Répondre

vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire