Sujet :

Prometheus OOMKilled sur les scrape targets

RÉSOLU

Liste des sujets Répondre Créer un sujet

besson-joseph

Membre depuis le 14/12/2024

hello la team, je suis sur un setup prometheus dans k8s et j'ai des OOMKilled à répétition. mon prometheus server a 8go de ram et 4 coeurs, il monitore genre 2000 targets avec une rétention de 15j. ça commence à devenir ingérable.

kubectl get pods -n monitoring | grep prometheus
prometheus-server-7c8d9f...   0/1     OOMKilled   17         2d

les métriques sont pas folles, le taux d'ingestion est stable autour de 10k samples/sec. j'ai l'impression qu'il y a un truc que je loupe

raymond88

Membre depuis le 04/09/2024

salut regarde la cardinalité de tes métriques. même avec un taux d'ingestion stable si t'as plein de labels différents qui génèrent des séries uniques ça bouffe de la ram à mort. utilise promtool tsdb analyze sur un snapshot pour voir où sont tes hotspots

charrier-roland

Membre depuis le 29/06/2024

ouais la cardinalité c'est le mal. tu peux aussi baisser ta rétention si 15j est pas crucial ou envisager le remote write vers un truc comme thanos ou cortex pour décharger le prometheus local. sinon juste upscaler la ram si c'est possible mais ça coûte cher à la longue

besson-joseph

Membre depuis le 14/12/2024

purée vous aviez raison la cardinalité c'était horrible. j'avais un service qui générait des labels avec des identifiants uniques par requête. j'ai viré ce label via un relabel_config et la ram est revenue à la normale. plus d'OOM. merci grave !

Répondre

vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire