Prometheus OOMKilled sur les scrape targets

besson-joseph 13/08/2025
RÉSOLU
besson-joseph
Auteur Actif Secouriste
Avatar de besson-joseph
besson-joseph
Auteur Actif Secouriste

hello la team, je suis sur un setup prometheus dans k8s et j'ai des OOMKilled à répétition. mon prometheus server a 8go de ram et 4 coeurs, il monitore genre 2000 targets avec une rétention de 15j. ça commence à devenir ingérable.

kubectl get pods -n monitoring | grep prometheus
prometheus-server-7c8d9f...   0/1     OOMKilled   17         2d

les métriques sont pas folles, le taux d'ingestion est stable autour de 10k samples/sec. j'ai l'impression qu'il y a un truc que je loupe

13/08/2025 à 05:11

3 commentaires

raymond88
Membre
Avatar de raymond88
raymond88
Membre

salut regarde la cardinalité de tes métriques. même avec un taux d'ingestion stable si t'as plein de labels différents qui génèrent des séries uniques ça bouffe de la ram à mort. utilise promtool tsdb analyze sur un snapshot pour voir où sont tes hotspots

14/08/2025 à 04:05
charrier-roland
Membre Actif Secouriste
Avatar de charrier-roland
charrier-roland
Membre Actif Secouriste

ouais la cardinalité c'est le mal. tu peux aussi baisser ta rétention si 15j est pas crucial ou envisager le remote write vers un truc comme thanos ou cortex pour décharger le prometheus local. sinon juste upscaler la ram si c'est possible mais ça coûte cher à la longue

15/08/2025 à 02:34
besson-joseph
Auteur Actif Secouriste
Avatar de besson-joseph
besson-joseph
Auteur Actif Secouriste

purée vous aviez raison la cardinalité c'était horrible. j'avais un service qui générait des labels avec des identifiants uniques par requête. j'ai viré ce label via un relabel_config et la ram est revenue à la normale. plus d'OOM. merci grave !

15/08/2025 à 20:36

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire