Prometheus OOMKilled sur les scrape targets

Question

hello la team, je suis sur un setup prometheus dans k8s et j'ai des OOMKilled à répétition. mon prometheus server a 8go de ram et 4 coeurs, il monitore genre 2000 targets avec une rétention de 15j. ça commence à devenir ingérable.
kubectl get pods -n monitoring | grep prometheus
prometheus-server-7c8d9f...   0/1     OOMKilled   17         2d

les métriques sont pas folles, le taux d'ingestion est stable autour de 10k samples/sec. j'ai l'impression qu'il y a un truc que je loupe

raymond88 · Answer

salut regarde la cardinalité de tes métriques. même avec un taux d'ingestion stable si t'as plein de labels différents qui génèrent des séries uniques ça bouffe de la ram à mort. utilise promtool tsdb analyze sur un snapshot pour voir où sont tes hotspots

charrier-roland · Answer

ouais la cardinalité c'est le mal. tu peux aussi baisser ta rétention si 15j est pas crucial ou envisager le remote write vers un truc comme thanos ou cortex pour décharger le prometheus local. sinon juste upscaler la ram si c'est possible mais ça coûte cher à la longue

besson-joseph · Answer

purée vous aviez raison la cardinalité c'était horrible. j'avais un service qui générait des labels avec des identifiants uniques par requête. j'ai viré ce label via un relabel_config et la ram est revenue à la normale. plus d'OOM. merci grave !

Prometheus OOMKilled sur les scrape targets

3 commentaires

Laisser une réponse

Les bases fondamentales de l'affichage graphique en SDL2

Conclusion du cours complet sur la technologie Docker

Révolutionnez vos tests et l'IA avec les Données Synthétiques pour un DevOps Confidentiel

DevOps Quantum-Inspiré | Révolutionnez l'Optimisation de vos Pipelines

Guide : Étendre votre Service Mesh avec des filtres Wasm et Rust

Rejoindre la communauté