Optimisation Prometheus grosse conso RAM/CPU

Posté par rene02 le 21/06/2024
RÉSOLU

rene02

Membre depuis le 01/03/2023

Salut à tous ! notre Prometheus galère un max en ce moment surtout la RAM. on a des millions de séries actives et le scrape interval est de 15s. le CPU monte aussi en flèche quand on a trop de requêtes Grafana. on est sur un gros serveur mais ça suffit plus. des astuces pour optimiser ?

Commentaires

stephanie-roy

Membre depuis le 17/03/2019

ok première chose à checker le retention period. vous gardez les métriques combien de temps ? si c'est trop long et que c'est pas absolument nécessaire pour tes besoins, réduis-le ça économise énormément de RAM et de disque.

rene02

Membre depuis le 01/03/2023

30 jours, c'est requis pour l'historique de notre monitoring. difficile de le baisser.

laure90

Membre depuis le 29/05/2019

alors regarde le scrape config. t'as des relabelings ? des drop de métriques inutiles ? ça aide énormément de pas ingérer ce qui sert à rien, surtout les métriques qui changent trop souvent ou avec des labels à forte cardinalité.

stephanie-roy

Membre depuis le 17/03/2019

oui la cardinalité c'est le mal. si t'as des labels avec des valeurs uniques par requêtes par exemple, genre des request ids, ça explose le nombre de séries et donc la ram. faut absolument filtrer ça avec des relabel_configs.

paris-alexandria

Membre depuis le 23/05/2020

pour le CPU sur les requêtes, t'utilises Thanos, Cortex ou un truc du genre pour le scale-out ? ou c'est juste Prometheus vanilla ? et les dashboards Grafana font des requêtes sur quelle période généralement ? des requêtes sur un an c'est super lourd.

rene02

Membre depuis le 01/03/2023

Prometheus vanilla. les requêtes des dashboards Grafana c'est souvent sur 1h ou 6h max. j'ai des relabelings mais ptete pas assez agressifs sur certaines métriques. faut que je regarde ça de plus près.

laure90

Membre depuis le 29/05/2019

fais un promtool tsdb analyze sur ta base de données prometheus. ça va te donner une idée précise des métriques les plus gourmandes en cardinalité et en espace disque. c'est super utile pour cibler ce qu'il faut virer ou aggréger.

stephanie-roy

Membre depuis le 17/03/2019

et pour les scrape intervals, si certaines métriques sont pas critiques au 15s, tu peux les passer à 30s ou 1min. moins de points ingérés, moins de ram et moins de cpu de processing.

rene02

Membre depuis le 01/03/2023

OK je vais d'abord creuser le promtool tsdb analyze et affiner les relabelings. on a clairement des métriques d'application avec des ids de transactions qui sont pas du tout utiles en monitoring long terme. ça doit être ça la cardinalité qui tue la ram. merci pour les pistes !

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire