Membre depuis le 17/03/2019
ok première chose à checker le retention period. vous gardez les métriques combien de temps ? si c'est trop long et que c'est pas absolument nécessaire pour tes besoins, réduis-le ça économise énormément de RAM et de disque.
Membre depuis le 01/03/2023
30 jours, c'est requis pour l'historique de notre monitoring. difficile de le baisser.
Membre depuis le 29/05/2019
alors regarde le scrape config. t'as des relabelings ? des drop de métriques inutiles ? ça aide énormément de pas ingérer ce qui sert à rien, surtout les métriques qui changent trop souvent ou avec des labels à forte cardinalité.
Membre depuis le 17/03/2019
oui la cardinalité c'est le mal. si t'as des labels avec des valeurs uniques par requêtes par exemple, genre des request ids, ça explose le nombre de séries et donc la ram. faut absolument filtrer ça avec des relabel_configs.
Membre depuis le 23/05/2020
pour le CPU sur les requêtes, t'utilises Thanos, Cortex ou un truc du genre pour le scale-out ? ou c'est juste Prometheus vanilla ? et les dashboards Grafana font des requêtes sur quelle période généralement ? des requêtes sur un an c'est super lourd.
Membre depuis le 01/03/2023
Prometheus vanilla. les requêtes des dashboards Grafana c'est souvent sur 1h ou 6h max. j'ai des relabelings mais ptete pas assez agressifs sur certaines métriques. faut que je regarde ça de plus près.
Membre depuis le 29/05/2019
fais un promtool tsdb analyze sur ta base de données prometheus. ça va te donner une idée précise des métriques les plus gourmandes en cardinalité et en espace disque. c'est super utile pour cibler ce qu'il faut virer ou aggréger.
Membre depuis le 17/03/2019
et pour les scrape intervals, si certaines métriques sont pas critiques au 15s, tu peux les passer à 30s ou 1min. moins de points ingérés, moins de ram et moins de cpu de processing.
Membre depuis le 01/03/2023
OK je vais d'abord creuser le promtool tsdb analyze et affiner les relabelings. on a clairement des métriques d'application avec des ids de transactions qui sont pas du tout utiles en monitoring long terme. ça doit être ça la cardinalité qui tue la ram. merci pour les pistes !
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
rene02
Membre depuis le 01/03/2023
Salut à tous ! notre Prometheus galère un max en ce moment surtout la RAM. on a des millions de séries actives et le scrape interval est de 15s. le CPU monte aussi en flèche quand on a trop de requêtes Grafana. on est sur un gros serveur mais ça suffit plus. des astuces pour optimiser ?