Dashboard Prometheus Grafana lent sur grosses requêtes

Question

Salut à tous ! On a des dashboards Grafana qui tapent sur Prometheus et c'est devenu super lent. Dès qu'on met une période un peu longue (genre 24h ou 7j) ou qu'il y a trop de séries temporelles affichées sur un graphique ça rame à mort. Les requêtes prometheus mettent des plombes à revenir. Notre prometheus est sur une VM avec pas mal de CPU/RAM/IO mais j'ai l'impression qu'il suffoque quand même. Des pistes ?

corinne37 · Answer

yo. classique. t'as quelle version de prometheus ? et t'as check si tu as des enregistrements rules (recording rules) pour pré-calculer les métriques qui sont souvent demandées dans tes dashboards ? ça réduit drastiquement la charge de query time

lblondel · Answer

on est en 2.37. on a quelques recording rules mais pas pour toutes les requêtes complexes. je vais regarder pour en ajouter. mais même sur des requêtes simples des fois avec bcp de labels ça mouline

juliette-david · Answer

pour les requêtes avec beaucoup de labels ou de séries temporelles c'est souvent un problème de cardinality. si tu as des métriques avec des labels qui changent trop souvent ou ont trop de valeurs uniques ça explose la base de données. essaie de simplifier tes labels ou de relabel_configs pour les dropper à l'ingestion

laroche-luc · Answer

grave la cardinality. aussi regarde tes logs prometheus y a ptete des messages sur des requêtes qui prennent trop de temps ou des soucis de compaction du tsdb. et si t'as beaucoup de scrapes avec peu de rétention ça peut aussi ralentir la lecture

corinne37 · Answer

si tu as beaucoup de range queries ([5m]) sur de longues périodes prometheus va devoir lire pas mal de chunks. un bon moyen de décharger c'est d'utiliser un read-replica de prometheus ou thonos. Thanos sidecar pour le long-term storage et les queries distribuées ça change la vie

lblondel · Answer

les logs prometheus montrent des 'query timed out'. la cardinalité c'est une piste aussi on a bcp de pod names comme labels. je vais creuser les recording rules et le relabeling pour réduire la cardinality. thx les gars !

juliette-david · Answer

pense aussi à l'indexation. prometheus fait un bon boulot mais si t'as trop de labels différents à chaque série ça prend du temps à l'index. la version 2.37 est correcte mais les versions récentes ont des optis sur le query engine. un upgrade pourrait aider si les autres pistes ne suffisent pas

laroche-luc · Answer

ouais et si ton prometheus est sur disques lents, ça va pas aider. faut du SSD bien rapide pour le TSDB. et vérifie tes quotas CPU/IO sur ta VM. des fois ça monte pas à 100% mais les burst credits sont épuisés

corinne37 · Answer

la rétention aussi. si tu gardes des données trop fines trop longtemps, ça va peser. un setup avec downsampling vers un long-term storage (thanos, m3db, cortex) est souvent la voie royale pour pas surcharger le prometheus de base

lblondel · Answer

ok je vais commencer par les recording rules et le relabeling ça me semble le plus direct. si ça suffit pas je regarderai pour thonos ou un upgrade et l'infra disque. merci pour les conseils précieux !

Dashboard Prometheus Grafana lent sur grosses requêtes

10 commentaires

Laisser une réponse

Exécutez vos premières commandes Ansible

Importer un dépôt externe vers GitLab pour migrer vos projets

Internal Developer Platforms (IDP) : Libérez le Potentiel de vos Développeurs

L'Ère du DevOps par Intentions : Quand l'IA Réinvente l'Opération

Cyber-Immunity Autonome : Quand l'Infra DevOps s'Auto-Défend

Rejoindre la communauté