Membre depuis le 09/06/2020
yo. classique. t'as quelle version de prometheus ? et t'as check si tu as des enregistrements rules (recording rules) pour pré-calculer les métriques qui sont souvent demandées dans tes dashboards ? ça réduit drastiquement la charge de query time
Membre depuis le 25/04/2020
on est en 2.37. on a quelques recording rules mais pas pour toutes les requêtes complexes. je vais regarder pour en ajouter. mais même sur des requêtes simples des fois avec bcp de labels ça mouline
Membre depuis le 19/06/2024
pour les requêtes avec beaucoup de labels ou de séries temporelles c'est souvent un problème de cardinality. si tu as des métriques avec des labels qui changent trop souvent ou ont trop de valeurs uniques ça explose la base de données. essaie de simplifier tes labels ou de `relabel_configs` pour les dropper à l'ingestion
Membre depuis le 20/07/2020
grave la cardinality. aussi regarde tes logs prometheus y a ptete des messages sur des requêtes qui prennent trop de temps ou des soucis de compaction du tsdb. et si t'as beaucoup de scrapes avec peu de rétention ça peut aussi ralentir la lecture
Membre depuis le 09/06/2020
si tu as beaucoup de range queries (`[5m]`) sur de longues périodes prometheus va devoir lire pas mal de chunks. un bon moyen de décharger c'est d'utiliser un read-replica de prometheus ou thonos. Thanos sidecar pour le long-term storage et les queries distribuées ça change la vie
Membre depuis le 25/04/2020
les logs prometheus montrent des 'query timed out'. la cardinalité c'est une piste aussi on a bcp de pod names comme labels. je vais creuser les recording rules et le relabeling pour réduire la cardinality. thx les gars !
Membre depuis le 19/06/2024
pense aussi à l'indexation. prometheus fait un bon boulot mais si t'as trop de labels différents à chaque série ça prend du temps à l'index. la version 2.37 est correcte mais les versions récentes ont des optis sur le query engine. un upgrade pourrait aider si les autres pistes ne suffisent pas
Membre depuis le 20/07/2020
ouais et si ton prometheus est sur disques lents, ça va pas aider. faut du SSD bien rapide pour le TSDB. et vérifie tes quotas CPU/IO sur ta VM. des fois ça monte pas à 100% mais les burst credits sont épuisés
Membre depuis le 09/06/2020
la rétention aussi. si tu gardes des données trop fines trop longtemps, ça va peser. un setup avec downsampling vers un long-term storage (thanos, m3db, cortex) est souvent la voie royale pour pas surcharger le prometheus de base
Membre depuis le 25/04/2020
ok je vais commencer par les recording rules et le relabeling ça me semble le plus direct. si ça suffit pas je regarderai pour thonos ou un upgrade et l'infra disque. merci pour les conseils précieux !
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
lblondel
Membre depuis le 25/04/2020
Salut à tous ! On a des dashboards Grafana qui tapent sur Prometheus et c'est devenu super lent. Dès qu'on met une période un peu longue (genre 24h ou 7j) ou qu'il y a trop de séries temporelles affichées sur un graphique ça rame à mort. Les requêtes prometheus mettent des plombes à revenir. Notre prometheus est sur une VM avec pas mal de CPU/RAM/IO mais j'ai l'impression qu'il suffoque quand même. Des pistes ?