Membre depuis le 21/07/2024
yo des pros de prometheus ici j'ai un gros souci. ma stack prometheus sur la prod se fait OOMKilled régulièrement et le TSDB finit en état bizarre. des fois ça redémarre mais la plupart du temps j'ai des gaps de métriques. on collecte pas mal de trucs mais l'instance a 8 coeurs et 32go de ram ça devrait le faire non
# prometheus.yml (extrait)
global:
scrape_interval: 15s
evaluation_interval: 15s
storage:
tsdb:
retention: 30d
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
Commentaires
dubois-olivie
Membre depuis le 27/07/2024
OOMKilled souvent c'est le retention size qui est trop grand pour la ram dispo ou le nombre de séries actives qui explose. regarde la métrique prometheus_tsdb_head_series ou prometheus_tsdb_compaction_chunk_pool_size_bytes pour voir si le head block est trop gros
lrichard
Membre depuis le 14/05/2024
t'as des logs de compaction dans prometheus. regarde s'il y a des erreurs ou des avertissements sur les compactions. si les compactions galèrent ça peut surcharger la ram
robert90
Membre depuis le 25/09/2024
réduis ton retention_time à genre 7 ou 14 jours pour voir si ça tient mieux. et t'as check si tu collectes pas trop de labels ou des labels avec une cardinalité trop élevée. ça peut faire exploser la mémoire
coulon-aimee
Membre depuis le 21/07/2024
c'était bien ça en fait. on avait un exporter qui générait une cardinalité de ouf avec des labels dynamiques. j'ai réduit ça et baissé le retention_time à 14j. l'instance tient enfin la charge et plus d'OOM. thx pour les tips les gars