Prometheus OOMKilled sur la prod le TSDB est en vrac

Question

yo des pros de prometheus ici j'ai un gros souci. ma stack prometheus sur la prod se fait OOMKilled régulièrement et le TSDB finit en état bizarre. des fois ça redémarre mais la plupart du temps j'ai des gaps de métriques. on collecte pas mal de trucs mais l'instance a 8 coeurs et 32go de ram ça devrait le faire non

# prometheus.yml (extrait)
global:
  scrape_interval: 15s
  evaluation_interval: 15s
storage:
  tsdb:
    retention: 30d

dubois-olivie · Answer

OOMKilled souvent c'est le retention size qui est trop grand pour la ram dispo ou le nombre de séries actives qui explose. regarde la métrique prometheus_tsdb_head_series ou prometheus_tsdb_compaction_chunk_pool_size_bytes pour voir si le head block est trop gros

lrichard · Answer

t'as des logs de compaction dans prometheus. regarde s'il y a des erreurs ou des avertissements sur les compactions. si les compactions galèrent ça peut surcharger la ram

robert90 · Answer

réduis ton retention_time à genre 7 ou 14 jours pour voir si ça tient mieux. et t'as check si tu collectes pas trop de labels ou des labels avec une cardinalité trop élevée. ça peut faire exploser la mémoire

coulon-aimee · Answer

c'était bien ça en fait. on avait un exporter qui générait une cardinalité de ouf avec des labels dynamiques. j'ai réduit ça et baissé le retention_time à 14j. l'instance tient enfin la charge et plus d'OOM. thx pour les tips les gars

Prometheus OOMKilled sur la prod le TSDB est en vrac

4 commentaires

Laisser une réponse

Comprendre et utiliser Packetbeat dans la stack ELK

Guide Complet pour la Gestion des Logs en Environnement DevOps

Kubernetes est-il devenu trop complexe pour l'ère de l'IA ?

Anatomie de io_uring : La fin du goulot d'étranglement syscall

Terraform ou Crossplane : Quel outil contrôle réellement votre cloud ?

Rejoindre la communauté