Vault sous-performant en forte charge

Posté par lebon-valerie le 29/09/2024
RÉSOLU

lebon-valerie

Membre depuis le 17/09/2019

actif

salut la compagnie ! on a un souci avec notre cluster vault on dirait qu'il galère à tenir la charge. quand on a beaucoup de services qui bootent en même temps ou qui refresh leurs secrets on voit des latences de ouf et des timeouts côté app.

le cluster est en ha avec consul comme backend de stockage. on a 3 nodes vault et 3 nodes consul. les machines sont des t3.medium. est-ce que c'est juste un problème de sizing ou il y a un truc plus subtil à configurer ?

Commentaires

catherine08

Membre depuis le 26/08/2024

actif secouriste

yo t3.medium c'est un peu léger pour Vault en prod surtout si t'as bcp de trafic IOPS entre Vault et Consul. regarde déjà les métriques CPU/RAM/IOPS sur tes instances. souvent les latences viennent du stockage. c'est quoi ton backend de stockage pour consul ?

christophe67

Membre depuis le 30/04/2024

actif

ouais carrément t3.medium c'est juste pour des petits labos. pour de la prod avec HA faudrait au moins du m5.large ou x.large. et check la latence réseau entre tes nodes Vault et Consul si ils sont dans le même AZ. des fois un placement foireux fait mal.

lebon-valerie

Membre depuis le 17/09/2019

actif

c'est des ssd gp2 sur aws pour consul. et oui tout est dans la même AZ. les métriques montrent que le CPU de vault monte pas mal mais pas à 100%. par contre consul lui il est plus calme. les latences sont surtout côté Vault API

catherine08

Membre depuis le 26/08/2024

actif secouriste

ok si c'est l'API Vault alors peut-être une config des caches ou des lease durations trop courtes qui forcent les services à rafraîchir trop souvent. t'as des politiques de lease par défaut très agressives ?

gilles-luce

Membre depuis le 24/04/2020

actif secouriste

et t'utilises quoi comme librairie cliente pour tes apps pour se connecter à Vault ? des fois c'est la lib qui gère mal les retries ou le caching local. et as-tu mis en place des performance standbys si tu as le mode enterprise ?

lebon-valerie

Membre depuis le 17/09/2019

actif

on est en open source. les apps utilisent la lib hcl go-vault. par défaut les leases sont à 30 minutes. j'ai essayé de les monter à 1h mais pas de grand changement. c'est vraiment des pics de charge qu'on a. est-ce que le TLS entre Vault et Consul est impactant ?

christophe67

Membre depuis le 30/04/2024

actif

le tls est là pour la sécu mais l'overhead est minime à l'échelle où tu décris le problème. je pencherais plus pour un besoin de performance tuning côté kernel et sysctl ou carrément upgrader les instances. et aussi regarde tes logs audit de vault si y'a des trucs bizarres qui spamment

catherine08

Membre depuis le 26/08/2024

actif secouriste

ouais logs audit c'est une bonne piste. et niveau réseau entre tes instances, t'as des security groups ou nacl qui pourraient introduire de la latence cachée à cause de l'inspection de paquets ? souvent c'est le truc qu'on oublie

lebon-valerie

Membre depuis le 17/09/2019

actif

bon j'ai revu les SG et NACL rien d'étrange. par contre on a upgradé les instances Vault vers du m5.large et là ça respire beaucoup mieux ! les pics sont absorbés et les latences ont chuté. donc ouais c'était du sizing principalement. merci pour les pistes les gars

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire