Vault HA Raft défaillant après redémarrage

Posté par moreno-marianne le 25/06/2025
RÉSOLU

moreno-marianne

Membre depuis le 27/03/2019

salut la team on a redémarré un de nos nœuds vault en ha (raft backend) après une maintenance système et depuis il veut plus joindre le cluster. le leader est ok les autres membres aussi mais ce nœud là reste isolé. les logs montrent rien de super clair juste "context canceled". une idée avant que je me tape la doc à nouveau ?


# exemple de commande
vault operator raft list-peers

Commentaires

alegoff

Membre depuis le 21/03/2019

yo t'as checké le firewall entre les nœuds ? même si ça marchait avant des fois une update système remet des règles par défaut ou change un truc. regarde aussi le port raft (8201 par défaut) si il est bien ouvert dans les deux sens

navarro-celina

Membre depuis le 13/09/2023

c'est clair le réseau c'est souvent la base. mais sinon si tu as touché aux certificats ou à la config TLS pdt ta maintenance ça peut aussi foutre le bordel. Vault est super sensible là-dessus

moreno-marianne

Membre depuis le 27/03/2019

le firewall c'est ok j'ai revérifié. certifs pas touchés non plus. je pense plus à un truc Raft pur genre la config de peer set ou le storage path qui serait corrompu ou pas bien monté

alegoff

Membre depuis le 21/03/2019

si le storage path est sur un mount externe genre un volume EBS ou NFS assure toi qu'il a bien été remounté avant que Vault essaie de démarrer. et check les permissions sur le répertoire de données de Vault aussi ça coûte rien

epinto

Membre depuis le 25/04/2024

et t'as jeté un oeil aux logs du système type journalctl pour voir si le service vault lui-même a pas des erreurs au démarrage avant même de tenter de rejoindre le cluster ? genre un problème de config ou un paramètre manquant

moreno-marianne

Membre depuis le 27/03/2019

ok je vais checker les mounts et les permissions. je me demande si je devrais pas tenter un "raft remove-peer" et le rajouter proprement. mais bon si c'est la config ça va juste revenir. thx pour les pistes

navarro-celina

Membre depuis le 13/09/2023

ouais remove-peer c'est risqué si tu es déjà à la limite de nœuds quorum. tu as quoi comme config Raft genre 3 ou 5 nœuds ? si c'est 3 et que t'en as déjà un down fais gaffe à pas en perdre un deuxième

moreno-marianne

Membre depuis le 27/03/2019

c'était bien un problème de permissions sur le mount du data dir. un truc bête mais qui a tout cassé. merci les gars !

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire