Vault HA Raft défaillant après redémarrage

Question

salut la team on a redémarré un de nos nœuds vault en ha (raft backend) après une maintenance système et depuis il veut plus joindre le cluster. le leader est ok les autres membres aussi mais ce nœud là reste isolé. les logs montrent rien de super clair juste "context canceled". une idée avant que je me tape la doc à nouveau ?

# exemple de commande
vault operator raft list-peers

alegoff · Answer

yo t'as checké le firewall entre les nœuds ? même si ça marchait avant des fois une update système remet des règles par défaut ou change un truc. regarde aussi le port raft (8201 par défaut) si il est bien ouvert dans les deux sens

navarro-celina · Answer

c'est clair le réseau c'est souvent la base. mais sinon si tu as touché aux certificats ou à la config TLS pdt ta maintenance ça peut aussi foutre le bordel. Vault est super sensible là-dessus

moreno-marianne · Answer

le firewall c'est ok j'ai revérifié. certifs pas touchés non plus. je pense plus à un truc Raft pur genre la config de peer set ou le storage path qui serait corrompu ou pas bien monté

alegoff · Answer

si le storage path est sur un mount externe genre un volume EBS ou NFS assure toi qu'il a bien été remounté avant que Vault essaie de démarrer. et check les permissions sur le répertoire de données de Vault aussi ça coûte rien

epinto · Answer

et t'as jeté un oeil aux logs du système type journalctl pour voir si le service vault lui-même a pas des erreurs au démarrage avant même de tenter de rejoindre le cluster ? genre un problème de config ou un paramètre manquant

moreno-marianne · Answer

ok je vais checker les mounts et les permissions. je me demande si je devrais pas tenter un "raft remove-peer" et le rajouter proprement. mais bon si c'est la config ça va juste revenir. thx pour les pistes

navarro-celina · Answer

ouais remove-peer c'est risqué si tu es déjà à la limite de nœuds quorum. tu as quoi comme config Raft genre 3 ou 5 nœuds ? si c'est 3 et que t'en as déjà un down fais gaffe à pas en perdre un deuxième

moreno-marianne · Answer

c'était bien un problème de permissions sur le mount du data dir. un truc bête mais qui a tout cassé. merci les gars !

Vault HA Raft défaillant après redémarrage

Commentaires

Laisser une réponse

Sauvegarder et restaurer votre cluster Kubernetes

Les goroutines dans le langage de programmation Go

Gérez vos conteneurs avec le Docker Compose

Rejoindre la communauté