Membre depuis le 21/03/2019
yo t'as checké le firewall entre les nœuds ? même si ça marchait avant des fois une update système remet des règles par défaut ou change un truc. regarde aussi le port raft (8201 par défaut) si il est bien ouvert dans les deux sens
Membre depuis le 13/09/2023
c'est clair le réseau c'est souvent la base. mais sinon si tu as touché aux certificats ou à la config TLS pdt ta maintenance ça peut aussi foutre le bordel. Vault est super sensible là-dessus
Membre depuis le 27/03/2019
le firewall c'est ok j'ai revérifié. certifs pas touchés non plus. je pense plus à un truc Raft pur genre la config de peer set ou le storage path qui serait corrompu ou pas bien monté
Membre depuis le 21/03/2019
si le storage path est sur un mount externe genre un volume EBS ou NFS assure toi qu'il a bien été remounté avant que Vault essaie de démarrer. et check les permissions sur le répertoire de données de Vault aussi ça coûte rien
Membre depuis le 25/04/2024
et t'as jeté un oeil aux logs du système type journalctl pour voir si le service vault lui-même a pas des erreurs au démarrage avant même de tenter de rejoindre le cluster ? genre un problème de config ou un paramètre manquant
Membre depuis le 27/03/2019
ok je vais checker les mounts et les permissions. je me demande si je devrais pas tenter un "raft remove-peer" et le rajouter proprement. mais bon si c'est la config ça va juste revenir. thx pour les pistes
Membre depuis le 13/09/2023
ouais remove-peer c'est risqué si tu es déjà à la limite de nœuds quorum. tu as quoi comme config Raft genre 3 ou 5 nœuds ? si c'est 3 et que t'en as déjà un down fais gaffe à pas en perdre un deuxième
Membre depuis le 27/03/2019
c'était bien un problème de permissions sur le mount du data dir. un truc bête mais qui a tout cassé. merci les gars !
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
moreno-marianne
Membre depuis le 27/03/2019
salut la team on a redémarré un de nos nœuds vault en ha (raft backend) après une maintenance système et depuis il veut plus joindre le cluster. le leader est ok les autres membres aussi mais ce nœud là reste isolé. les logs montrent rien de super clair juste "context canceled". une idée avant que je me tape la doc à nouveau ?