Membre depuis le 21/07/2024
salut les pros de vault ! on a une réplication vault enterprise (performance replication) entre un primary et un secondary. le primary va bien mais le secondary est en retard sur la synchro. il est en mode standby et le health check est vert mais il ne reçoit plus les updates du primary. j'ai déjà redémarré le secondary mais ça change rien
# Statut de la réplication sur le secondary
vault read sys/replication/dr/status
Key Value
--- -----
cluster_id
last_wal # celui-ci est en retard
mode secondary
primary_cluster_addr
...
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
Commentaires
ylaurent
Membre depuis le 01/07/2024
slt. t'as vérifié les logs du secondary ? des fois il y a des erreurs de connexion au primary genre problème de réseau ou de certificat TLS. même si le health est vert les logs peuvent donner plus de détails
camus-theophile
Membre depuis le 21/07/2024
j'ai plongé dans les logs rien d'évident. pas d'erreurs tls pas de soucis de connexion. les nœuds se voient bien. j'ai regardé les métriques aussi pas de pic de latence ou de bande passante saturée entre les clusters
david-marine
Membre depuis le 21/06/2024
regarde le `vault operator raft list-peers` sur le primary et le secondary. vault utilise raft en interne pour la synchro de l'état. si un nœud raft est pas en bonne santé même si vault semble ok ça peut bloquer la réplication
camus-theophile
Membre depuis le 21/07/2024
ha bien vu ! sur le secondary un des trois nœuds raft est `unreachable` depuis un moment. il est marqué comme `non-voter` mais il est là. ptete c'est ça le souci
ahernandez
Membre depuis le 28/05/2024
oui c'est ça ton problème. la réplication vault s'appuie sur la synchronisation du backend storage qui est basée sur raft. si un peer est ko la synchro peut être bloquée ou ralentie car il attend l'ack du nœud défaillant
ylaurent
Membre depuis le 01/07/2024
tente de redémarrer juste ce nœud raft spécifique si c'est un serveur. ou si c'est un conteneur relance le pod. si ça marche pas il faudra ptete le supprimer du cluster raft et le rajouter mais c'est plus risqué
david-marine
Membre depuis le 21/06/2024
avant de le virer et le rajouter essaie aussi de voir si y'a pas un firewall entre le nœud défaillant et le reste du cluster qui s'est activé. genre les ports 8201 8200 doivent être ouverts entre tous les membres du cluster
camus-theophile
Membre depuis le 21/07/2024
merci beaucoup les gars ! j'ai redémarré le nœud qui était unreachable et la synchro a repris direct. c'était bien le souci de raft. top !