Vault Enterprise Replication pas synchro entre primary et secondary

Posté par camus-theophile le 01/10/2025
RÉSOLU

camus-theophile

Membre depuis le 21/07/2024

salut les pros de vault ! on a une réplication vault enterprise (performance replication) entre un primary et un secondary. le primary va bien mais le secondary est en retard sur la synchro. il est en mode standby et le health check est vert mais il ne reçoit plus les updates du primary. j'ai déjà redémarré le secondary mais ça change rien


# Statut de la réplication sur le secondary
vault read sys/replication/dr/status
Key                 Value
---                 -----
cluster_id          
last_wal             # celui-ci est en retard
mode                secondary
primary_cluster_addr  
...

Commentaires

ylaurent

Membre depuis le 01/07/2024

slt. t'as vérifié les logs du secondary ? des fois il y a des erreurs de connexion au primary genre problème de réseau ou de certificat TLS. même si le health est vert les logs peuvent donner plus de détails

camus-theophile

Membre depuis le 21/07/2024

j'ai plongé dans les logs rien d'évident. pas d'erreurs tls pas de soucis de connexion. les nœuds se voient bien. j'ai regardé les métriques aussi pas de pic de latence ou de bande passante saturée entre les clusters

david-marine

Membre depuis le 21/06/2024

regarde le `vault operator raft list-peers` sur le primary et le secondary. vault utilise raft en interne pour la synchro de l'état. si un nœud raft est pas en bonne santé même si vault semble ok ça peut bloquer la réplication

camus-theophile

Membre depuis le 21/07/2024

ha bien vu ! sur le secondary un des trois nœuds raft est `unreachable` depuis un moment. il est marqué comme `non-voter` mais il est là. ptete c'est ça le souci

ahernandez

Membre depuis le 28/05/2024

oui c'est ça ton problème. la réplication vault s'appuie sur la synchronisation du backend storage qui est basée sur raft. si un peer est ko la synchro peut être bloquée ou ralentie car il attend l'ack du nœud défaillant

ylaurent

Membre depuis le 01/07/2024

tente de redémarrer juste ce nœud raft spécifique si c'est un serveur. ou si c'est un conteneur relance le pod. si ça marche pas il faudra ptete le supprimer du cluster raft et le rajouter mais c'est plus risqué

david-marine

Membre depuis le 21/06/2024

avant de le virer et le rajouter essaie aussi de voir si y'a pas un firewall entre le nœud défaillant et le reste du cluster qui s'est activé. genre les ports 8201 8200 doivent être ouverts entre tous les membres du cluster

camus-theophile

Membre depuis le 21/07/2024

merci beaucoup les gars ! j'ai redémarré le nœud qui était unreachable et la synchro a repris direct. c'était bien le souci de raft. top !

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire