vault dr replication en panne j'ai plus de synchro

Question

yo tout le monde. j'ai ma réplication vault en mode dr (disaster recovery) qui a pété ce matin. mon secondary cluster ne reçoit plus rien du primary. pas d'erreurs claires dans les logs à part des timeouts réseau. la connectivité réseau est ok entre les deux sites j'ai fait des pings et des curl sur le port vault. les certificates sont toujours valides. j'ai essayé de relancer vault operator raft join mais ça part en vrille.
# logs du secondary
2023-10-27t08:30:05.123z [error] core: failed to fetch primary status: get "https://primary-vault-addr:8200/v1/sys/replication/dr/state": context deadline exceeded

renee-laine · Answer

salut. context deadline exceeded c'est souvent un firewall ou un proxy qui joue les troubles. même si tes pings/curls passent, vérifie que les flux sont bidirectionnels pour le port vault (8200 par défaut) et que les adresses ip source/dest sont bien autorisées

toussaint-lucy · Answer

ou un souci de tls. même si les certs sont valides as-tu vérifié les cn (common name) et les san (subject alternative names) des certs ? il faut qu'ils correspondent aux adresses que vault utilise pour se parler entre primary et secondary. des fois le cert est bon mais l'adresse utilisée dans la config vault est pas couverte

renee-laine · Answer

ouais. et si tu as des proxies http/https, vérifie que les variables d'environnement HTTP_PROXY HTTPS_PROXY et NO_PROXY sont bien configurées ou absentes si tu veux pas de proxy

leroy-margot · Answer

j'ai recheck les règles firewall tout est ok dans les deux sens pour 8200. pas de proxy non plus. pour les certs j'ai regénéré et redéployé histoire d'être sûr mais le problème persiste. toujours ces timeouts. mais le truc bizarre c'est que la première fois que j'ai setup la dr y'a quelques mois ça a marché nickel

bernier-anne · Answer

quand tu fais un

vault operator raft join

tu utilises bien le

-token

du secondary ? ce token doit avoir les bonnes capacités pour joindre le cluster et initier la réplication. un token expiré ou avec de mauvaises permissions pourrait donner ce genre de symptôme indirectement en échouant à l'auth interne avant même d'avoir un bon état

leroy-margot · Answer

OMG le token ! j'ai utilisé un ancien token parce que j'avais la flemme de le regénérer. j'en ai refait un avec les bonnes capacités

dr-secondary

et j'ai re-join. et là ça a repris la synchro direct. putain j'ai perdu une matinée pour une connerie de token. merci beaucoup !

renee-laine · Answer

ah la la classique le token ! ça arrive même aux meilleurs. content que ça soit résolu !

vault dr replication en panne j'ai plus de synchro

7 commentaires

Laisser une réponse

Introduction à la Gestion de projets Informatiques

Gestion des différents événements en SDL 2

Gérer et manipuler un Service Kubernetes

Création d'un playbook multi distributions

Bases de Données sur Kubernetes : Miracle ou Mirage Architectural ?

Rejoindre la communauté