dns résolution lente pour nos microservices internes avec k8s

Question

yo la k8s team on a un gros souci de dns sur notre cluster. nos microservices ont des latences de dingue pour résoudre les noms de services internes genre "my-service.my-namespace.svc.cluster.local". ça prend des centaines de ms des fois. on est sur un cluster gke avec coredns default. j'ai déjà regardé les logs coredns mais rien de flagrant

# exemple de yaml pour un pod (simplifié)
apiVersion: v1
kind: Pod
metadata:
  name: my-app
spec:
  containers:
  - name: my-app-container
    image: my-app:latest

emmanuelle33 · Answer

salut. coredns est souvent le coupable effectivement. t'as combien de replicas de coredns et quelles sont les ressources (cpu/mem) allouées. si c sous-provisionné ça peut causer des lenteurs

ifleury · Answer

t'as des custom cni genre calico ou cilium. des fois une mauvaise config de ces derniers peut interférer avec la résolution dns ou le routage vers coredns

georges01 · Answer

t'as un nombre colossal de services ou de pods dans ton cluster. coredns peut avoir du mal à gérer une très grande quantité de données dans le cache ou le forward s'il est pas optimisé

emmanuelle33 · Answer

fais un dig @ my-service.my-namespace.svc.cluster.local depuis un de tes pods et mesure le temps de réponse. ça permet d'isoler si c'est coredns ou le chemin réseau jusqu'à coredns

wleconte · Answer

t'as des règles networkpolicy qui pourraient bloquer ou ralentir le trafic udp 53 entre tes pods et les pods coredns. ça arrive des fois une règle trop restrictive

timothee-gregoire · Answer

regarde le coredns configmap. t'as pas des plugins un peu exotiques ou des forwards vers des dns externes qui mettent du temps à répondre

michel-peron · Answer

un cas que j'ai vu c'était des nodes qui manquaient de ressources cpu et donc le pod coredns était ralenti car il n'avait pas assez de cycles cpu pour traiter les requêtes rapidement

rossi-olivie · Answer

merci les gars ! après avoir creusé avec vos conseils c'était un mix. coredns était effectivement sous-provisionné en cpu j'ai augmenté les requests/limits. et aussi une de mes network policies était trop générale et créait des congestions sur le trafic dns. une fois ajusté les latences sont revenues à la normale. énorme coup de main

dns résolution lente pour nos microservices internes avec k8s

8 commentaires

Laisser une réponse

Les variables dans le langage de programmation Go

Pipeline et outils DevOps

Les différentes stratégies pour migrer vers le Cloud (6 R)

Maîtriser les permissions GitLab CI/CD pour la sécurité

L'Ère de l'Observabilité Prédictive : Quand l'IA Anticipe les Pannes et Réinvente la Résilience Opérationnelle

Rejoindre la communauté

Oops! An Error Occurred

The server returned a "500 Internal Server Error".