Résolution DNS intermittente k8s externe

Posté par madeleine32 le 24/08/2024
RÉSOLU

madeleine32

Membre depuis le 21/11/2023

salut la team j'ai un souci bizarre sur notre cluster k8s les pods ont des problèmes de résolution dns pour des services externes genre github ou un repo docker privé

ça arrive par intermittence pendant quelques secondes puis ça redevient ok. les logs de coredns montrent rien de spécial pas d'erreurs ni de timeouts. j'ai check les configmap de coredns c'est du classique avec un forward vers nos resolveurs on-prem


# coredns configmap (extrait)
.:53 {
    errors
    health
    ready
    kubernetes cluster.local in-addr.arpa ip6.arpa {
        pods insecure
        fallthrough in-addr.arpa ip6.arpa
        ttl 30
    }
    prometheus :9153
    forward . 10.0.0.10 10.0.0.11 {
        force_tcp
        max_concurrent 1000
    }
    cache 30
    loop
    reload
    loadbalance
}

quand ça merde un dig depuis un pod vers un domaine externe ne répond pas ou timeout direct. des idées de pistes à creuser ?

Commentaires

vrenaud

Membre depuis le 03/08/2024

yo t'as vu les metrics de coredns cpu ou memoire ? des fois c'est juste le pod coredns qui se met à ramer ou qui est throttlé par k8s

madeleine32

Membre depuis le 21/11/2023

ouais j'ai regardé et les ressources sont bonnes. pas de cpu throttling ni de memoire qui monte en fleche. les pods coredns sont bien répartis sur les noeuds aussi

alex-potier

Membre depuis le 07/05/2024

forward . 10.0.0.10 10.0.0.11 ? tes resolveurs on-prem sont stables ? et le réseau entre k8s et tes resolveurs on-prem il est clean ? pas de pertes de paquets ou de latence fluctuante ? un tcpdump sur l'interface de coredns quand ca merde ça donnerait des indices

vrenaud

Membre depuis le 03/08/2024

c'est peut-être tes resolveurs on-prem qui peinent un peu à gérer la charge de coredns. surtout si t'as beaucoup de requêtes. le force_tcp c'est pas toujours idéal non plus si les resolveurs derrière sont pas super performants en tcp dns

madeleine32

Membre depuis le 21/11/2023

ok je vais checker la latence et les drops entre coredns et les resolveurs on-prem. et tenter d'enlever le force_tcp pour voir si ça change qque chose. thx pour les pistes je vous tiens au jus

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire