11 commentaires
salut ! ça sent les options de mount NFS. tu es en hard ou soft ? si c'est hard et que le serveur NFS répond pas assez vite ou qu'il y a un micro-cut réseau tes processus vont rester bloqués en D-state indéfiniment jusqu'à ce que la connexion revienne. essaie soft,intr pour voir
check aussi les logs sur le client et le serveur nfs. dmesg -T côté client peut te donner des erreurs `NFS server . sur le serveur nfs var/log/messages ou syslog` s'il y a des soucis de disques ou réseau
côté réseau t'es sûr que c'est propre ? t'as regardé la latence entre le client et le serveur nfs pendant ces pics ? un simple ping ou iperf peut te donner des infos. même si la bande passante est pas saturée la latence peut tuer les perfs NFS
la version NFS est importante aussi. v3, v4 ? des fois la v4 a des comportements un peu différents avec les verrous (file locks). et check les options rsize/wsize si elles sont trop petites ou trop grandes pour ton réseau/matos
t'as pas un firewall ou un security group qui ferait du stateful inspection et qui aurait des tables de suivi de connexion qui seraient pleines ou qui dropperait des paquets ? même si les ports sont ouverts le comportement peut être bizarre
et sur le serveur NFS t'as quoi comme backend storage ? du disque local du SAN de l'EBS ? si le backend lui-même est lent ça se répercute sur le NFS et donc les clients. regarde iostat sur le serveur NFS pendant les pics aussi
des fois c'est aussi un souci de DNS. si le serveur NFS n'arrive pas à résoudre le nom du client (ou vice versa) ça peut ralentir les choses ou même bloquer certaines ops NFS qui ont besoin de reverse lookup
y'a des chances que ça vienne du mount -o hard si t'as pas intr. le hard est très tenace et ignore les signaux d'interruption. soft par contre peut entraîner des corruptions de données si pas géré par l'app. le compromis c'est hard,intr
vérifie si le problème est généralisé sur toutes les partages nfs ou seulement certains. si c juste un partage c ptete un souci sur le volume spécifique côté serveur
Alors c'était bien le hard mount option qui était le coupable principal. J'ai ajouté intr et ça a radicalement amélioré la situation, les processus ne se figent plus. On a aussi découvert un micro-cut réseau très bref mais régulier qui était à l'origine du souci initial, le hard mount masquait le problème. Merci à tous pour l'aide précieuse !
Laisser une réponse
Vous devez être connecté pour poster un message !
yo la team un truc bizarre sur nos serveurs d'app. on a des processus qui se figent aléatoirement en d-state (uninterruptible sleep) quand ils accèdent à des partages nfs. on voit des gros
awaitetsvctmdansiostatau moment où ça arrive. le reste de l'infra tourne impec le réseau est pas saturé l'utilisation cpu est basse. c'est surtout quand on fait des grosses opérations de lecture/écriture sur nfs. une idée ?