Processus bloqués en D-state avec des spikes I/O sur NFS

frederic94 30/05/2025
RÉSOLU
frederic94
Auteur Actif
Avatar de frederic94
frederic94
Auteur Actif

yo la team un truc bizarre sur nos serveurs d'app. on a des processus qui se figent aléatoirement en d-state (uninterruptible sleep) quand ils accèdent à des partages nfs. on voit des gros await et svctm dans iostat au moment où ça arrive. le reste de l'infra tourne impec le réseau est pas saturé l'utilisation cpu est basse. c'est surtout quand on fait des grosses opérations de lecture/écriture sur nfs. une idée ?

# exemple de ps -aux | grep D
root      1234  0.0  0.0      0     0 ?        D    Aug01   0:00 [nfsiod]
appuser   5678  0.1  0.5 123456 45678 ?        D    Aug01   0:12 /usr/bin/python /app/script.py
30/05/2025 à 19:34

11 commentaires

yrodrigues
Membre Actif Secouriste
Avatar de yrodrigues
yrodrigues
Membre Actif Secouriste

salut ! ça sent les options de mount NFS. tu es en hard ou soft ? si c'est hard et que le serveur NFS répond pas assez vite ou qu'il y a un micro-cut réseau tes processus vont rester bloqués en D-state indéfiniment jusqu'à ce que la connexion revienne. essaie soft,intr pour voir

Modifié le 23/05/2026 à 16:20
dupre-henriette
Membre Actif Secouriste
Avatar de dupre-henriette
dupre-henriette
Membre Actif Secouriste

check aussi les logs sur le client et le serveur nfs. dmesg -T côté client peut te donner des erreurs `NFS server not responding. sur le serveur nfs var/log/messages ou syslog` s'il y a des soucis de disques ou réseau

Modifié le 23/05/2026 à 16:20
tmartins
Membre Actif
Avatar de tmartins
tmartins
Membre Actif

côté réseau t'es sûr que c'est propre ? t'as regardé la latence entre le client et le serveur nfs pendant ces pics ? un simple ping ou iperf peut te donner des infos. même si la bande passante est pas saturée la latence peut tuer les perfs NFS

Modifié le 23/05/2026 à 16:20
yrodrigues
Membre Actif Secouriste
Avatar de yrodrigues
yrodrigues
Membre Actif Secouriste

la version NFS est importante aussi. v3, v4 ? des fois la v4 a des comportements un peu différents avec les verrous (file locks). et check les options rsize/wsize si elles sont trop petites ou trop grandes pour ton réseau/matos

Modifié le 23/05/2026 à 16:20

t'as pas un firewall ou un security group qui ferait du stateful inspection et qui aurait des tables de suivi de connexion qui seraient pleines ou qui dropperait des paquets ? même si les ports sont ouverts le comportement peut être bizarre

04/06/2025 à 08:46
dupre-henriette
Membre Actif Secouriste
Avatar de dupre-henriette
dupre-henriette
Membre Actif Secouriste

et sur le serveur NFS t'as quoi comme backend storage ? du disque local du SAN de l'EBS ? si le backend lui-même est lent ça se répercute sur le NFS et donc les clients. regarde iostat sur le serveur NFS pendant les pics aussi

Modifié le 23/05/2026 à 16:20
yrodrigues
Membre Actif Secouriste
Avatar de yrodrigues
yrodrigues
Membre Actif Secouriste

des fois c'est aussi un souci de DNS. si le serveur NFS n'arrive pas à résoudre le nom du client (ou vice versa) ça peut ralentir les choses ou même bloquer certaines ops NFS qui ont besoin de reverse lookup

06/06/2025 à 02:44
tmartins
Membre Actif
Avatar de tmartins
tmartins
Membre Actif

attention aux MTU si t'es en jumbo frames. si y'a un device réseau au milieu qui supporte pas ça fragmente et ça tue les perfs. ça peut expliquer les spikes si les paquets sont fragmentés

06/06/2025 à 23:03
dupre-henriette
Membre Actif Secouriste
Avatar de dupre-henriette
dupre-henriette
Membre Actif Secouriste

y'a des chances que ça vienne du mount -o hard si t'as pas intr. le hard est très tenace et ignore les signaux d'interruption. soft par contre peut entraîner des corruptions de données si pas géré par l'app. le compromis c'est hard,intr

Modifié le 23/05/2026 à 16:20
yrodrigues
Membre Actif Secouriste
Avatar de yrodrigues
yrodrigues
Membre Actif Secouriste

vérifie si le problème est généralisé sur toutes les partages nfs ou seulement certains. si c juste un partage c ptete un souci sur le volume spécifique côté serveur

08/06/2025 à 17:24
frederic94
Auteur Actif
Avatar de frederic94
frederic94
Auteur Actif

Alors c'était bien le hard mount option qui était le coupable principal. J'ai ajouté intr et ça a radicalement amélioré la situation, les processus ne se figent plus. On a aussi découvert un micro-cut réseau très bref mais régulier qui était à l'origine du souci initial, le hard mount masquait le problème. Merci à tous pour l'aide précieuse !

Modifié le 23/05/2026 à 16:20

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire