Latence random sur filesystem NFS avec kernel 5.15

Question

salut la commu ! on a des vms qui ont des montages nfs pour le stockage de logs et depuis la maj kernel 5.15 sur nos clients on a des pics de latence genre toutes les 5-10min. ça dure qques secondes et ça retombe. on-prem avec un nas netapp en backend

# Exemple de mount
nfs_server:/volume/logs /mnt/logs nfs defaults,hard,intr,noatime,tcp 0 0

iostat -x 1 montre des gros await et avgqu-sz sur les mounts nfs pendant ces périodes. j'ai checké le réseau, le nas, pas de souci apparent. c'est vraiment lié à la maj kernel

timothee-gregoire · Answer

hmm kernel 5.15 c'est ptete un truc sur le scheduler réseau ou le cache inode. t'as regardé les changelogs de NFS dans ce kernel ? des fois ils tweakent des trucs qui ont des effets de bord avec certains serveurs NFS

christelle-guyot · Answer

ouais et des fois c'est la gestion de la mémoire. si t'as beaucoup d'inodes ou de dentry cache ça peut faire des pauses pour flush le cache. t'as essayé de jouer avec les sysctl genre vm.vfs_cache_pressure ou vm.dirty_ratio ?

tbouvier · Answer

j'ai rien trouvé de flagrant dans les changelogs. pour les sysctls j'ai pas touché. vfs_cache_pressure est à 100 et dirty_ratio à 20

timothee-gregoire · Answer

t'as pas une option actimeo dans ton mount NFS ? par défaut c'est 600s des fois ça peut générer des refresh metadata qui coûtent. essaie avec actimeo=1 ou noac (mais gaffe ça surcharge le serveur)

christelle-guyot · Answer

autre piste t'as regardé les Dentry Lookups ou Inode Lookups dans les stats NFS client sur le kernel ? cat /proc/net/rpc/nfs pour voir si t'as des spikes au moment des latences. un excès de lookups peut plomber

tbouvier · Answer

ok j'ai essayé actimeo=1 sur un des clients de test. les spikes semblent moins violents ou moins fréquents. et j'ai regardé les stats rpc nfs y'a bien des pics sur les lookups mais pas systématiquement au moment du lag. bizarre

timothee-gregoire · Answer

le NetApp il est bien tuné pour NFS v3 ou v4 ? des fois les options de mount v4 comme rsize wsize peuvent jouer. genre si tu forces rsize=32768,wsize=32768 au lieu des defaults ça peut aider

christelle-guyot · Answer

t'as pensé à la fragmentation des buffers kernel ? surtout si c'est pour des logs, ça écrit beaucoup. le kernel 5.15 a eu des changements sur la gestion des pages mémoire et des caches I/O. un echo 3 > /proc/sys/vm/drop_caches après un pic pour voir si ça soulage ? juste pour le test hein

tbouvier · Answer

ok je vais faire les tests avec les rsize/wsize et le drop_caches. j'ai le sentiment que c'est une combinaison de l'activité du serveur nfs (même s'il est pas saturé) et de la nouvelle gestion de cache côté client kernel 5.15. merci pour les pistes je vous tiens au jus !

tbouvier · Answer

update : rsize=32768,wsize=32768 combiné avec actimeo=1 a résolu le problème. le vfs_cache_pressure aide aussi mais c'est surtout les options de mount qui ont eu l'impact. merci à tous pour l'aide !

Latence random sur filesystem NFS avec kernel 5.15

10 commentaires

Laisser une réponse

Déploiement et Backup automatique d'une application Symfony 4

Déployer et gérer vos hôtes docker avec Docker Machine

Les provisioners et taints

Référencer des tickets Work items sur GitLab

FinOps & GreenOps : La Dualité Gagnante du Cloud Durable

Rejoindre la communauté