Latence random sur filesystem NFS avec kernel 5.15

Posté par tbouvier le 10/10/2024
RÉSOLU

tbouvier

Membre depuis le 06/04/2020

salut la commu ! on a des vms qui ont des montages nfs pour le stockage de logs et depuis la maj kernel 5.15 sur nos clients on a des pics de latence genre toutes les 5-10min. ça dure qques secondes et ça retombe. on-prem avec un nas netapp en backend


# Exemple de mount
nfs_server:/volume/logs /mnt/logs nfs defaults,hard,intr,noatime,tcp 0 0

`iostat -x 1` montre des gros `await` et `avgqu-sz` sur les mounts nfs pendant ces périodes. j'ai checké le réseau, le nas, pas de souci apparent. c'est vraiment lié à la maj kernel

Commentaires

timothee-gregoire

Membre depuis le 11/03/2019

hmm kernel 5.15 c'est ptete un truc sur le scheduler réseau ou le cache inode. t'as regardé les changelogs de NFS dans ce kernel ? des fois ils tweakent des trucs qui ont des effets de bord avec certains serveurs NFS

christelle-guyot

Membre depuis le 22/07/2019

ouais et des fois c'est la gestion de la mémoire. si t'as beaucoup d'inodes ou de dentry cache ça peut faire des pauses pour flush le cache. t'as essayé de jouer avec les `sysctl` genre `vm.vfs_cache_pressure` ou `vm.dirty_ratio` ?

tbouvier

Membre depuis le 06/04/2020

j'ai rien trouvé de flagrant dans les changelogs. pour les sysctls j'ai pas touché. `vfs_cache_pressure` est à 100 et `dirty_ratio` à 20

timothee-gregoire

Membre depuis le 11/03/2019

t'as pas une option `actimeo` dans ton mount NFS ? par défaut c'est 600s des fois ça peut générer des refresh metadata qui coûtent. essaie avec `actimeo=1` ou `noac` (mais gaffe ça surcharge le serveur)

christelle-guyot

Membre depuis le 22/07/2019

autre piste t'as regardé les Dentry Lookups ou Inode Lookups dans les stats NFS client sur le kernel ? `cat /proc/net/rpc/nfs` pour voir si t'as des spikes au moment des latences. un excès de lookups peut plomber

tbouvier

Membre depuis le 06/04/2020

ok j'ai essayé `actimeo=1` sur un des clients de test. les spikes semblent moins violents ou moins fréquents. et j'ai regardé les stats rpc nfs y'a bien des pics sur les lookups mais pas systématiquement au moment du lag. bizarre

timothee-gregoire

Membre depuis le 11/03/2019

le NetApp il est bien tuné pour NFS v3 ou v4 ? des fois les options de mount v4 comme `rsize` `wsize` peuvent jouer. genre si tu forces `rsize=32768,wsize=32768` au lieu des defaults ça peut aider

christelle-guyot

Membre depuis le 22/07/2019

t'as pensé à la fragmentation des buffers kernel ? surtout si c'est pour des logs, ça écrit beaucoup. le kernel 5.15 a eu des changements sur la gestion des pages mémoire et des caches I/O. un `echo 3 > /proc/sys/vm/drop_caches` après un pic pour voir si ça soulage ? juste pour le test hein

tbouvier

Membre depuis le 06/04/2020

ok je vais faire les tests avec les rsize/wsize et le drop_caches. j'ai le sentiment que c'est une combinaison de l'activité du serveur nfs (même s'il est pas saturé) et de la nouvelle gestion de cache côté client kernel 5.15. merci pour les pistes je vous tiens au jus !

tbouvier

Membre depuis le 06/04/2020

update : `rsize=32768,wsize=32768` combiné avec `actimeo=1` a résolu le problème. le vfs_cache_pressure aide aussi mais c'est surtout les options de mount qui ont eu l'impact. merci à tous pour l'aide !

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire