Debuguer la latence d'écriture disque avec iowait élevé

thomas-marianne 09/05/2026
RÉSOLU

Depuis la migration de certains workloads sur des disques NVMe, j'observe des pics de iowait inexpliqués alors que le débit (IOPS) est bien en dessous des limites théoriques du matériel.

J'ai utilisé iostat -xz 1 et je vois que le await grimpe parfois à 50ms. Le filesystem est en ext4. Est-ce un problème de journaling ou de queue depth au niveau du scheduler blk-mq ?

09/05/2026 à 11:24

10 commentaires

C'est probablement lié au scheduler par défaut. Sur NVMe, tu devrais basculer en none ou kyber. Le scheduler mq-deadline n'est pas toujours optimal pour les SSD modernes.

10/05/2026 à 07:27

Je suis actuellement en none, c'est ce qui est recommandé pour le NVMe normalement, non ?

11/05/2026 à 03:15

Regarde si tu as des conflits au niveau de writeback. Si ton application écrit massivement, le kernel peut saturer le buffer de page cache.

12/05/2026 à 03:04
giraud-theodore
Membre Actif
Avatar de giraud-theodore
giraud-theodore
Membre Actif

Utilise blktrace pour analyser la latence par requête. Ça te permettra de voir si le temps est passé dans le driver ou dans le matériel lui-même.

12/05/2026 à 19:29

Bonne idée, je vais lancer blktrace pendant le prochain pic. Est-ce qu'il y a un risque de performance en laissant tourner blktrace en production ?

13/05/2026 à 13:58

Oui, ça impacte un peu le CPU. Utilise blkparse en mode différé sur un autre disque pour éviter de polluer les résultats.

14/05/2026 à 07:04

As-tu vérifié si ton firmware NVMe est à jour ? J'ai déjà vu des problèmes de thermal throttling qui causaient exactement ce genre de latences irrégulières.

14/05/2026 à 20:51

Le firmware est à jour. Je suspecte effectivement un problème de writeback. J'ai réduit dirty_ratio et dirty_background_ratio pour voir si ça lisse les pics.

15/05/2026 à 12:47
giraud-theodore
Membre Actif
Avatar de giraud-theodore
giraud-theodore
Membre Actif

Bonne approche. Si tu as trop de dirty pages, le kernel bloque les threads d'écriture une fois que le seuil critique est atteint.

16/05/2026 à 04:20

Le changement des ratios de dirty pages a stabilisé l'await. Plus de pics à 50ms pour l'instant. Merci pour vos retours.

17/05/2026 à 00:06

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire