Debuguer une latence réseau sur interface virtuelle veth

aubert-bernadette 13/05/2026
RÉSOLU
aubert-bernadette
Auteur Actif
Avatar de aubert-bernadette
aubert-bernadette
Auteur Actif

Salut à tous, je rencontre des pics de latence inexplicables sur des interfaces veth dans un environnement conteneurisé. Les métriques montrent des drops intermittents au niveau du qdisc alors que le trafic n'atteint même pas 20% de la bande passante théorique.

J'ai déjà vérifié les compteurs avec ethtool -S et je vois des rx_dropped qui montent en flèche. Quelqu'un a déjà eu ce souci sur des noyaux récents ?

13/05/2026 à 00:24

10 commentaires

C'est un classique. As-tu vérifié si le netdev_max_backlog n'est pas saturé lors des bursts ? Augmente cette valeur dans sysctl pour voir si ça calme le jeu.

13/05/2026 à 23:52
aubert-bernadette
Auteur Actif
Avatar de aubert-bernadette
aubert-bernadette
Auteur Actif

Bien vu, j'ai passé net.core.netdev_max_backlog à 5000, mais ça n'a eu qu'un impact marginal sur le nombre de drops.

14/05/2026 à 14:17

Regarde du côté du txqueuelen de l'interface veth. Par défaut, il est souvent très bas, ce qui cause des drops dès qu'il y a une petite rafale de paquets.

15/05/2026 à 06:57

Exact, essaie de monter à 1000 avec ip link set dev vethXXX txqueuelen 1000. Ça change souvent tout pour la stabilité.

16/05/2026 à 02:46
aubert-bernadette
Auteur Actif
Avatar de aubert-bernadette
aubert-bernadette
Auteur Actif

Je viens d'appliquer le changement sur txqueuelen, c'est nettement plus stable. Je monitor avec ss -i pour confirmer.

17/05/2026 à 00:47
ufaivre
Membre
Avatar de ufaivre
ufaivre
Membre

Pense aussi à vérifier l'IRQ affinity. Si tout le trafic est traité par le même CPU, tu peux avoir du CPU pinning qui sature un cœur alors que les autres dorment.

17/05/2026 à 21:18

D'ailleurs, utilise mpstat -P ALL 1 pour confirmer cette hypothèse de saturation par cœur.

18/05/2026 à 13:47
aubert-bernadette
Auteur Actif
Avatar de aubert-bernadette
aubert-bernadette
Auteur Actif

C'est noté. Je vais lancer un bpftrace pour corréler les drops avec les interruptions matérielles. Merci pour les pistes.

19/05/2026 à 10:51

Tiens-nous au courant, c'est un cas d'école intéressant pour le tuning réseau.

20/05/2026 à 07:05
aubert-bernadette
Auteur Actif
Avatar de aubert-bernadette
aubert-bernadette
Auteur Actif

Problème résolu : c'était bien un mix de txqueuelen trop faible et d'une mauvaise répartition des IRQ. À ne jamais oublier en prod : toujours monitorer ses files d'attente réseau.

21/05/2026 à 06:40

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire