Debuguer une saturation CPU par le kernel sur EKS

merle-nathalie 25/05/2026
RÉSOLU

Salut à tous, je rencontre un problème étrange sur un nœud m5.2xlarge sous EKS. J'ai une montée en charge du CPU système (sys) sans augmentation significative du trafic applicatif. Les métriques node_cpu_seconds_total indiquent que le temps est passé en system, et top affiche un processus kworker qui consomme énormément de ressources. Quelqu'un a déjà eu ce genre de souci avec le driver réseau ou le tracking de connexions conntrack ?

25/05/2026 à 22:58

11 commentaires

zacharie20
Membre
Avatar de zacharie20
zacharie20
Membre

C'est un classique sur EKS quand tu as beaucoup de petits services qui ouvrent/ferment des sockets. Vérifie la valeur de nf_conntrack_count. Si elle sature, le kernel passe son temps à nettoyer la table.

26/05/2026 à 15:05

Bien vu. J'ai checké sysctl net.netfilter.nf_conntrack_count et effectivement, on est proche du max. Ça pourrait expliquer le kworker.

27/05/2026 à 12:57
alice86
Membre
Avatar de alice86
alice86
Membre

Si c'est bien le conntrack, augmente net.netfilter.nf_conntrack_max mais fais attention à la mémoire RAM allouée. C'est à ne jamais faire en prod sans tester l'impact sur le OOM Killer avant.

28/05/2026 à 08:09
zacharie20
Membre
Avatar de zacharie20
zacharie20
Membre

Exact. Regarde aussi si tu n'as pas des timeouts trop longs sur tes connexions TCP qui maintiennent des entrées inutiles dans la table.

29/05/2026 à 02:23

Ok, je vais ajuster nf_conntrack_tcp_timeout_established. Merci pour le tuyau, je teste ça en staging.

30/05/2026 à 00:20
william29
Membre
Avatar de william29
william29
Membre

Pense aussi à vérifier les interruptions matérielles. Un mpstat -P ALL peut te dire si c'est une seule CPU qui se tape tout le boulot réseau.

30/05/2026 à 15:55

Bon, après analyse, le mpstat montre bien un déséquilibre. Je vais regarder du côté du RSS et de l'affinage des IRQ.

31/05/2026 à 13:57
alice86
Membre
Avatar de alice86
alice86
Membre

Si tu es sur AWS, vérifie que le ENI Trunking est bien activé pour éviter que le trafic réseau ne soit géré par une seule interface principale.

01/06/2026 à 02:50

C'est noté, je vérifie la config du vpc-cni immédiatement.

02/06/2026 à 01:13
zacharie20
Membre
Avatar de zacharie20
zacharie20
Membre

N'oublie pas de monitorer node_netstat_TcpExt_ListenDrops, ça pourrait confirmer une saturation au niveau de la stack IP.

02/06/2026 à 16:18

C'était bien ça. Merci à tous pour l'aide, le tuning du conntrack a stabilisé le CPU système. Problème résolu.

03/06/2026 à 15:23

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire