Debuguer une saturation CPU par le kernel sur EKS

Question

Salut à tous, je rencontre un problème étrange sur un nœud m5.2xlarge sous EKS. J'ai une montée en charge du CPU système (sys) sans augmentation significative du trafic applicatif. Les métriques node_cpu_seconds_total indiquent que le temps est passé en system, et top affiche un processus kworker qui consomme énormément de ressources. Quelqu'un a déjà eu ce genre de souci avec le driver réseau ou le tracking de connexions conntrack ?

zacharie20 · Answer

C'est un classique sur EKS quand tu as beaucoup de petits services qui ouvrent/ferment des sockets. Vérifie la valeur de nf_conntrack_count. Si elle sature, le kernel passe son temps à nettoyer la table.

merle-nathalie · Answer

Bien vu. J'ai checké sysctl net.netfilter.nf_conntrack_count et effectivement, on est proche du max. Ça pourrait expliquer le kworker.

alice86 · Answer

Si c'est bien le conntrack, augmente net.netfilter.nf_conntrack_max mais fais attention à la mémoire RAM allouée. C'est à ne jamais faire en prod sans tester l'impact sur le OOM Killer avant.

zacharie20 · Answer

Exact. Regarde aussi si tu n'as pas des timeouts trop longs sur tes connexions TCP qui maintiennent des entrées inutiles dans la table.

merle-nathalie · Answer

Ok, je vais ajuster nf_conntrack_tcp_timeout_established. Merci pour le tuyau, je teste ça en staging.

william29 · Answer

Pense aussi à vérifier les interruptions matérielles. Un mpstat -P ALL peut te dire si c'est une seule CPU qui se tape tout le boulot réseau.

merle-nathalie · Answer

Bon, après analyse, le mpstat montre bien un déséquilibre. Je vais regarder du côté du RSS et de l'affinage des IRQ.

alice86 · Answer

Si tu es sur AWS, vérifie que le ENI Trunking est bien activé pour éviter que le trafic réseau ne soit géré par une seule interface principale.

merle-nathalie · Answer

C'est noté, je vérifie la config du vpc-cni immédiatement.

zacharie20 · Answer

N'oublie pas de monitorer node_netstat_TcpExt_ListenDrops, ça pourrait confirmer une saturation au niveau de la stack IP.

merle-nathalie · Answer

C'était bien ça. Merci à tous pour l'aide, le tuning du conntrack a stabilisé le CPU système. Problème résolu.

Debuguer une saturation CPU par le kernel sur EKS

11 commentaires

Laisser une réponse

Déploiement et Backup automatique d'une application Symfony 4

C'est quoi exactement un conteneur ?

Construire une infrastructure AWS hautement disponible

Pipeline et outils DevOps

Configuration avancée des Runners GitLab via config.toml

Rejoindre la communauté