Debuguer le CPU Throttling Kubernetes avec CFS Quota

Question

Je constate un phénomène étrange sur mes pods Java. Alors que ma consommation CPU réelle est bien en dessous des limites (limits.cpu), je vois des pics de container_cpu_cfs_throttled_seconds_total dans Prometheus. Le temps de réponse de l'API grimpe en flèche.

Est-ce que le réglage du CFS quota par défaut dans Kubernetes est trop agressif pour des applications multithreadées ? Comment diagnostiquer si le kernel Linux bride mes threads inutilement ?

wgeorges · Answer

C'est un classique. Le CFS quota fonctionne sur une période de 100ms. Si ton application génère des pics de consommation sur une fraction de cette période, le kernel coupe tout.

simone-thierry · Answer

C'est exactement ce que je soupçonnais. Est-ce qu'augmenter la période cpu.cfs_period_us aide vraiment ou est-ce que ça déplace juste le problème ?

xmarie · Answer

Augmenter la période aide, mais c'est souvent une rustine. As-tu vérifié si ton app Java n'a pas trop de threads par rapport au nombre de coeurs alloués ?

wgeorges · Answer

Regarde aussi du côté des cgroup v2 si tu es sur une distro récente, le comportement est plus lisse.

simone-thierry · Answer

Je suis sur Amazon Linux 2 avec le kernel 5.10. Je vais tester de désactiver le throttling pour voir si la latence retombe.

adrien-dumont · Answer

Attention, désactiver le throttling peut saturer ton node si un pod part en boucle infinie. Utilise cpu.cfs_quota_us à -1 avec prudence.

wgeorges · Answer

Tu peux aussi essayer de tuner GOMAXPROCS si c'était du Go, mais pour Java, regarde les flags -XX:ActiveProcessorCount.

xmarie · Answer

J'avais le même souci, j'ai fini par supprimer les limits.cpu sur les services critiques, en gardant juste les requests.

simone-thierry · Answer

Supprimer les limits me fait peur pour le capacity planning. Je vais tenter d'ajuster le period_us à 1s pour voir si ça lisse les spikes.

adrien-dumont · Answer

Bonne idée, fais gaffe aux effets de bord sur les autres pods du même node.

simone-thierry · Answer

Test en cours sur un environnement de staging. Je reviens vers vous si les métriques throttled chutent.

Debuguer le CPU Throttling Kubernetes avec CFS Quota

11 commentaires

Laisser une réponse

Maîtrisez les Commandes Linux pour les Ingénieurs DevOps

Référencer des tickets Work items sur GitLab

Le Chaos Engineering Révolutionnaire : Bâtissez des Systèmes Inébranlables

Progressive Delivery : L'Ère des Déploiements Dynamiques et Sûrs

Bases de Données sur Kubernetes : Miracle ou Mirage Architectural ?

Rejoindre la communauté