11 commentaires
C'est exactement ce que je soupçonnais. Est-ce qu'augmenter la période cpu.cfs_period_us aide vraiment ou est-ce que ça déplace juste le problème ?
Je suis sur Amazon Linux 2 avec le kernel 5.10. Je vais tester de désactiver le throttling pour voir si la latence retombe.
Attention, désactiver le throttling peut saturer ton node si un pod part en boucle infinie. Utilise cpu.cfs_quota_us à -1 avec prudence.
Supprimer les limits me fait peur pour le capacity planning. Je vais tenter d'ajuster le period_us à 1s pour voir si ça lisse les spikes.
Bonne idée, fais gaffe aux effets de bord sur les autres pods du même node.
Test en cours sur un environnement de staging. Je reviens vers vous si les métriques throttled chutent.
Laisser une réponse
Vous devez être connecté pour poster un message !
Je constate un phénomène étrange sur mes pods Java. Alors que ma consommation CPU réelle est bien en dessous des limites (
limits.cpu), je vois des pics decontainer_cpu_cfs_throttled_seconds_totaldans Prometheus. Le temps de réponse de l'API grimpe en flèche.Est-ce que le réglage du CFS quota par défaut dans Kubernetes est trop agressif pour des applications multithreadées ? Comment diagnostiquer si le kernel Linux bride mes threads inutilement ?