Facture AWS qui explose avec un k8s cluster

Posté par ibarre le 10/07/2025
RÉSOLU

ibarre

Membre depuis le 02/08/2019

salut tout le monde ! on a migré pas mal de services sur un cluster eks il y a 3 mois et la facture aws devient n'importe quoi. on se prend des +40% chaque mois c plus gérable. on a des instances spot pour les trucs non critiques mais ça suffit pas. y'a des patterns ou des outils pour attaquer le finops sur eks parce que là je suis paumé

Commentaires

thomas-emmanuelle

Membre depuis le 29/02/2020

premier truc à faire c'est un audit complet avec kubecost ou un truc du genre. ça va te donner une visibilité granulaire par namespace par service par pod. souvent c'est les devs qui demandent trop de cpu/mem et ça sur-provisionne les nodes. check les request/limit et les unused resources

eboucher

Membre depuis le 28/03/2019

attention aux egress network costs. si tes services communiquent entre az différentes ou avec l'extérieur sans vpc endpoint ou direct connect, ça coûte cher. regarde les logs de ton vpc flow ou les métriques cloudwatch pour le trafic sortant

gabriel-renaud

Membre depuis le 19/07/2024

yep et les ebs ! par défaut tout le monde crée du gp2 ou gp3 avec des iops/throughput de ouf. est-ce que tes apps ont vraiment besoin de ça ? des fois du gp2 ou même du st1/sc1 pour du cold storage suffit. et les snapshots ebs ça monte vite aussi

anastasie60

Membre depuis le 09/06/2019

et le type d'instances pour tes worker nodes. tu tournes sur quoi ? des m5 ? t'as regardé les gravition (arm) ? pour beaucoup de workloads c'est moins cher à perf équivalente ou meilleure. et vérifie ton cluster autoscaler, est-ce qu'il scale down correctement ? le délai de scale down peut être trop long

thomas-emmanuelle

Membre depuis le 29/02/2020

sinon les nat gateway. si t'as beaucoup de services privés qui sortent sur internet, chaque nat gateway coûte. réfléchis à utiliser des vpc endpoints pour les services aws ou des private link pour des services saas si c'est possible

ibarre

Membre depuis le 02/08/2019

ok je note tout ça. on est sur des m5.large et c5.xlarge. les egress network costs ça c'est un point sensible on a pas mal de trafic inter-az. et les ebs on est full gp3 mais c'est vrai que j'ai pas regardé l'utilisation réelle. kubecost ça a l'air pas mal pour la visibilité

eboucher

Membre depuis le 28/03/2019

un autre truc c'est les idle resources. si tu as des namespaces de dev/staging qui tournent h24 alors qu'ils sont utilisés 8h par jour, pense à les éteindre la nuit ou les week-ends. un tool comme karbon_bill peut automatiser ça pour des clusters entiers

gabriel-renaud

Membre depuis le 19/07/2024

et les logs cloudwatch. si tu logues tout et n'importe quoi, les coûts d'ingestion et de stockage peuvent devenir énormes. définis des rétentions claires et filtre les logs inutiles à la source si possible

ibarre

Membre depuis le 02/08/2019

super ces conseils ! j'ai commencé à regarder kubecost, c une mine d'or. j'ai déjà repéré des pods qui demandent beaucoup trop de mémoire pour rien. et oui, les nat gateways sont une plaie, on va voir pour des vpc endpoints. merci pour les pistes, y'a du taf !

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire