Facture AWS qui explose avec un k8s cluster

Question

salut tout le monde ! on a migré pas mal de services sur un cluster eks il y a 3 mois et la facture aws devient n'importe quoi. on se prend des +40% chaque mois c plus gérable. on a des instances spot pour les trucs non critiques mais ça suffit pas. y'a des patterns ou des outils pour attaquer le finops sur eks parce que là je suis paumé

thomas-emmanuelle · Answer

premier truc à faire c'est un audit complet avec kubecost ou un truc du genre. ça va te donner une visibilité granulaire par namespace par service par pod. souvent c'est les devs qui demandent trop de cpu/mem et ça sur-provisionne les nodes. check les request/limit et les unused resources

eboucher · Answer

attention aux egress network costs. si tes services communiquent entre az différentes ou avec l'extérieur sans vpc endpoint ou direct connect, ça coûte cher. regarde les logs de ton vpc flow ou les métriques cloudwatch pour le trafic sortant

gabriel-renaud · Answer

yep et les ebs ! par défaut tout le monde crée du gp2 ou gp3 avec des iops/throughput de ouf. est-ce que tes apps ont vraiment besoin de ça ? des fois du gp2 ou même du st1/sc1 pour du cold storage suffit. et les snapshots ebs ça monte vite aussi

anastasie60 · Answer

et le type d'instances pour tes worker nodes. tu tournes sur quoi ? des m5 ? t'as regardé les gravition (arm) ? pour beaucoup de workloads c'est moins cher à perf équivalente ou meilleure. et vérifie ton cluster autoscaler, est-ce qu'il scale down correctement ? le délai de scale down peut être trop long

thomas-emmanuelle · Answer

sinon les nat gateway. si t'as beaucoup de services privés qui sortent sur internet, chaque nat gateway coûte. réfléchis à utiliser des vpc endpoints pour les services aws ou des private link pour des services saas si c'est possible

ibarre · Answer

ok je note tout ça. on est sur des m5.large et c5.xlarge. les egress network costs ça c'est un point sensible on a pas mal de trafic inter-az. et les ebs on est full gp3 mais c'est vrai que j'ai pas regardé l'utilisation réelle. kubecost ça a l'air pas mal pour la visibilité

eboucher · Answer

un autre truc c'est les idle resources. si tu as des namespaces de dev/staging qui tournent h24 alors qu'ils sont utilisés 8h par jour, pense à les éteindre la nuit ou les week-ends. un tool comme karbon_bill peut automatiser ça pour des clusters entiers

gabriel-renaud · Answer

et les logs cloudwatch. si tu logues tout et n'importe quoi, les coûts d'ingestion et de stockage peuvent devenir énormes. définis des rétentions claires et filtre les logs inutiles à la source si possible

ibarre · Answer

super ces conseils ! j'ai commencé à regarder kubecost, c une mine d'or. j'ai déjà repéré des pods qui demandent beaucoup trop de mémoire pour rien. et oui, les nat gateways sont une plaie, on va voir pour des vpc endpoints. merci pour les pistes, y'a du taf !

Facture AWS qui explose avec un k8s cluster

Commentaires

Laisser une réponse

Gestion des erreurs dans le langage de programmation Go

Ma participation au DevFest Nantes

Les bonnes pratiques du DevOps

Rejoindre la communauté