comment reduire les couts s3 analytics ?

Question

J'ai une facture AWS S3 qui explose à cause d'Athena. Dès que je lance une requête de monitoring ou de logs, ça me coûte une blinde.Comment optimiser ça sans supprimer mes données ?

valentine-guillot · Answer

Faut pas stocker tes logs en CSV ou JSON brut dans S3. Convertis tout en Parquet et utilise du partitionnement par date dans ton bucket.CREATE TABLE internal_logs (
  request_id string,
  status int
)
PARTITIONED BY (dt string)
STORED AS PARQUET
LOCATION 's3://my-bucket/logs/';

emmanuel-nguyen · Answer

Exact, et surtout ajoute une clause WHERE sur tes colonnes de partitionnement pour que Athena ne scanne pas tout le bucket à chaque fois. C'est le volume de données scannées qui te ruine.

bdufour · Answer

Ok j'ai refait l'ingestion en Parquet avec un partitionnement journalier. La même requête scanne maintenant 100 fois moins de données. C'est parfait merci.

comment reduire les couts s3 analytics ?

3 commentaires

Laisser une réponse

TP Le jeu du morpions dans le langage de programmation Go

Gérer des environnements éphémères sur Kubernetes

Internal Developer Platforms (IDP) : Libérez le Potentiel de vos Développeurs

L'Infrastructure IA-Native : Le Cœur Intelligent du Cloud & DevOps

Guide : Orchestrer le Pooling de Mémoire CXL avec Kubernetes DRA

Rejoindre la communauté