3 commentaires
Faut pas stocker tes logs en CSV ou JSON brut dans S3. Convertis tout en Parquet et utilise du partitionnement par date dans ton bucket.
CREATE TABLE internal_logs (
request_id string,
status int
)
PARTITIONED BY (dt string)
STORED AS PARQUET
LOCATION 's3://my-bucket/logs/';
Exact, et surtout ajoute une clause WHERE sur tes colonnes de partitionnement pour que Athena ne scanne pas tout le bucket à chaque fois. C'est le volume de données scannées qui te ruine.
Laisser une réponse
Vous devez être connecté pour poster un message !
J'ai une facture AWS S3 qui explose à cause d'Athena. Dès que je lance une requête de monitoring ou de logs, ça me coûte une blinde.
Comment optimiser ça sans supprimer mes données ?