Optimiser la sérialisation Protobuf dans un pipeline Kafka

Question

Je travaille sur un pipeline de données haute performance où nous traitons des millions de messages par seconde via Kafka. La sérialisation Protobuf semble être notre goulot d'étranglement CPU principal.

On utilise google-protobuf en Python. Quelqu'un a des retours sur l'implémentation upb ou des alternatives plus performantes pour réduire la latence de sérialisation ?

anastasie-foucher · Answer

Python est ton premier problème ici. upb est plus rapide, mais si tu as vraiment besoin de débit, il faut envisager de passer la partie sérialisation en Go ou Rust.

helene93 · Answer

Passer tout en Rust est prévu pour Q3, mais j'ai besoin d'une solution immédiate pour le pipeline actuel.

sebastien61 · Answer

Tu as essayé betterproto ? C'est souvent plus efficace que l'implémentation officielle en Python car elle génère du code plus moderne.

sylvie-bonnin · Answer

Sinon, regarde du côté de msgpack si tu n'as pas besoin d'un schéma strict. C'est beaucoup plus léger en CPU.

helene93 · Answer

On a besoin du schéma strict pour la compatibilité avec le reste de l'infra. Je vais tester upb ce soir sur le cluster de dev.

anastasie-foucher · Answer

N'oublie pas de vérifier tes flags de compilation. Si tu utilises pybind11, assure-toi d'utiliser -O3 et -march=native.

sebastien61 · Answer

Autre piste : est-ce que tu fais beaucoup de copies de messages ? Essaye de travailler avec des memoryview pour éviter de dupliquer les données en mémoire.

helene93 · Answer

C'est une excellente remarque. Je manipule beaucoup de strings qui sont copiées à chaque fois. Je vais refactoriser pour utiliser des slices.

sylvie-bonnin · Answer

Si ton CPU est saturé, profile avec py-spy. Ça te montrera exactement quelle méthode de sérialisation consomme le plus de cycles.

anastasie-foucher · Answer

Exact, py-spy record -o profile.svg -- python main.py est ton meilleur ami.

helene93 · Answer

Génial, je lance le profilage immédiatement. Merci pour les pistes.

sebastien61 · Answer

Si ça ne suffit pas, regarde le batching côté Kafka. Augmenter linger.ms peut réduire le nombre d'appels à la sérialisation.

helene93 · Answer

Le passage à upb + optimisation des copies mémoire a réduit la charge CPU de 25%. Merci à tous pour les conseils.

Optimiser la sérialisation Protobuf dans un pipeline Kafka

13 commentaires

Laisser une réponse

Les différences entre la virtualisation et la conteneurisation

Les variables d'environnement dans Kubernetes

Utilisation des modules sur Terraform

Créer un ticket Work item sur GitLab pour organiser votre travail

L'AIOps Révolutionne les Opérations : Vers la Prédictivité et l'Autonomie

Rejoindre la communauté