Debuguer la corruption mémoire heap avec jemalloc sur Node.js

Question

Salut à tous, je fais face à un problème étrange sur un service critique en production. Mon processus Node.js subit des crashs aléatoires avec un signal SIGSEGV sans aucune stack trace explicite dans les logs. Après avoir activé jemalloc pour gérer l'allocation mémoire, je vois des pics de fragmentation énormes.

Est-ce que quelqu'un a déjà réussi à corréler des fuites mémoire natives avec des objets JavaScript qui ne sont pas correctement libérés par le garbage collector ?

nmonnier · Answer

C'est un classique. As-tu vérifié si tu n'as pas des fuites dans tes modules C++ natifs ? Parfois, l'allocation via node-gyp ne suit pas les règles de vie du heap V8.

brun-isaac · Answer

J'ai audité mes dépendances, rien de flagrant. Mais j'utilise beaucoup de buffers partagés entre le main thread et les worker threads.

nathalie-boucher · Answer

Tente de lancer ton processus avec --max-old-space-size restreint pour forcer le GC. Si ça crash plus vite, c'est que ton heap est saturé par des références fantômes.

emilie-francois · Answer

Utilise heapdump pour générer un snapshot au moment où la mémoire commence à monter. Compare deux snapshots avec Chrome DevTools pour isoler les objets qui persistent.

brun-isaac · Answer

Bonne idée, je vais essayer de comparer les snapshots. Je suspecte un EventEmitter qui garde des listeners actifs sur des objets qui devraient être détruits.

nmonnier · Answer

Vérifie aussi si tu n'as pas des promesses qui ne se résolvent jamais. Une Promise en attente garde tout son contexte lexical en mémoire.

nathalie-boucher · Answer

Et côté jemalloc, as-tu ajusté les variables d'environnement MALLOC_CONF ?

brun-isaac · Answer

J'ai testé avec background_thread:true,metadata_thp:auto, ça a un peu stabilisé le RSS, mais le problème de SIGSEGV persiste.

emilie-francois · Answer

Si c'est un SIGSEGV, c'est probablement un accès mémoire invalide. Tente de lancer ton app sous valgrind en staging, même si c'est lent, ça te donnera l'adresse exacte du fault.

nmonnier · Answer

Ou utilise gdb pour inspecter le core dump avec gcore. C'est plus rapide que valgrind.

brun-isaac · Answer

Je vais faire ça. Je vous tiens au courant si le core dump révèle un pointeur nul dans l'un de mes bindings natifs.

nathalie-boucher · Answer

Tiens-nous au courant, c'est le genre de bug qui rend fou.

brun-isaac · Answer

Verdict : c'était bien une bibliothèque native obsolète qui tentait d'écrire dans un buffer déjà libéré par le GC. Mise à jour effectuée, le crash a disparu.

Debuguer la corruption mémoire heap avec jemalloc sur Node.js

13 commentaires

Laisser une réponse

Utilisation des modules sur Terraform

Maîtrisez les Commandes Linux pour les Ingénieurs DevOps

Le Chaos Engineering Révolutionnaire : Bâtissez des Systèmes Inébranlables

Souveraineté Numérique & DevOps : Maîtrisez le Contrôle de Vos Données

Low-Code/No-Code DevOps : L'Agilité Visuelle Rencontre la Robustesse

Rejoindre la communauté