4 commentaires
sur des machines avec autant de cores le souci c'est souvent la gestion des interruptions et la cohésion de cache. t'as vérifié ton scheduler I/O ? avec du nvme t'es censé être sur noop pas cfq ou deadline. aussi regarde l'irq affinity voir si les irq sont bien dispatchées sur tous les cpus
si t'es sur une archi NUMA (ce qui est probable avec autant de RAM/CPU), t'as ptete tes processus qui sautent de node en node. essaye de pinner tes apps sur des noeuds NUMA spécifiques avec numactl --membind=n --cpunodebind=n. ça réduit les latences mémoire et I/O
check si t'as pas des soucis de lock contention au niveau du kernel. les softirq en pagaille c'est souvent un signe. un perf top -e softirq:softirq_entry pourrait te donner des indices
c'était la gestion NUMA ! en pinant mes threads I/O sur le même node NUMA que la mémoire et les disques virtuels, les latences sont revenues à des niveaux normaux (quelques ms). le noop était bien actif par contre. merci pour le coup de main c'était galère
Laisser une réponse
Vous devez être connecté pour poster un message !
salut ! j'ai une VM linux avec 64 cores virtuels et 256go de ram qui tourne sur un hyperviseur k8s (virt-manager derrière). mes applications font beaucoup d'I/O et je vois des latences énormes (>1s) sur des opérations disque, alors que c sur du stockage flash nvme. les logs système sont pleins de
softirq. une idée d'où ça peut venir ?