Perf I/O aléatoires sur serveur DB avec NVMe

Posté par rmartineau le 25/11/2024
RÉSOLU

rmartineau

Membre depuis le 05/07/2024

salut les linuxistes

on a une base postgres sur un gros serveur avec des NVMe samsung des puces de dingue quoi. et pourtant on a des pics de latence I/O de temps en temps genre 100ms alors que d'habitude c'est <1ms. ça arrive souvent sous charge mais pas tout le temps et on comprend pas pourquoi. le CPU est OK la RAM est OK


# fstab
UUID=... /data ext4 defaults,noatime,nodiratime 0 0

# on a déjà mis noop comme scheduler mais ça change rien
cat /sys/block/nvme0n1/queue/scheduler
# [noop] mq-deadline kyber bfq none

des idées pour debug ça ? on a testé ioping, fio c'est pas reproductible facilement

Commentaires

rmartineau

Membre depuis le 05/07/2024

j'ai tenté `none` c'est le même truc que `noop` sur ma distrib. par contre je suis tombé sur un truc bizarre. y avait un processus de backup qui faisait des snapshots LVM silencieusement et il utilisait pas mal d'I/O pendant des courtes périodes

et le plus bizarre c'est que ce process était dans un cgroup avec des limites CPU mais pas I/O. du coup il pouvait saturer le disque malgré le CPU tranquille

on l'a déplacé et depuis les pics ont disparu. bordel le cgroup qui limite pas l'I/O c'est le truc con à la fin

merci les gars d'avoir insisté sur les configs cachées

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire