fatigue d'alertes prometheus on est inondés

Posté par sebastien82 le 16/08/2025
RÉSOLU

sebastien82

Membre depuis le 24/12/2020

salut la gang, on est en train de se noyer sous les alertes prometheus/alertmanager. on a des centaines d'alertes par jour. la plupart sont juste du bruit, des seuils trop bas, ou des trucs qui se réparent tout seuls. du coup les équipes commencent à ignorer le pager et c'est dangereux. on a besoin d'un coup de main pour remettre de l'ordre dans tout ça. on est sur un stack prometheus / alertmanager / grafana. on a des alertes pour le cpu, la mémoire, le disque, http 5xx, latence, etc. trop c'est trop.


# Exemple d'alerte qui nous spamme
- alert: HostHighCpuLoad
  expr: 100 - (avg by (instance) (rate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 80
  for: 5m
  labels:
    severity: warning
  annotations:
    summary: "Host {{ $labels.instance }} has high CPU load"

Commentaires

lebrun-brigitte

Membre depuis le 21/07/2024

c le piège classique. première étape : tu identifies les alertes les plus bruyantes. pour chacune, tu te poses la question : est-ce que ça requiert une action humaine immédiate ? si non, c du warning ou de l'info, ou ça doit être corrigé à la source. revoir les seuils pour être plus agressif.

valentine23

Membre depuis le 05/11/2019

et utiliser les groupements d'alertes dans alertmanager. regroupe par service ou par type de problème. comme ça un incident = une notification pas 50. et les silences ! utilise-les pour les maintenances ou les problèmes connus temporaires.

sebastien82

Membre depuis le 24/12/2020

ok pour les groupements on utilise déjà un peu mais on peut faire mieux. les silences on en fait mais c'est pas proactif. le problème c'est que les seuils sont souvent arbitraires. genre cpu à 80% ça spamme alors que c'est une vm de dev qui fait un batch une fois par jour. comment on gère ça ?

lebrun-brigitte

Membre depuis le 21/07/2024

pour les seuils arbitraires tu dois passer aux SLOs (Service Level Objectives). plutot que "cpu > 80%", tu fais "latence P99 de mon API > X ms sur 5 min" ou "taux d'erreur > Y% sur 1h". ça alerte sur l'impact utilisateur pas sur une métrique d'infra. ça change tout.

valentine23

Membre depuis le 05/11/2019

et une fois que t'as tes SLOs en place tu peux décommissionner pas mal d'alertes d'infra bas niveau si elles sont pas directement corrélées à un SLO. une panne disque qui fait pas tomber un SLO n'est pas forcément une alerte urgente. ça peut être un ticket d'infra à gérer dans la journée.

sebastien82

Membre depuis le 24/12/2020

ok les SLOs c'est une grosse refonte mais je vois le point. on va commencer à identifier nos services critiques et leurs objectifs de perf/dispo. ça va prendre du temps mais ça a l'air d'être la seule solution viable à long terme.

lebrun-brigitte

Membre depuis le 21/07/2024

clairement c'est le game changer pour la fatigue d'alertes. bon courage !

Laisser une réponse

Vous devez être connecté pour poster un message !

Rejoindre la communauté

Recevoir les derniers articles gratuitement en créant un compte !

S'inscrire