Membre depuis le 27/07/2019
slt. déjà quelle est la requête promql exacte de ton alerte ? et est-ce que tu as de l'autoscaling ou des services qui se shutdown/startup souvent ? des fois c'est des métriques de vieilles instances ou des instances en train de mourir qui polluent
Membre depuis le 19/03/2020
la requête est celle que j'ai mise là. et oui on a un autoscaling très dynamique sur nos clusters k8s. des instances se créent et se terminent h24. mais prom devrait clean les métriques des instances mortes non ?
Membre depuis le 27/07/2019
pas forcément direct. des fois l'exporter continue d'envoyer des métriques pendant que l'instance est en `terminating` ou prometheus garde une trace de l'historique pendant un certain temps (retention). si ta règle d'alerte ne filtre pas ces cas tu peux avoir des fausses alertes. essaie d'ajouter un filtre sur un label de l'instance qui indique son état de vie. genre si t'as un label `ec2_lifecycle_state` ou `pod_status`
Membre depuis le 19/03/2020
ok je vois le truc. j'ai vérifié et on a un label `ec2_lifecycle_state` qui peut être `terminated`. j'ai modifié l'alerte pour exclure ces instances. je teste ça
Membre depuis le 27/07/2019
parfait ça devrait résoudre ton souci. c'est un piège classique avec les infrastructures éphémères et les règles d'alerte qui ne sont pas assez robustes pour gérer les churn d'instances
Membre depuis le 19/03/2020
c'était bien ça ! les alertes ghost ont disparu. énorme merci pour le coup de main j'aurais jamais trouvé sans vous
Vous devez être connecté pour poster un message !
Recevoir les derniers articles gratuitement en créant un compte !
S'inscrire
brigitte-camus
Membre depuis le 19/03/2020
yo tout le monde ! j'ai un truc chelou sur prometheus. j'ai des alertes qui se déclenchent genre `highcpuusage` pour des services mais quand je vais sur grafana je vois que le cpu est super bas genre 5%. aucune métrique ne justifie l'alerte. je pige rien