Prometheus metriques qui disparaissent apres maj de l'exporter node

Question

help ! j'ai fait une maj du node exporter sur plusieurs serveurs. tout s'est bien passé les pods sont up les targets prometheus aussi. mais j'ai des métriques importantes qui sont plus remontées comme node_cpu_idle_seconds_total ou node_disk_read_bytes_total. y'a juste plus la donnée dans grafana. on dirait que certaines métriques ont disparu carrément.

# extrait de la config prometheus
- job_name: 'nodes'
  static_configs:
    - targets: ['node1:9100', 'node2:9100']

couturier-marcelle · Answer

hmm ça sent le changement de nom des métriques entre les versions de node exporter. la v1.0 a pas mal remanié ça. t'as regardé les logs du node exporter sur une des machines affectées ? il doit loguer les métriques qu'il expose. compare avec l'ancienne version si tu peux

renard-nath · Answer

oui exactement regarde les scrape configs de prometheus et les relabeling rules. si tu avais des règles spécifiques pour filtrer ou renommer les métriques avant elles pourraient maintenant faire sauter les nouvelles métriques. ou bien prometheus scrape_interval trop court et l'exporter galère à répondre

hleblanc · Answer

un truc à vérifier aussi c'est la compatibilité de ta version de node exporter avec le kernel linux que t'as. des fois certaines features kernel sont pas exposées pareil ou via des fichiers différents et l'exporter peut pas lire les données. t'as quel os et kernel version ?

lmarty · Answer

ah la vache vous avez mis le doigt dessus ! c'était un mélange des deux. la nouvelle version du node exporter a renommé plein de métriques et notre prometheus avait des relabel_configs un peu trop génériques. j'ai dû les ajuster pour matcher les nouveaux noms. un bon coup de prometheus /metrics endpoint et de regex et c'est reparti. thx la team !

Prometheus metriques qui disparaissent apres maj de l'exporter node

4 commentaires

Laisser une réponse

Créer un cluster Kubernetes Multi-nœud avec Vagrant et Ansible

Conclusion du cours Ansible

Installation et configuration de la stack ELK

Révolutionnez vos tests et l'IA avec les Données Synthétiques pour un DevOps Confidentiel

Dites adieu aux instances inutilisées : automatisez le scale-to-zero

Rejoindre la communauté

Oops! An Error Occurred

The server returned a "500 Internal Server Error".