Aller au contenu principal

Introduction

La plateforme FirstBreath Vision s’appuie sur un stack de monitoring robuste et adapté à la production pour assurer haute disponibilité, performances et réaction rapide aux incidents.

Ce système fournit une observabilité complète du pipeline IA, des indicateurs matériels (températures GPU) à la logique métier (frames d’inférence par seconde).

Architecture du monitoring

Le stack de monitoring tourne à côté des services applicatifs (camera-manager, batch-inference) sur un réseau partagé.

Composants clés

ComposantRôlePort
GrafanaTableaux de bord et alerting.3000
PrometheusRécupère et stocke les métriques de tous les services.9090
cAdvisorMétriques d’usage des conteneurs Docker (RAM, CPU).8080
Node ExporterMétriques de l’OS hôte (disque, I/O réseau).9100
DCGM ExporterExporter NVIDIA pour la télémétrie GPU.9400

Objectifs

  1. Fiabilité : Détecter immédiatement les plantages ou redémarrages de services.
  2. Réglage des perfs : Identifier les goulots d’étranglement (ex. inférence trop lente, Redis en retard).
  3. Santé matérielle : Éviter la surchauffe GPU ou les OOM (Out Of Memory).