Introduction

La plateforme FirstBreath Vision s’appuie sur un stack de monitoring robuste et adapté à la production pour assurer haute disponibilité, performances et réaction rapide aux incidents.

Ce système fournit une observabilité complète du pipeline IA, des indicateurs matériels (températures GPU) à la logique métier (frames d’inférence par seconde).

Architecture du monitoring

Le stack de monitoring tourne à côté des services applicatifs (camera-manager, batch-inference) sur un réseau partagé.

Composants clés

Composant	Rôle	Port
Grafana	Tableaux de bord et alerting.	`3000`
Prometheus	Récupère et stocke les métriques de tous les services.	`9090`
cAdvisor	Métriques d’usage des conteneurs Docker (RAM, CPU).	`8080`
Node Exporter	Métriques de l’OS hôte (disque, I/O réseau).	`9100`
DCGM Exporter	Exporter NVIDIA pour la télémétrie GPU.	`9400`

Objectifs

Fiabilité : Détecter immédiatement les plantages ou redémarrages de services.
Réglage des perfs : Identifier les goulots d’étranglement (ex. inférence trop lente, Redis en retard).
Santé matérielle : Éviter la surchauffe GPU ou les OOM (Out Of Memory).

Architecture du monitoring​

Composants clés​

Objectifs​

Architecture du monitoring

Composants clés

Objectifs