Mise en place de l’observabilité chez Enedis
Présentation
Enedis est le gestionnaire du réseau public de distribution d’électricité en France, en charge de l’exploitation, de la modernisation et de l’entretien du réseau électrique. Filiale indépendante du groupe EDF, l’entreprise gère un réseau de plus de 1,4 million de kilomètres et assure le raccordement, le dépannage et la relève des compteurs pour plus de 38 millions de foyers.
Contexte
Dans le cadre d’une mission de plusieurs mois au sein de la DSI d’Enedis, nous avons été amené à intervenir sur le cloud privé d’Enedis dédié à la préproduction et aux environnements hors production, basé sur OpenStack. Cette infrastructure comprenait plus de 4000 machines virtuelles réparties sur 6 clusters, et hébergeait une grande variété de services, notamment les machines virtuelles de tests, de validations et de recettes fonctionnelles.
L’objectif initial était de garantir la stabilité des plateformes, tout en améliorant la visibilité technique pour les équipes de Maintient en Condition Opérationnelle (MCO).
Problématique
Les outils d’observabilité existants étaient limités, difficilement extensibles et inadaptés à la volumétrie générée par les clusters:
- Le système de supervision générique ne permettait pas d’absorber les volumes de données à forte cardinalité (grands nombre de labels/valeurs) produits par la solution de cloud.
- La collecte d’information était partielle, voire inexistante sur certaines briques critiques.
- La solution d’observabilité était très peu flexible, ce qui rendait les évolutions presque impossibles.
- En cas d’incident, les informations nécessaires étaient dispersées ou absentes, ce qui compliquait les diagnostics.
En résumé: manque de visibilité, données dispersées et peu de marge d’évolution.
Solution mise en place
Pour répondre à ces enjeux, nous avons conçu et mis en place une solution d’observabilité indépendante, pensée pour fonctionner en parallèle du système existant.
Notre solution devait être :
- Open source
- Pensée pour la haute disponibilité
- Flexible
- Capable de traiter des données à forte cardinalité
- Respecter les contraintes d’Enedis (cybersécurité, conformité, documentation)
- Et surtout être pratique pour les équipes sur le terrain
Pour répondre à ces contraintes, nous avons associé plusieurs solutions techniques:
- Monitoring: Prometheus + Thanos (pour la scalabilité)
- Visualisation: Grafana
- Centralisation des logs: Graylog
- Gestion des déploiements: Ansible et Podman.
Instrumentation
La phase d’instrumentation consiste à collecter des données depuis les hyperviseurs, et à les exporter vers la solution de monitoring ou de centralisation des logs.
Nous avons mis en place:
- La collecte des métriques des hyperviseurs et des ressources consommées
- La collecte des métriques des machines virtuelles, tel qu’elles sont vues par l’hyperviseur, pour éviter toute incertitude liée à leur configuration ou à leur état
- Les tableaux de bord dédiés à la capacité et à la charge, mis à disposition des équipes techniques et des responsables produit
- La collecte des logs systèmes et applicatifs des hyperviseurs
Résultat
Cette solution a permis de faire la différence à plusieurs reprises, même durant la phase de développement :
- Diagnostics accélérés des incidents.
- Identification de la source de problèmes de longue date (latence réseau liées à une surcharge de petits paquets dans OVS).
- Mise en place de l’alerting sur les problèmes récurrents, notamment pour détecter l’indisponibilité des API de baies SAN.
- Meilleure anticipation des besoins de capacité, grâce à une visualisation fine de l’usage des hyperviseurs.
Un savoir-faire au service de vos projets
Cette expérience illustre la capacité de DeltOps à:
- Intervenir sur des environnements complexes et sensibles
- Proposer des solutions sur-mesure et évolutives
- Travailler en autonomie complète sur la conception, la mise en œuvre et l’automatisation de solutions robustes.
Que vous soyez confronté à des problématiques de scalabilité, de supervision ou de visibilité sur votre système d’information, nous sommes en mesure de vous apporter des solutions concrètes, adaptées et maintenables.
Découvrez nos solutions d’observabilité adaptées aux PME
Et n’attendez plus pour y voir plus clair.