La panne de Chorus aurait-elle pu être évitée ?

Chorus est le nom du système d'information destiné à piloter les finances publiques en France et qui permet par exemple à l'Etat de facturer ses fournisseurs. Le 19 juin dernier, le progiciel Chorus a été victime d'une panne d'exploitation dans le data center du prestataire d'hébergement Bull.

Cet incident a eu pour conséquence de couper l'accès à une partie de ses applications pendant 4 jours, avec une prise de retard potentielle dans la gestion des dossiers et affaires courantes. Il semblerait que la panne provienne d'une erreur humaine ayant entrainé le déclenchement du système anti-incendie au sein même du data center, le souffle du gaz à haute pression ayant détruit les disques de sauvegarde des données.

Cette panne aurait-elle pu être évitée ? Il convient tout d'abord de rappeler que l'exploitation d'un data center requiert des interventions humaines et que des erreurs sont donc susceptibles d'être commises. Le facteur humain constitue un point de fragilité dans les dispositifs visant à assurer la disponibilité continue des infrastructures, contre lequel on ne peut lutter que grâce à la mise en place de procédures rigoureuses. Chez SunGard Availability Services, aucun prestataire ne peut par exemple entrer dans un data center sans être accompagné d'un de nos techniciens de maintenance qui validera le respect des procédures.

Par ailleurs, l'AIFE (Agence pour l'informatique financière de l'Etat) était en accord avec les bonnes pratiques puisqu'elle avait bien mis en place un Plan de Reprise d'Activité (PRA), ensemble de procédures et de dispositifs permettant de faire face à ce type d'incident. Pourtant, si la reprise des activités a été compliquée par la perte simultanée de plusieurs baies de stockage, un temps de redémarrage des activités de 4 jours semble particulièrement long. Un de nos client a par exemple subi il y a peu, une interruption d'activité dans les mêmes circonstances dans un data center tiers, et nous avons pu redémarrer ses activités en une seule journée.

La panne de Chorus a mis 4 jours a être résolue

Sur ce point, l'AIFE doit ainsi faire face à ses responsabilités, notamment en ce qui concerne les décisions qui ont été prises lors de la mise en place de l'hébergement de Chorus. En effet, d'après les informations recueillies, le taux de disponibilité de l'application est de 99,8%. Bien que ce pourcentage paraisse acceptable, une fois corrélé avec le chiffre de 25 000 utilisateurs quotidiens, il s'avère que l'AIFE a fait le choix d'accepter de perdre 35 000 jours-hommes d'utilisation de Chorus par an. De même, un PRA qui prévoit une reprise admissible sous 4 jours, implique en l'occurrence que l'organisation est prête à subir un coût de 100 000 jours-hommes !

Le bug « Chrorus » est aujourd'hui un parfait exemple pour les directions générales des entreprises et organisations car au-delà d'une erreur ou d'un dysfonctionnement, les décisions prises en amont de la mise en place du PRA sont essentielles. Il ne faut donc pas envisager uniquement les coûts à court terme mais prendre en compte la perte financière et l'atteinte à l'image de marque que représente un arrêt des activités suite à un incident. De plus, il est crucial de définir clairement un temps de reprise admissible et cohérent avec les besoins de l'organisation.

Cet incident montre également qu'une entreprise est soumise à la qualité de ses infrastructures informatiques : si elles sont défaillantes, c'est tout le système en place qui s'écroule. La disponibilité doit être la qualité première d'une infrastructure informatique. Lorsqu'une organisation décide d'externaliser la gestion de sa production informatique, la continuité des activités doit faire partie intégrante de sa réflexion. Elle doit évaluer l'investissement nécessaire en fonction des risques potentiels et de la criticité de ses applications.