“Toute l’infrastructure était disponible en quelques heures” - comment Région Guadeloupe a migré vers le cloud en 10 jours

Suite à une attaque sur ses infrastructures on premise fin 2022, la Région Guadeloupe a décidé de migrer sur le cloud… mais de façon urgente ! Henri Ferreira, Chargé de Projets Direction Générale, en charge de la Cyberdéfense et de l’Intelligence Territoriale nous explique comment il a pu remettre ses premiers services en route sous dix jours, grâce à la proximité et l’innovation des équipes Scaleway.

Qu’est-ce qui vous a amenés à migrer chez Scaleway?

Au départ, on était 100% on premise. On travaillait déjà avec Scaleway depuis six à huit mois, mais à petite échelle, sur des aspects lab et R&D. Puis le 21 novembre 2022 on a été cyberattaqué, et le lendemain, on a décidé en quelques heures qu’on basculerait sur le cloud. Autrement, on aurait fait la transition (vers le cloud) beaucoup plus lentement.

On ne savait pas quel était l’étendu de l’attaque. Donc on a donc décidé de partir sur quelque chose de complètement propre et neuf, et en remontant l’infra le plus vite possible, sur le cloud. Nos interlocuteurs chez Scaleway nous ont tout de suite rassurés, et nous ont apporté une assistance dès le départ pour accompagner notre migration.

La Région Guadeloupe a deux grands métiers : concevoir et gérer l'infrastructure - lycées, routes... - puis gérer des subventions et de aides (pour les entreprises, les arts, les associations...). Notre système IT nous aide à gérer l’ensemble, ainsi que toutes les fonctions support (paie, congés…). Sans oublier l’aspect administratif et politique : notre système permet également aux élus de voter pour tel ou tel projet, et d’afficher leurs décisions (arrêtés, articles de loi…) à l’attention des citoyens.

Notre plateforme accueille notamment 25,000 lycéens et stagiaires en formation professionnelle par jour. Sans IT, les jeunes ne mangent pas à la cantine, les badges d’accès ne marchent plus…

Après l'attaque, on avait besoin de tout recréer: mettre en place l’infrastructure, avec Scaleway - louer des serveurs Elastic Metal, des Instances, très rapidement - pour qu’ensuite les éditeurs de la quinzaine de logiciels que nous utilisons puissent les réinstaller.

Toute l’infrastructure ‘private cloud’ était disponible chez Scaleway en quelques heures ; et en dix jours, on a pu remonter notre système financier, c’est-à-dire que nous étions en mesure de payer nos fournisseurs, salaires, subventions etc. Puis le dernier service a été mis en place trois mois plus tard, en février 2023 : celui des aides, là où les futurs bacheliers font leurs demandes pour aller étudier au Québec, en l’occurrence.

Aujourd’hui, toute notre infrastructure passe par Scaleway : on n’a plus rien on premise. Nous utilisons 83 serveurs Bare Metal, 90 Instances - notamment des GPU pour de l’IA - des load balancers, du Redis… c’est plus facile de dire ce qu’on n’utilise pas chez Scaleway!

En quoi les solutions Scaleway répondent-elles à vos principaux défis ?

On est venus sur Scaleway pour durer. Il fallait certes urgemment reconstruire les services - le plan s’appelait "Résurrection" - mais aussi les rendre meilleurs et plus résilients. Donc là on est sur 2 AZs (zones d'activité) - par-1 et par-2 - en haute disponibilité. Ce sont des choses qu’on n’aurait pas pu faire sans le cloud.

On a 150 services déployés aujourd’hui, et on continue d’en déployer d’autres. Scaleway nous apporte quelque chose de phénoménal : on n’a pas à se soucier de choses ‘bêtes’ comme la clim, des inondations, des cyclones, de l’instabilité électrique, de l’obsolescence des serveurs… Cela nous décharge de toutes les couches basses de gestion, et finalement on y trouve notre gain, car ça coûte moins cher qu’avant.

On a une souplesse phénoménale. Je viens de recevoir une demande de serveurs supplémentaires de la part du directeur informatique, par exemple. Dans le mode legacy, il aurait fallu qu’on fasse un appel d’offres, qu’on ait un long cycle qui peut durer deux mois, alors qu’avec le cloud, on peut avoir les serveurs en une heure. Et peut-être qu’il n’a besoin de ces serveurs que pendant une heure…

Ça nous permet de répondre aux demandes des citoyens guadeloupéens avec souplesse, de simplifier leurs vies et celles de nos agents du conseil régional. En déchargeant ces derniers des tâches un peu rébarbatives, ils peuvent notamment passer plus de temps avec les citoyens.

De même, on n'utilise pas l’IA pour réduire le nombre d’effectifs ! Aujourd’hui, c’est tellement facile d’aller poser une question sur un site web que cela génère beaucoup plus de demandes de subventions. L’IA nous aide dans la gestion de ces demandes, en permettant par exemple de valider la véracité des documents officiels, en s’assurant de garder ces pièces personnelles seulement pendant 2 ans (RGPD) et ainsi de suite.

Enfin, on a la chance que Scaleway ait un certain nombre de clients dans l’IA, et ça nous permet de bénéficier de choses technologiques qu’on n’aurait pas aussi rapidement sous l’ancien système.

Pourquoi ne pas avoir préféré d’autres fournisseurs cloud?

On a soumis notre demande à tous les cloud providers (CSPs) français, et c’est Scaleway qui a répondu le mieux, à la fois sur la partie legacy (bare metal) et à la fois sur des fonctionnalités avancées (Instances, Kubernetes, load balancers, etc).

Lorsque vous faites une migration, beaucoup d’éditeurs disent par exemple “non, je ne supporte que ESXI, je ne supporte pas Kubernetes.” Donc il fallait qu’on en tienne compte vis-à-vis de notre système legacy.

Scaleway est celui qui nous offre la palette la plus large de réponses technologiques, du plus simple au plus complexe, qui nous permet de nous adapter à tous les besoins de nos éditeurs.

De plus, la façon dont le système Scaleway est fait est le plus facile à supporter pour nous. Nous avons été trois personnes à monter l’infrastructure. La Guadeloupe est la région la plus petite de France, avec un nombre d’informaticiens ramené à sa population. Nous sommes 400,000, mais il nous faut un système de RH, un système financier…

Il nous faut de la souplesse en face, et Scaleway a su se mettre à notre niveau de compréhension pour pouvoir avancer très rapidement ; il nous a fallu cette proximité, que nous n’aurions pas eu chez un autre hyperscaler.

Elastic Metal a donc remplacé vos serveurs on premise. Pourquoi aviez-vous également besoin de produits Instances et Compute?

On a un plan de conformité avec NIS V2, [une directive de cybersécurité] qui s’imposera à toutes les collectivités en juillet 2024. C’est très inspiré de la norme ISO 27001. Notre partenaire sécurité était déjà avec nous. Nous avons conçu notre infrastructure pour être sécurisé dès le départ ("security by design").

Les fonctions compute sont donc intervenus dans un premier temps dans la gestion de la sécurité. Aujourd’hui on a plusieurs types de firewall, qui tournent sur du bare metal et sur de l’Instance, ça dépend des éditeurs. Auparavant, on était dans une sécurité périmétrique, c’est-à-dire ‘je protège le bâtiment’. A savoir, j’ai un firewall par bâtiment, et je considère que tout ce qui est dedans est en sécurité.

Or le télétravail a tout changé. Aujourd'hui, 30 % des effectifs à un moment donné ne sont pas au Conseil Régional. Donc on est passé à une défense directement sur le poste, avec des firewalls sur le poste, des VPN applicatifs, et tous ces flux rentrent sur la plateforme Scaleway, où ils sont filtrés, analysés et inspectés, avant de donner accès à l’application. Ainsi, aujourd’hui, notre millier de PCs portables sont autant de petites forteresses.

On n’est pas indestructibles pour autant. On a notamment mis en place avec Scaleway plusieurs niveaux de sauvegarde de notre infrastructure. Parce que plus que de se défendre, ce qui nous a failli était la capacité de réagir rapidement. Imaginons le pire : si l'un de vos datacenters tombe, on a aujourd'hui besoin de 2h40 pour tout remonter sur l’autre datacenter. Notre objectif est d’atteindre une heure fin janvier, et cinq minutes d’ici fin 2024.

On est sur deux AZ: par-1 & par-2. On a eu deux inondations cette année ; il y a eu zéro impact. Les gens se sont mis sur leurs PC portables et en partage de connexion avec leurs téléphones, et ont pu ainsi accéder à notre plateforme.

On a dû s’adapter à l’écosystème de Scaleway. Tous les hyperscalers n’ont pas les mêmes fonctionnalités. On voulait quelque chose de très ouvert, or vous êtes l’un des CSPs les plus ouverts. 100 % de ce que font les autres est chez vous ; mais ils ne font pas 10 % de ce que vous faites ! Si on voulait bouger de Scaleway, on peut. La question se pose plus avec les hyperscalers US. AWS ne fait pas tous les services que font Scaleway, et (surtout) n’est pas aussi souple. Et on n’est pas à l’abri d’une [potentielle future] loi qui nous interdise d’utiliser des CSP non-français.

De plus, Scaleway était déjà sur trajectoire ISO 21007 (Scaleway a obtenu cette certification depuis). L’aspect français était très important aussi, et il n’y a que vous et OVH comme hyperscalers avec une certaine taille et niveau d’expérience. Puis avec votre maison mère (Groupe iliad), vous n’êtes pas une petite société. On a aussi le gage d’être avec une société agile, avec un rythme d’évolution important. On sent que Scaleway est proche des entreprises de type startup, tout en proposant des choses très simples et legacy. Ça nous permet de pouvoir tester des fonctionnalités de pointe, tout en continuant à avoir un business qui fonctionne et qui est garanti. Donc c’est ce côté novateur qui nous a plu aussi.

Comment votre inscription au contrat de l’UGAP a-t-elle accéléré le processus?

Souscrire à une offre cloud est déjà assez complexe, d’un point de vue légal. Là en l'occurrence, sécuriser un nombre de serveurs suffisant a pris 24h. Dans l’offre cloud de l’UGAP (la plateforme d’achat par laquelle tout acteur public peut passer), tous les CSP sont remis en concurrence en permanence. Donc si on est chez vous et que l’on y reste, c’est que vous correspondez le mieux à nos besoins.

L’UGAP nous a fait gagner trois à quatre mois. Lorsque vous faites un appel d’offre, il y a un temps minimum pendant lequel on peut y répondre. Sans parler du temps d’écriture de l’appel d’offre. Donc on est sur un processus de trois mois. Suite à la cyberattaque, on a aussi fait des marchés traditionnels, sans passer par UGAP; ils nous ont pris deux mois. Alors qu’on n’avait même pas de système informatique !

Cela a été une vraie course pour payer les fonctionnaires - le premier défi à relever suite à la cyberattaque - mais on y est arrivés grâce à des nuits blanches, et à l’abnégation de Scaleway, qui a su nous dépatouiller de pas mal de situations, du début à la fin. Cette proximité, écoute et flexibilité aura été clé pour nous. On n’aurait jamais pu faire ça avec un autre CSP.

Avez-vous un exemple concret de cette flexibilité ?

Oui, on a pu bénéficier de 20 Private Networks (PN) par serveur ; normalement, c’est limité à huit. Ça nous a permis de cloisonner les flux de chaque application, et d’éviter ainsi qu’une application vérolée contamine une autre.

Mais cela nous a surtout permis de n’avoir que 20 firewalls, avec 123 PN (à peu près 20 par serveur Bare Metal). Sans cette exception, il nous aurait fallu 80 firewalls… et chaque firewall coûte 7-8000 euros. Le calcul est vite vu !

Quels sont vos projets clés à venir ?

Nous avons plusieurs projets sur notre roadmap 2024:

  • Le programme RPA, qui va nous amener vers plus d’automatisation, notamment en passant par Terraform et Ansible
  • Nous allons travailler sur la résilience, ou la réduction de l’indisponibilité de nos services, par exemple quand on fait des sauvegardes
  • Nous allons aussi améliorer la gestion des pics de trafic : à certains moments de l’année, 7-8000 utilisateurs peuvent se connecter en même temps, donc on doit être sûr de pouvoir gérer trois à quatre fois plus de connexions en même temps. Cette élasticité, ou scalabilité horizontale, sera clé dans un futur proche
  • Enfin, notre vidéoprotection - un millier de caméras partout sur l’île - va être hébergée chez Scaleway. Les images seront uploadées sur S3, puis effacées automatiquement au bout d’un mois.

Articles recommandés