Lerasure Coding Plus Efficace Que Le RAID Pour La Redondance Du Stockage
Lerasure Coding Plus Efficace Que Le RAID Pour La Redondance Du Stockage
Lerasure Coding Plus Efficace Que Le RAID Pour La Redondance Du Stockage
redondance du stockage
lemondeinformatique.fr/actualites/lire-l-erasure-coding-plus-efficace-que-le-raid-pour-la-redondance-du-stockage-
91350.html
Une technologie de correction d'erreur directe (FEC) utilisée de diverses manières depuis
des décennies s'impose aujourd'hui sur les systèmes de stockage haute capacité. Il s'agit
de l'erasure coding qui répond efficacement aux limites du RAID, notamment dans le
cloud.
Le RAID n’a jamais été conçu pour protéger les données sur des lecteurs (disques durs
ou SSD) de plusieurs dizaines de téraoctets, car il a été inventé avant même que les
disques durs de 1 Go ne soient disponibles. L’idée de base était de répartir les données
sur des disques durs plus petits afin qu’une seule panne n’entraîne pas nécessairement
une perte de données. La protection des données est devenue plus complexe avec les
lecteurs haute densité actuels. Les baies de stockage sont aujourd'hui livrées avec des
disques durs accueillant jusqu'à 28 To (HDD) et des cartes flash de 72 To (chez Pure
Storage par exemple). De plus, le coût de cette capacité de stockage est devenu
incroyablement abordable : un SSD 4 To NVMe coûte environ 200 euros HT et un disque
dur 14 To SATA se négocie à environ 220 euros HT.
Un tel rapport coût/capacité offert par ces lecteurs haute densité permet de stocker
d’énormes quantités de données à un prix beaucoup plus attractif qu’auparavant. Alors,
quel est le problème avec la conservation d’une grande quantité de données – plusieurs
1/4
pétaoctets et au-delà – sur ces lecteurs à haute densité ? Avec la trentaine de To actuels
(disques durs et SSD), le RAID présente une vulnérabilité importante à la perte de
données, car le processus de reconstruction est long, une journée ou plus dans certaines
implémentations. Il se prolonge encore davantage si la tâche est définie avec une faible
priorité afin de préserver les performances d’E/S normales.
L’idée d’utiliser l’erasure coding pour les supports de stockage est née avec l’avènement
des CD, DVD et Blu-ray, des sources multimédia qui devraient être lisibles même avec
des rayures ou des dommages à la surface d’enregistrement. Les algorithmes les plus
courants pour l’erasure coding dans ces applications reposent sur le code de correction
Reed-Solomon (RS), développé dans les laboratoires Lincoln du MIT dans les années
1960. L’utilisation d’algorithmes d’erasure coding apporte une protection supérieure à la
perte de deux lecteurs tolérés avec le RAID-6. Certaines implémentations résultent
en plusieurs niveaux de protection des données contre les pannes, et quelques-unes
permettent même à l’utilisateur (ou à l’administrateur de stockage) de spécifier le niveau
2/4
de protection désiré sous forme de politique. Par exemple, l’administrateur optera
pour une stratégie de survie des données après 4 pannes sur 16 lecteurs, ou 6 sur 16
lecteurs ou encore 10 sur 30 lecteurs. Il peut même demander à résister à
l'indisponibilité de sites entiers (« survivre à une panne d’un datacenter sur trois »). Cela
élimine un problème clé du RAID traditionnel, à savoir la tolérance à plus de deux
pannes.
Plusieurs systèmes de stockage (Hadoop, Raid-6 sous Linux, Microsoft Azure, Facebook
cold storage, et Backblaze Vaults) sont aujourd’hui commercialisés avec des techniques
traditionnelles d’erasure coding, et certaines variantes plus récentes telles que le code
Tornado, du projet Mojette Transform du laboratoire IVC de l'IRCCyN à Nantes porté
dans le passé par Rozo Systems ou encore celui de Memoscale, que Per Simonsen a
commencé à développer lors de ses études à NTNU (Norwegian University of Science
and Technology. Chacun présente des avantages en matière de protection des données
contre les pannes multiples de composants, les erreurs de lecture irrécupérables et la
pourriture des bits. Et beaucoup le proposent dans des systèmes qui réparent
automatiquement les données en cas de panne de composants. Certains fournissent des
niveaux extrêmement élevés de durabilité de stockage, du niveau des « 10 neuf ».
Grâce aux techniques d’erasure coding, des niveaux élevés de durabilité du stockage
peuvent être obtenus avec une surcharge de stockage relativement faible. Dans une
implémentation, une politique visant à protéger les données contre quatre pannes sur 16
3/4
lecteurs nécessite une surcharge de 60 %. En d’autres termes, chaque pétaoctet de
capacité utilisable nécessiterait 1,6 pétaoctet de capacité brute. Cela peut permettre de
réaliser d’importantes économies sur les coûts opérationnels par rapport aux approches
alternatives. Les systèmes de stockage qui utilisent des codes d’effacement ont donc la
possibilité d’exploiter les lecteurs haute densité pour stocker les données de manière plus
économique et avec une fiabilité et une durabilité de stockage optimales.
Serge Leblal
Directeur des rédactions d'IT News Info
4/4