5/10/2018 DossierDeduplicationLeMagIT-slidepdf.com http://slidepdf.com/reader/full/dossier-deduplication-lemagit 1/16 SearchDataCenter .fr Search Storage.fr SearchServerVirtualization.fr Dossier Déduplication : faites faire une cure d’amaigrissement à vos données La déduplication des données a fait couler beaucoup d’encre au cours des dernières années. Alors que les volumes de données primaires des entreprises continuent à progresser à un rythme rapide et alors que les exigence de continuité et la réglementation se traduisent par un accroissement des volumes de données sauvegardés, la déduplication apparait comme la seule technologie à même de limiter la course à la capacité à laquelle se livre fournisseurs et entreprises depuis plusieurs années. LeMagIT fait un point sur la technologie et ses usages ainsi que sur les principaux fournisseurs du marché.
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
usages et des préférences des utilisateurs. Reste qu’avec l’avénement de processeurs toujours plus puissants, il y a
fort à parier que nombre d’acteurs du post-processing évolueront progressivement vers le traitement en ligne.
La déduplication du stockage primaire, futur eldorado ?
Pour l’instant, la plupart des constructeurs n’ont appliqué la technologie de déduplication qu’à leurs solutions de
sauvegarde. Chez EMC, Data Domain et Avamar sont pour l’instant cantonnés à des appliances dédiées, conçues
pour le backup ou l'archivage à court terme; il en va de même chez IBM avec les appliances ProtecTier, chez HP
avec ses appliances D2D et VLS, chez Quantum, Sepaton ou FalconStor.
NetApp se distingue toutefois de la masse, puisqu’il n’hésite plus à recommander l’usage de la déduplication sur le
stockage primaire - même si à l’origine sa technologie de déduplication A-SIS n’était préconisée que pour les
données archivées. Le constructeur n’a jamais clamé qu’il disposait de la meilleure technologie de déduplication du
marché pour la sauvegarde - d’ailleurs sa tentative de rachat de DataDomain avait sans doute pour but de mettre la
main sur une technologie de déduplication plus avancée que A-SIS. Mais sa présence importante sur le marché NAS
l’a amené très tôt à considérer l’usage de la déduplication sur des données primaires et sur des données «nearline».
A tel point que le constructeur n’hésite plus à recommander l’usage de sa technologie de déduplication embarquée
(en mode post-processing) sur le stockage primaire, dans certains scénarios comme le déploiement de postes de
travail virtualisés. Il est fort probable que NetApp ne restera pas durablement le seul sur ce créneau (et qu'il devra
aussi revoir sa technologie pour proposer un mode de traitement inline).
Déjà, la plupart des systèmes de stockage à base du système de fichiers ZFS (comme ceux de Nexenta ou de
GreenBytes) sont capables d’appliquer la déduplication sur des données primaires - à condition toutefois de
disposer de suffisamment de puissance processeur et de mémoire. Et ce n’est sans doute qu’une question de temps
avant qu’Oracle ne commence lui aussi à jouer de la technologie dans ses baies de stockage OpenStorage. Chez HP,
le mot d’ordre du moment est à l’intégration de la nouvelle technologie de déduplication maison, StoreOnce, dans
les systèmes de stockage de la marque. Déjà, le constructeur a indiqué que StoreOnce a vocation à être intégré
dans ses baies NAS en cluster X9000 et dans ses baies SAN LeftHand P4000. Les futures baies EVA et, qui sait, les
baies 3Par pourraient aussi à terme bénéficier de la technologie. Chez EMC, on ne cache pas non plus qu’un deseldorado futurs est l’usage de la déduplication dans les systèmes de stockage primaires. Le numéro un mondial du
stockage reste toutefois prudent pour l’instant et s’est jusqu’alors borné à la seule intégration de la compression
dans ses baies Clariion et Celerra.
Loi de Moore aidant, il va de toute façon bien falloir trouver quelque chose à faire pour occuper les nouveaux
processeurs multicoeur AMD et Intel qui motorisent les baies de stockage et pour tirer profit de façon optimale de la
capacité des nouveaux disques SSD. Et dans bien des têtes, la déduplication des données primaires est l’une des
fonctions qui pourrait au mieux exploiter les deux technologies, surtout si elle venait à être couplée à des fonctions
de classification automatique de données. Cela tombe bien, ces dernières se banalisent aussi dans les baies de
stockage...
Page 5/16
Déduplication : faites faire une cure dʼamaigrissement à vos données
Déduplication : aujourdʼhui pour la sauvegarde, demain pour les données primaires ?
La déduplication de données permet de réduire l’impact dela prolifération des machines virtuelles
Par Christine Cignoli, SearchStorage.com
La virtualisation de serveurs et la déduplication des données sont deux des technologies qui ont fait couler beaucoup
d’encre au cours des dernières années. Mais la combinaison des bénéfices de la virtualisation avec ceux de la
déduplication est un point sur lesquels les fournisseurs et les utilisateurs sont encore en phase de réglage. «Nous
avons franchi une étape clé l’an passé, lorsque le nombre de serveurs virtuels a dépassé le nombre de serveurs
physiques", explique Steve Scully, directeur de recherche, en charge des questions de continuité, de reprise après
sinistre et d'orchestration du stockage chez IDC. "Le plus grand défi porte sur la sauvegarde des machines
virtuelles."
«La virtualisation a provoqué une prolifération des serveurs", explique Eric Pitcher, le vice-président de la stratégie
chez CA. "Les utilisateurs disent que les machines virtuelles sont jetables après usage, mais la réalité est touteautre. En général, les utilisateurs passent leur temps à instancier de nouvelles VM". Et d’indiquer que la
déduplication de données est, au final, l’un des moyens de combattre la prolifération des serveurs virtuels.
Dans une situation traditionnelle où la sauvegarde porte sur des environnements physiques, une entreprise achète
une licence pour chaque serveur, exécute l’agent de sauvegarde sur chaque serveur, sauvegarde tous les fichiers et
les envoie sur le disque ou sur bande, explique Scully. Mais quand il s'agit de serveurs virtuels, "si vous multipliez ce
modèle par 50 ou 100 fois, vous payez beaucoup pour ces licences et ne tirez pas forcément profit des technologies
de déduplication». «En fait vous multipliez le nombre de processus identiques tournant en parallèle sans aucune
connaissance de ce que font les autres processus en cours d'exécution." Les machines virtuelles sont souvent
sauvegardées comme des images complètes par opposition à un ensemble de fichiers individuels. Certaines
applications de sauvegarde peuvent appliquer leurs algorithmes de déduplication à des images multiples, indique
Scully. Mais «vous ne bénéficiez pas de la granularité des sauvegardes au niveau fichier," dit-il.
Il est plus compliqué de sauvegarder des serveurs virtuels que de sauvegarder et de récupérer des
serveurs traditionnels
Un défi commun des serveurs virtualisés, est que toutes les machines partagent les capacités CPU, la bande
passante et l’espace disque du serveur physique, explique Rob Emsley, directeur senior du marketing produit, de la
division systèmes de sauvegarde et de protection de données d’EMC division systèmes. «Il faut faire un usage plus
efficace des ressources physiques, ce qui rend difficile l’usage de technologies de de sauvegarde et de récupération
traditionnelles, dit-il.
La sauvegarde de serveurs virtuels est plus complexe que d'autres sauvegardes, explique Pitcher. "Vous prenez uninstantané du serveur, déplacez ce snapshot vers un emplacement temporaire et réalisez les sauvegardes à partir
de cet endroit, explique-t-il. La stratégie de CA pour améliorer et dédupliquer les sauvegardes virtuelles consiste à
supprimer cet emplacement de stockage intermédiaire pour sauvegarder l'espace virtuel directement depuis la
machine virtuelle.
«La virtualisation des serveurs et la déduplication relèvent du même concept» explique Mike Dimeglio, le directeur
du marketing produit chez Falconstor: "il s’agit de consolider, d'optimiser le stockage, de réduire la consommation
électrique tout en assurant la conservation des données pendant de longues périodes de temps". Falconstor a inclus
des technologies de déduplication dans ses produits DiskSafe et FileSafe, qui utilisent un serveur proxy pour
dédupliquer à la source les données des machines virtuelles, tout en proposant de multiples options de sauvegarde.
Mais Dimeglio ajoute que les snapshots ont un rôle très important dans l’approche de sauvegarde et de
Page 9/16
Déduplication : faites faire une cure dʼamaigrissement à vos données
La déduplication de données permet de réduire l ʼimpact de la prolifération des VM
déduplication des machines virtuelles. "Vous pourrez sauvegarder depuis un instantané et appliquer la Deduplication
à ce processus," ajoute-t-il.
"La technologie de déduplication d’Avamar permet de dédupliquer les données à la source directement depuis
l’environnement virtualisé et est étroitement intégrée à VMware vSphere," explique Emsley. "En dédupliquant les
machines virtuelles au moyen d’une appliance de déduplication à la cible, telle que celle de Data Domain, les
serveurs virtuels sont traités comme tout autre charge de travail," explique Shane Jackson, le directeur du
marketing produits en charge de Data Domain et des librairies de bandes chez EMC. "Les taux de déduplication peut
être très élevé pour les machines virtuelles, car le niveau de redondance de données est très élevé," indique
Jackson.
Déduplication à la cible contre déduplication à la source
"La déduplication à la source et la déduplication à la cible ont chacune des avantages dans le cas de la sauvegarde
de machines virtuelles," explique Scully, d’IDC. Un point important à considérer est de savoir si l'application de
sauvegarde réalise des sauvegardes incrémentielles à partir des images complètes des machines virtuelles
individuelles. "Vous pouvez être sûr que l'image sera modifiée à chaque nouvelle sauvegarde", indique Scully. "Il
suffit en effet qu’un fichier sur cette image entière ait changé, pour que le fichier qui stocke la machine virtuelle soit
différent. Dans ce cas, il est judicieux de dédupliquer l'image entière à la source. Mais certains utilisateurs
pourraient vouloir extraire des données de l'environnement de production sans faire supporter une charge de
traitement supplémentaire sur les serveurs (ce qui est la cas avec la déduplication à la source). Dans une situation
de reprise après sinistre vrai, une image complète de la machine virtuelle peut être un moyen "très puissant" pour
restaurer les systèmes dans leur état initial d’avant panne,» explique Scully.
"Dédupliquer les données de sauvegarde à la source permet de transférer des données rapidement hors des VM,"
explique quant à lui Matthew Lodge, directeur senior du marketing produit chez Symantec. L’éditeur a récemmentpublié de nouvelles versions de NetBackup et Backup Exec capables d’effectuer des restaurations très granulaires
des machines virtuelles, et permettant la déduplication à plusieurs étapes du processus de sauvegarde, y compris à
la source. Symantec recommande l’usage de la déduplication au sein de chaque machine virtuelle si l’entreprise a
des contraintes de bande passante ou si son datacenter utilise Microsoft Hyper-V. Dans les autres cas, l’éditeur
recommande à ses utilisateurs d’utiliser l’API VMware vStorage pour envoyer l'ensemble des images VMware à un
serveur de médias NetBackup qui se chargera de la déduplication.
De nouvelles options de déduplication pour les serveurs virtuels
D’autres options plus originales pour dédupliquer des serveurs virtuels sont aussi disponibles sur le marché.
"Bluelock LLC, un fournisseur de cloud computing, a abordé la question de la déduplication des données des
serveurs virtuels sous un angle différent," indique Pat O'Day, le directeur de la technologie de la société. BlueLock
utilise des clones VMware liées pour réduire les données dupliquées. Les administrateurs de la société on créé un
modèle de serveur VMware l’on stocké dans le nuage de serveurs et mettent ce modèle à disposition des
utilisateurs. Lorsque les utilisateurs renomme ce serveur, seul un bloc change.
"Le clone lié suit à la trace les changement de blocs qui interviennent entre le modèle d’origine et la machine de
l'utilisateur» explique O'Day. «Il s'agit essentiellement déduplication." L'inconvénient à long terme est que la
technologie «ne réconcilie pas les changements comme le ferait une solution de déduplication». Si O’Day déclare
étudier d’autres options de déduplication, il espère en fait les combiner avec l’usage des clones liés. «Je ne pense
pas que les clones liés vont disparaître en faveur de la déduplication» conclut-il.
Page 10/16
Déduplication : faites faire une cure dʼamaigrissement à vos données
La déduplication de données permet de réduire l ʼimpact de la prolifération des VM
NetApp va revendre les appliances de déduplication et deVTL de Fujitsu
Par Christophe Bardy
A l'occasion du salon Storage Networking World Europe qui se tenait à Francfort fin octobre, NetApp et
Fujitsu ont annoncé le renforcement de leur alliance. NetApp, qui est devenu le partenaire privilégié du
Japonais après l'abandon du partenariat avec EMC, va notamment revendre l'appliance de sauvegarde
et de déduplication Eternus CS800 que Fujitsu a développé sur base Quantum. Une première pour le
constructeur californien.
A l’occasion du salon Storage Networking World (SNW) qui se tient actuellement à Francfort, l’ex-plus grand
partenaire d’EMC en Europe, Fujitsu a définitivement enfoncé un clou dans le cercueil de son alliance avec le leader
mondial du stockage en confirmant son alliance stratégique avec NetApp.
Pour marquer un peu plus la solidité de la relation, les deux sociétés ont encore renforcé leurs liens à Francfort en
annonçant que NetApp va mettre à son catalogue l’appliance de sauvegarde sur disque et de librairie virtuelle
Eternus CS800 de Fujitsu (ex CentricStor). Il s’agit d’une première pour le constructeur californien qui jusqu’à ce
jour n’avait jamais mis à son catalogue d’autre produit tiers que les commutateurs Fibre channel de Brocade et
Cisco. Dans la pratique, l’accord parait logique : l’Eternus CS800 vient en effet remplacer les anciennes appliances
VTL de NetApp, les nearstore, développées sur la base de la technologie acquise avec le rachat d’Alacritus et dont
NetApp a finalement annoncé l’arrêt des développements l’an passé.
Fujitsu fournira à NetApp ses appliances de déduplication et de VTL
L’Eternus CS800 est un produit tout en un qui inclut des fonctions de sauvegarde sur disque de VTL et de
déduplication (Fujitsu embarque en fait le code développé par Quantum sur le CS800, alors qu’il développe son
propre code pour les Eternus CS haut de gamme). L’objectif pour NetApp avec l’intégration du CS800 dans son
catalogue est notamment d’offrir aux PME une appliance de sauvegarde complémentaire de ses systèmes de
stockage. Indirectement, l’accord avec Fujitsu permet à NetApp de mettre à son catalogue la technologie de
Quantum sans accord bilatéral avec le constructeur californien.
L’alliance entre NetApp et Fujitsu sur l’Eternus CS800 est pour l’instant limitée à la zone EMEA (Europe, Moyen-
Orient, Afrique) mais pourrait s’étendre à d’autres zones géographiques si le partenariat s’avère concluant. C’est en
tout cas ce qu’a expliqué Rick Scurfield le patron mondial des alliances chez NetApp. Le même Scurfield a aussi
laissé entendre que Fujitsu et NetApp pourraient renforcer leurs liens aux Etats-Unis, un pays ou Fujitsu est pour
l’instant peu puissant et où les deux partenaires pourraient avancer de concert sur les problématiques de datacenterface à l’alliance VCE et aux offres intégrées de constructeurs comme HP, IBM ou Dell.
Page 12/16
Déduplication : faites faire une cure dʼamaigrissement à vos données
NetApp va revendre les appliances de déduplication et de VTL de Fujitsu
Le moins que l’on puisse dire est que le marché de la déduplication ne manque pas d’acteurs. Dans ce
chapitre, nous avons tenté d’inventorier les principaux fournisseurs d’appliances de déduplication ou de
technologies destinées à l’élaboration de tels appliances. Ce panorama ignore donc les grands du
logiciel de sauvegarde tels que Commvault, Symantec ou Arkeia, qui disposent désormais tous d’une
offre en matière de déduplication intégrée à leurs solutions.
Les constructeur généralistes :
Dell : au mois de juillet 2010, Dell a fait l’acquisition d’Ocarina Networks, un spécialiste des outils de compression et
de déduplication de données. Ocarina s’est notamment fait connaitre pour sa technologie de compression capablede réduire le volume occupé par certains fichiers multimédias réputés incompressibles tels que fichiers Jpeg ou
videos MPEG. Plus généralement, les technologies d’Ocarina s’appliquent aux données non structurées qu’elles
résident sur des support primaires ou des support de sauvegarde. Dell devrait vraisemblablement intégrer les
technologies d’Ocarina Networks à ses baies de stockage Equallogic et appliances de sauvegarde Powervault. Le
constructeur texan pourrait aussi appliquer la déduplication à ses solutions d’archivage et notamment à l’offre de
stockage objet conçue en partenariat avec Caringo.
Fujitsu : De sa fusion avec Fujitsu-Siemens, Fujitsu a conservé la gamme de VTL hybride Centricstor désormais
rebaptisée Eternus CS et qui couple des fonctions de sauvegarde sur disque, d’archivage, de VTL et d’appliance de
déduplication. Positionnée comme une solution de haut de gamme l’Eternus CS a récemment été mis à jour en
version 5, une mouture qui marque l’arrivée d’une interface en mode fichier (CIFS et NFS) pour les fonctions
d’archivage ainsi que l’ajout de fonctions re réplication asynchrone entre EternusCS.
En parallèle de cette offre «maison», Fujitsu a aussi développé une offre de milieu de gamme, l’Eternus CS800 qui
s’appuie sur la technologie de déduplication et de VTL de Quantum. Pour la conception du CS800, Fujitsu s’est
chargé du design de l’appliance et de l’optimisation des sous-systèmes matériels mais a repris l’intégralité du code
de Quantum. Le résultat est une appliance dont les prix vont de 10000 à 60 000 € selon la version et la
configuration.
HP : Hewlett-Packard a récemment annoncé la disponibilité d’un nouveau module de déduplication de données qu’il
va progressivement déployer sur ses baies de stockage et de sauvegarde sur disques au cours de l’année 2010 et
au début 2011. Baptisée HP StoreOnce, la technologie de déduplication inline développée par les HP Labs a été
intégrée sur les nouvelles appliances de backup D2D et devrait l’être prochainement sur les systèmes NAS en
cluster X9000 de la marque, avant de faire son apparition sur de futures baies de stockage EVA. Comme il l’avait
aussi laissé entendre lors de sa conférence Tech@Work de Francfort, HP entend également intégrer StoreOnce dans
son logiciel de sauvegarde HP Data Protector.
L’usage de cette architecture est destiné à s’étendre a expliqué Dave Roberson, le vice-président senior en charge
de la division HP StorageWorks. « Nous commençons par la sauvegarde et l'année prochaine nous serons en
mesure d'introduire la déduplication de bout en bout. Personne d'autre ne fait cela ». Malgré l’annonce de
StoreOnce, HP continuera à vendre la solution de déduplication en post-traitement de Sepaton, qu’il intègre
actuellement dans ses bibliothèques virtuelles haut de gamme (gamme VLS), même si le constructeur pourrait
progressivement remplacer cette ligne de produit avec la montée en puissance et en capacité de la gamme D2D. Le
Page 13/16
Déduplication : faites faire une cure dʼamaigrissement à vos données
premier D2D équipé de la technologie StoreOnce, le D2D4312, débute ainsi à 18 To et peut atteindre 48 To de
capacité brute. L’appliance a un prix d’entrée de 94 999$.
IBM : avec le rachat de l’israélien Diligent en 2008, IBM a acquis celui qui est aujourd’hui considéré comme l’un des
principaux concurrents d’EMC. Comme dans le cas des appliances DataDomain, la technologie des appliances
Protectier s’appuie sur un algorithme de déduplication en ligne capable de dédupliquer les données à la volée. Selon
Big Blue, un cluster d’appliances Protectier peut ingérer jusqu’à 500 Mo de données par seconde. Depuis 2009, Big
Blue a enrichi les appliances ProtecTier de fonctions de réplication asynchrone.
Microsoft : Microsoft propose des fonctions basiques de déduplication dans son système d’exploitation orienté
stockage, Windows Storage Server 2008. Cet OS incorpore en effet un système de «Single Instance Storage» qui
assure qu’un même fichier n’est pas stocké deux fois sur un même serveur de stockage. Cette fonction est par
exemple utilisée par HP pour ses systèmes de stockage d’entrée de gamme Windows de la série StorageWorks X.
NEC : Même si la solution n’est pas (encore ?) disponible en France, NEC propose aux Etats-Unis une solution de
déduplication de données intégrée à sa solution de stockage en grille HydraStor. HydraStor, dont les prix débutent à
environ 40 000 $ pour 4 To de capacité, s’appuie sur un algorithme de déduplication en ligne baptisé DataRedux,
qui vient renforcer l’arsenal technologique des baies de stockage en cluster NEC. Selon NEC, sa solution d’entrée de
gamme HydraStor HS-3 est une concurrente directe des systèmes EMC Data Domain DD630 tandis que la solution
en grille HS-8 est une alternative au haut de gamme EMC.
Les spécialistes du stockage
EMC : EMC a fait ses premiers pas dans la déduplication avec le rachat d’Avamar, l’un des pionniers de la
déduplication à la source en 2006. Depuis, le constructeur a mis la main sur DataDomain dans une bataille épique
avec NetApp. La firme est aujourd’hui le principal acteur du secteur avec des technologies qui sont considéréescomme comptant parmi les meilleures du moment. Avamar est notamment considéré par les spécialistes comme la
meilleure technologie de déduplication à la source. Alors qu’à ces débuts, la technologie était vendue sous la forme
d’un logiciel (à installer sur un serveur approuvé), EMC la commercialise aujourd’hui sous la forme d’une appliance
intégrée combinant le contrôleur Avamar (un serveur à base de puces Xeon) et une baie de disques.
DataDomain, de son côté est la technologies de déduplication à la cible la plus déployée du marché. Par rapport à
certains concurrents comme les passerelles Protectier d’IBM, la solution d’EMC manque encore d’un mode cluster
failover entre deux noeuds DataDomain, qui permettrait d’assurer la continuité des opérations de sauvegarde même
en cas de chute d’un noeud. Pour l’instant, la firme propose une solution de cluster de performance, qui améliore les
taux de transferts, mais ne règle pas le problème de chute d’un noeud. Reste que cette carence doit être considérée
à sa juste mesure : dans le cas (rare) de chute d’un noeud, les processus de sauvegarde en cours sur ce noeud
devront être relancés (à aucun moment le catalogue ou les données déjà sauvegardées lors de job précédents ne
sont mis en péril par la chute d’un contrôleur). Il est à noter que si les technologies de déduplication à la source et à
la cible d’EMC sont aujourd’hui disjointes, elles pourraient au final finir par converger, un point que le constructeur a
laissé entendre (sans toutefois en faire la promesse ferme) lors du dernier EMC World.
GreenBytes : nouveau venu sur le marché, GreenBytes a développé une série d’appliances supportant la
déduplication inline pour le stockage primaire et la sauvegarde. Les appliances GB-X de GreenBytes s’appuient sur
le système d’exploitation OpenSolaris et le système de fichiers ZFS de Sun. Leur algorithme de déduplication
s’appuie sur le système de calcul de hash Tiger (192 bit) plutôt que sur SHA-1. Pour assurer un impact minimal en
matière de performance, notamment lorsque la déduplication est utilisée sur des données primaires, les appliances
Page 14/16
Déduplication : faites faire une cure dʼamaigrissement à vos données
de GreenBytes font un usage intensif de disques SSD qui agissent comme un cache devant les disque SATA. Selon
GreenBytes, ses systèmes peuvent gérer, dans leur version actuelle, entre 4 et 216 To de données non
dédupliquées en ligne.
NetApp : NetApp a été le premier constructeur a proposer l’usage de la déduplication pour les données primaires.
Ce mécanisme de déduplication, à l’origine développé sous le nom «A-SIS», s’appuie sur une fonction du système
de fichiers WAFL qui calcule une somme de contrôle CRC pour chaque bloc de données qu'il stocke. Dans la
pratique, la technologie de déduplication de NetApp est un processus optionnel qui fonctionne pendant les périodes
de faible activité de la baie et examine toutes les sommes de contrôle; si les deux sommes de contrôle
correspondent, l'un des blocs est remplacé par un pointeur WAFL. Le résultat est une nette réduction de l’espace
utilisé sans impact significatif sur les performances. Le système de déduplication NetApp a été mis en oeuvre par de
nombreux utilisateurs sur des types de données multiples, y compris les répertoires, bases de données et des
images virtuelles, et la plupart ont rapporté des résultats positifs en matière de réduction de données et de
performance. Il est à noter que la déduplication est aussi mise en oeuvre par NetApp pour tous ses systèmes
d'archivage ("Vault")
Nexenta Systems : La start-up californienne Nexenta, qui s’est récemment illustré en soutenant la création
d’Illumos après l’arrêt par Oracle du projet Open Solaris, s’est taillée une solide réputation dans le monde du
stockage en développant NexentaStor, un système d’exploitation orienté stockage dérivé d’OpenSolaris et
s’appuyant sur le système de fichiers Solaris ZFS. NexentaStor offre des capacités de stockage unifié (NAS, iSCSI et
Fibre Channel) et incorpore de multiple fonctions telles que les snapshots, la réplication synchrone, la compression
de données et, depuis la version 3.0, la déduplication inline. Cet ajout permet à NexentaStor de dédupliquer les
données sur des volumes d’archives aussi bien que des données primaires, à condition toutefois que l’appliance
NexentaStor soit dotée de la puissance CPU et de la mémoire vive nécessaire.
Quantum : Quantum est l’un des pionniers de la déduplication. La firme a hérité sa technologie de déduplicationBlocklets lors du rachat d’ADIC en août 2006. Ce même ADIC avait lui même préalablement avalé Rocksoft,
l’inventeur de la technologie, en mars 2006. Quantum s’est rapidement employé à intégrer la technologie Blocklets
dans ses librairies de bandes virtuelles et a commencé à livrer ses premiers systèmes en décembre 2006 (les VTL
DXi3500 et DXi5500). Depuis, la déduplication est devenue un élément standard des équipements de sauvegarde
de la marque.
Récemment, Quantum a démocratisé l’usage de la technologie en lançant les gamme DXi4500 et DXi2500, deux
familles d’appliances de déduplication à des tarifs très abordables et qui sont proposées avec des capacités de
stockage à partir de 2 To. Ces équipements incluent en standard deux puces quadri-coeurs Intel Nehalem, ce qui
leur permet d’offrir des performances étonnantes pour leur niveau de prix. En octobre 2010, la firme a aussi dopé
son haut de gamme avec le DXi8500, une appliance capable de traiter jusqu’à 6,4 To par heure, y compris en mode
VTL.
Il est à noter que Quantum a été pendant plusieurs années le partenaire de déduplication d’EMC pour ses baies VTL
mais que l’accord a connu une fin funeste avec le rachat de Data Domain par le numéro un mondial du stockage.
depuis Quantum a toutefois signé un accord OEM avec Fujitsu pour ses appliances Eternus CS800, également
revendues par NetApp.
Notons enfin que Quantum a étendu l’usage de la déduplication au stockage primaire en intégrant sa technologie
dans son système de fichier SAN StorNext 4.0. L’objectif est comme, dans le cas de NetApp, d’activer la
déduplication pour les usages nearline ou pour les applications ne nécessitant pas des performances optimales.
Page 15/16
Déduplication : faites faire une cure dʼamaigrissement à vos données
Falconstor : Notamment connu pour son offre logicielle VTL IPStor, Falconstor propose depuis déjà plusieurs
années des fonctions de déduplication en mode post-processing dans sa solution VTL. Selon l’éditeur, la solution
IPStor peut ingérer des données à un rythme pouvant atteindre 500 Mo/s par noeud avec une limite de 4 noeuds en
cluster failover (n+1).
En parallèle de sa solution de déduplication VTL, l’éditeur a développé une solution de déduplication de données
baptisée File-interface Deduplication System (FDS), qui permet de dédupliquer des données en mode post-
processing sur des volumes NFS et CIFS (la solution est alors adaptée à des scénarios de sauvegarde sur disque).
Selon FalconStor, FDS supporte l’API OST de Symantec (intégrée à NetBackup et à BackupExec) et serait capable
de supporter des débits de l’ordre de 5.5 To/h sur un noeud équipé de deux liens 10 Gigabit Ethernet.
IPStor est notamment utilisé par Oracle pour ses librairies VTL. Hitachi Data Systems a aussi récemment noué un
accord OEM avec FalconStor pour l’utilisation d’IPStor et de FDS en complément de ses systèmes de stockage AMS
2000.
Permabit: Cette jeune start-up a développé une technologie de déduplication de données baptisée Albireo, qu’elle
propose en OEM aux constructeurs de baies de stockage. La promesse de Permabit avec Albireo est l’application de
la déduplication tant aux données d’archives qu’aux données primaires. Albireo combine selon l’éditeur des fonctions
de compression de données traditionnelles avec un algorithme de déduplication optimisé en fonction des contenus à
traiter. Le constructeur de passerelles NAS en cluster BlueArc est l’un des premiers à avoir annoncé son intention
d’intégrer Albireo à ses équipements. Et Xiotech a également annoncé l’intégration à venir d’Albireo à ses systèmes
Sepaton : Sepaton a fait son entrée sur le marché de la déduplication avec sa librairie de bande virtuelle
départementale DS2. Le constructeur a développé sa propre technologie de déduplication, baptisée DeltaStor
(actuellement en version 5.3). Cette dernière est une technologie de déduplication en mode post-process qui
s’appuie sur un système d’analyse différentielle des données. Selon Sepaton, il ne s’agit pas d’une technologie àbase de hash. La technologie DeltaStore a l’avantage de fournir un système de déduplication global (tous les noeuds
partagent un catalogue de déduplication unique, ce qui permet d’optimiser la déduplication à travers l’ensemble des
noeuds). Elle optimise également les algorithmes utilisés en fonction de la nature des données ingérées. La
technologie est utilisée dans les baies VTL Sepaton S2100-ES2, qui s’appuient sur des baies Hitachi AMS 2100 OEM
mais aussi par plusieurs OEM dont HP pour ses librairies VLS.
Page 16/16
Déduplication : faites faire une cure dʼamaigrissement à vos données