Sauvegarde vs raid

Sauvegarde vs raid
Les sauvegardes sont une partie cruciale de notre vie numérique. Chaque ordinateur des bases de données géantes à un seul ordinateur personnel ou appareil mobile a besoin d'une sauvegarde. Un endroit où les données utilisateur les plus pertinentes peuvent être stockées pendant longtemps et également stockées de telle manière qu'elle est récupérable en cas de besoin. Nous pouvons faire une distinction entre les données de notre système en cours d'exécution, appelons-les données en direct, et le sauvegardé données. Ce dernier étant stocké loin du système actuel qui utilise les données en direct.

RAID, se préoccupe des données en direct, c'est un mécanisme avec lequel un système en cours d'exécution combine plusieurs disques en une seule entité de stockage. Les données sont ensuite réparties sur tous les disques de telle manière qu'il puisse survivre à l'échec d'au moins un (ou plusieurs) des disques physiques. Le type de tableau RAID le plus simple est RAID1, ou reflétant. C'est là que vous copiez (ou miroir) les mêmes données sur deux disques ou plus de telle sorte que si l'un des disques échoue, les données peuvent toujours survivre et toujours utilisée activement. Il y a aussi d'autres configurations RAID, et nous en discuterons au fur et à mesure.

À propos de Raid

RAID, ou éventail redondant de disques bon marché, est un mécanisme pour stocker les données sur les disques. Il y a un large «tableau» de configuration RAID avec laquelle vous pouvez aller, mais les deux mécanismes de base sur lesquels ils sont tous basés sont les suivants:

1. Miroir:

La mise en miroir implique que vos blocs de données sont copiés, miroirs, sur plusieurs disques. Si vous reflétez vos données sur trois disques, vous pouvez survivre jusqu'à deux disques qui échouent à tout moment, les disques défaillants peuvent ensuite être remplacés par de nouveaux sans trop de tracas. De même, si vous copiez des données à travers n + 1 disques, vous pouvez résister à n disques échouant. L'inconvénient est que vous obtenez uniquement la capacité de stockage égale au plus petit disque de votre réseau de raid.

2. Parité:

Une deuxième approche consiste à diviser vos données en deux parties, en utilisant les deux blocs de données utilisateur, vous pouvez créer un troisième bloc de «parité». Les trois blocs sont tous de la même taille et sont répartis sur différents appareils. Un minimum de trois appareils sont nécessaires pour que cette configuration fonctionne. Si l'un des disques échoue, vous pouvez recréer les blocs stockés dans ce disque en utilisant les deux autres blocs. Par exemple, si le deuxième bloc utilisateur est perdu, le premier bloc et le bloc de parité peuvent être utilisés pour calculer le deuxième bloc utilisateur. Si vous êtes intéressé par la façon dont cela fonctionne, consultez cette merveilleuse explication.

Cette méthode peut être améliorée pour avoir 2 ou même 3 blocs de parité. Mais plus de 3 blocs de parité ne sont pas vus dans l'industrie que souvent. Si vous avez un bloc de parité, vous pouvez survivre à une défaillance du disque. Deux blocs de parité signifie que vous pouvez résister à deux disques qui échouent et ainsi de suite.

Il est plus efficace en termes d'utilisation du stockage que de refléter. Si vous avez un bloc de parité, vous n'avez besoin que de 50% de stockage physique de plus par les données réelles que vous stockez. Cela signifie stocker 1 Go de données dont vous aurez besoin 1.5 Go de stockage (plus il y a un petit frais général pour les métadonnées). C'est beaucoup plus efficace que même le schéma de miroir le plus efficace où vous avez besoin d'au moins 2 Go de stockage pour refléter 1 Go de données entre deux disques.

L'inconvénient est que les opérations d'écriture aléatoires vont être ralenties, grâce au peu de calcul et d'opération d'écriture associée au bloc de parité. De plus, la fiabilité n'est pas aussi bonne que celle d'un n + 1 disques miroir où vous pouvez vous préparer à tout nombre arbitraire de disques échouant.

Les configurations de RAID peuvent être aussi complexes ou aussi simples que vous le souhaitez, vous pouvez combiner les stratégies de parité et de miroir et les modifier à la goût de votre entreprise. Il existe des contrôleurs de raid dédicaces auxquels vous connectez vos disques physiques, et le système d'exploitation voit alors un seul disque logique comme le montre le contrôleur. LSI est l'un de ces fournisseurs de contrôleurs RAID. Vous pouvez également effectuer un raid dans le logiciel OpenZFS est probablement le meilleur pari que vous ayez à cet égard.

Un dernier type de raid, qui reçoit une mention honorable est le raid 0. Techniquement, ce n'est pas un schéma de raid, car il n'y a pas de redondance impliquée ici. L'idée derrière Raid 0 est simplement d'étendre vos données sur plusieurs périphériques de stockage sans n'importe quel résilience contre les défaillances du disque. L'avantage est que vous obtenez des améliorations des performances en faisant cela. Si vous écrivez 1 Go de données sur un seul disque, le processus est lent. Le disque ne peut faire qu'un nombre limité d'opérations d'écriture par seconde et votre système d'exploitation doit attendre qu'il termine cette opération avant que de nouvelles données ne soient envoyées. Si vous diffusez le même 1 Go de données sur deux de ces disques, vous pouvez écrire (et lire) les deux simultanément et gagner un peu d'amélioration des performances.

Back-ups

Le concept de sauvegardes est soucieux plus important que celui du raid. Une sauvegarde, dans le contexte de la gestion du stockage, est une bonne copie connue des données, à partir d'un moment donné, à partir duquel vous pouvez restaurer les fichiers dans votre système principal en cas de besoin. En termes de mise en œuvre, il existe de nombreuses solutions hébergées dans le cloud et de nombreuses aussi qui peuvent être utilisées.

Tarsnap et Backblaze sont mes services de sauvegarde gérés préférés pour les cas d'utilisation privés et commerciaux. Vous pouvez également inclure Google Drive, iCloud ou Dropbox dans cette définition d'un sauvegarde solution mais ils sont plus ciblés sur le marché de la consommation que dans l'entreprise. Cependant, le principe sous-jacent est toujours le même. Lorsque vous vous connectez à un nouvel iPhone ou iPad toutes les données, vos contacts, photos, bibliothèque de médias, etc., est synchronisé à partir de votre compte iCloud de manière transparente et lorsque vous continuez à utiliser votre appareil, les données plus récentes sont silencieusement soutenues dans le cloud et que vous ne faites pas t à s'en soucier.

Votre solution de sauvegarde peut être aussi simple que la copie des données sur un disque dur externe ou pour utiliser RSYNC (ou ZFS Envoyer, si vous utilisez OpenZFS) pour générer périodiquement une copie de toutes les informations pertinentes. Cela pourrait inclure votre dossier Documents, votre base de données, votre référentiel source ou même votre système de fichiers racine entier SPAT dans un zip plat ou un tarball. Les critères importants qu'une bonne solution de sauvegarde devraient remplir sont les suivants:

  1. Les sauvegardes doivent se produire souvent - si vous sauvegarde les données chaque mois, au lieu de chaque semaine, vous risquez de perdre jusqu'à un mois de données lorsque la catastrophe frappe.
  2. Vos sauvegardes doivent remonter dans le temps - le stockage de sauvegarde est fini. Parfois, vous devez jeter des sauvegardes plus anciennes. Plus vous avez de stockage, meilleur peut être vos sauvegardes. Supposons que vous sauvegardez vos données chaque semaine, mais jetez les sauvegardes de plus de 2 semaines. Si un fichier est supprimé accidentellement, et cela passe inaperçu pendant deux semaines, vous n'aurez pas de moyen de le ramener.
  3. Vos fichiers devraient en fait être restaurables - si vous n'avez jamais essayé de récupérer vos données à partir de la sauvegarde, vous n'avez pas de sauvegarde. Vous ne devriez pas avoir à apprendre à récupérer les données, au moment critique lorsque vous avez subi une perte de données. Planifiez à l'avance et sachez comment restaurer le système de la dernière bonne sauvegarde connue.
  4. Votre sauvegarde doit être séparée du système en cours d'exécution - lorsque la catastrophe frappe, et tous vos fichiers sur le serveur de production sont cryptés, supprimés ou corrompus, vous devez vous assurer que la même chose n'arrive pas à votre sauvegarde. Une bonne façon de s'assurer que cela est de vous assurer que votre appareil de sauvegarde n'est pas «connecté» à votre environnement de production, je.E, débranchez votre disque dur USB, démoulisez votre système de fichiers NFS lorsque vous avez fini de le sauvegarder. Au moins, ne donnez pas au système de production le privilège pour écraser ou modifier vos données de sauvegarde. Faites-le en lecture seule.

Maintenant que nous connaissons un peu le raid et la sauvegarde, soulignons quelques différences entre elles.

Fichiers et blocs

Raid est toujours concerné par les blocs de données, et non comment le système de fichiers présente ces données à l'utilisateur. Le logiciel et le raid matériel traitent des données comme blocs d'informations, la taille des blocs peut varier de 128 kib à 1 MIB.

Les sauvegardes en revanche sont beaucoup plus flexibles. Ils sont généralement effectués au niveau du système de fichiers, bien qu'il n'y ait pas de règle stricte pour que ce soit le cas. Ils sont aussi plus granulaires. Vous pouvez restaurer un seul fichier à partir de votre sauvegarde, si votre solution est suffisamment flexible. Les tableaux de raid ne sont pas des sauvegardes, ils ne sont qu'un moyen de diffuser des données sur plusieurs disques. Si un fichier est supprimé, tous ses blocs en miroir et blocs de parité sont libérés. Fin de l'histoire.

Cas d'utilisation

Les sauvegardes sont pour tout le monde. L'approche et l'étendue peuvent varier d'un cas d'utilisation personnelle à l'entreprise, mais tous ceux qui ont une vie numérique ont besoin de sauvegarde. Raid est plus une fonctionnalité spécifique à l'entreprise / entreprise. Vous voyez des réseaux de raids dans des serveurs, des périphériques de stockage comme le NAS et le SANS, les hyperviseurs cloud, etc. À peu près n'importe quel endroit qui stocke des données critiques en direct utilise une certaine forme de raid. Même les serveurs qui exécutent vos sauvegardes hébergées Cloud utilisent probablement des tableaux de raid. Ce ne sont pas des technologies mutuellement exclusives.

Cela ne signifie pas que vous ne pouvez pas utiliser RAID pour votre cas d'utilisation personnelle, il a juste plus d'utilité dans les entreprises. Une partie de la raison derrière cela est que dans l'entreprise, les disques sont pilés avec des opérations IO 24/7. Dans l'environnement de production, comme le stockage d'une base de données ou d'un service de streaming vidéo ou d'un hyperviseur cloud, le périphérique de stockage de votre serveur sous forme de charge horrible, les données sont constamment lues et écrites à ces appareils et souvent par plusieurs applications simultanément. Dans ces conditions, vos disques sont beaucoup plus susceptibles d'échouer. Avoir une configuration RAID signifie si un lecteur échoue, vous souffrez peu ou pas de temps d'arrêt. La plupart des serveurs peuvent continuer à fonctionner même après une défaillance du disque, vous ne perdez donc pas de nouvelles informations et demandes à chaque seconde.

Un ordinateur de bureau moyen peut difficilement recréer la même condition stressante, même si le disque décède, si vous utilisez une solution de sauvegarde comme Backblaze, vous pouvez récupérer la plupart de vos données perdues et perdre quelques heures de travail est probablement la pire chose que ce soit ça peut arriver. Même cela devient une rareté grâce à des solutions hébergées dans le cloud comme Adobe Creative Cloud, Office 365, etc.

Raid ne remplace pas la sauvegarde

S'il y a un seul emporter que vous voulez de cet article, ce devrait être ceci. Raid ne remplace pas la sauvegarde. Soutenez toujours vos données! Il y a beaucoup de gens qui pensent que si vous avez un raid, cela signifie que les données sont sûres sur plusieurs disques et donc il n'est pas nécessaire de le sauvegarder. Rien n'est plus éloigné de la vérité. RAID est destiné à faire face à un seul problème spécifique - les disques échouent ou redonnent des données erronées. Avoir un raid ne vous protégera pas d'un million d'autres menaces comme les suivantes:

  1. Erreurs de l'utilisateur et suppressions accidentelles
  2. Les bogues d'application ou de système d'exploitation provoquent une corruption de données généralisée
  3. Ransomware ou autres cryptage de logiciels malveillants, supprimer ou corrompre vos données
  4. Échec des contrôleurs de raid eux-mêmes

Les données sur votre tableau de raid sont en direct. Si le système d'exploitation, une application (ou un utilisateur) se détraque et supprime quelques fichiers ici et là, le fichier sera supprimé dans tout votre tableau RAID. Avoir une copie séparée de vos données, une sauvegarde, est le seul moyen de vous protéger contre ce type de scénario.

Conclusion

Si vous vous inquiétez de vos données, votre première préoccupation devrait être une solution de sauvegarde. La plupart des utilisateurs de bureau, sauf peut-être que les utilisateurs de Power, devraient investir davantage dans une sauvegarde fiable au lieu de jouer avec RAID1, RAID5 ou RAIDZ. Si vous souhaitez créer votre propre serveur de sauvegarde, vous devez penser à une politique de sauvegarde décente et à un backend de stockage fiable. Cet article peut-être un bon point de départ. Vous pouvez utiliser RSYNC ou ZFS Envoyer pour prendre une copie d'époque de vos données à ce backend.

Si vous êtes dans l'entreprise et envisagez une solution RAID pour stocker toutes vos données en direct. Envisagez d'utiliser OpenZFS, il offre une solution très flexible, tout, de la mise en miroir à N-Disk à RAIDZ1 avec un bloc de parité à RAIDZ2 et RAIDZ3 avec 2 et 3 blocs de parité. Vous devez considérer beaucoup sur les exigences de votre demande avant de prendre une décision. Il existe des compromis entre vos performances en lecture-écriture, votre résilience et votre efficacité de stockage. Cependant, je vous recommanderais de penser à Raid qu'après avoir décidé d'une solution de sauvegarde.