Comment créer un cluster de décalage vers le rouge sur AWS

Comment créer un cluster de décalage vers le rouge sur AWS
Nous pouvons utiliser des bases de données pour stocker et gérer des ensembles de données structurés, mais cela ne suffit pas pour l'analyse et la prise de décision. À cette fin, nous devons extraire les résultats requis de ces données à l'aide de l'entreposage de données. Un entrepôt de données est similaire à une base de données SQL ordinaire. Mais, au lieu de stocker des fins, ils sont conçus pour exécuter des analyses et des requêtes sur les données. En utilisant cela, nous pouvons lire une très grande quantité de données dans une courte période et étudier les tendances et les relations entre elle. Dans cet article, nous discuterons de Redshift et comment il peut être créé sur AWS.

Qu'est-ce qu'Amazon Redshift

AWS Redshift est un entrepôt de données spécifiquement utilisé pour l'analyse des données sur des ensembles de données plus petits ou plus grands. C'est un service géré par AWS, vous pouvez donc facilement configurer cela en peu de temps en quelques clics. Pour configurer Redshift, vous devez créer les nœuds qui se combinent pour former un cluster Redshift. Un cluster peut avoir un maximum de 128 nœuds. De quoi, un nœud est configuré comme un nœud maître qui peut gérer tous les autres nœuds et stocker les résultats interrogés. Chaque nœud peut prendre jusqu'à 128 To de données à traiter. En utilisant Redshift, vous pouvez interroger des données environ dix fois plus rapidement que les bases de données régulières.

Habituellement, les données qui doivent être analysées sont placées dans le seau S3 ou d'autres bases de données. Mais vous pouvez également interroger directement les données dans S3 en utilisant le spectre de Redshift. En outre, vous pouvez également utiliser des instances de data kinesis Firehose ou EC2 pour écrire des données sur votre cluster Redshift.

Ce service n'est limité que pour fonctionner dans une seule zone de disponibilité, mais vous pouvez prendre les instantanés de votre cluster Redshift et les copier dans d'autres zones. Ce processus peut également être automatisé pour aider à la reprise après sinistre.

Dans la section suivante, nous discuterons de la façon de créer et de configurer le cluster Redshift sur AWS à l'aide de la console de gestion AWS et de l'interface de ligne de commande.

Création d'un cluster Redshift à l'aide de la console

Tout d'abord, connectez-vous à votre compte AWS à l'aide des informations d'identification AWS et recherchez Redshift à l'aide de la barre de recherche supérieure. Cela vous emmènera à la console Redshift.

Clique sur le Créer un cluster Pour commencer à créer un nouveau cluster Redshift.

Dans la section de configuration, vous devez fournir l'identifiant ou le nom de votre cluster Redshift. Le nom du cluster Redshift doit être unique dans la région et peut contenir de 1 à 63 caractères.

Après avoir fourni l'identifiant de cluster unique, il vous demandera si vous devez choisir entre la production ou le niveau gratuit. Pour éviter les coûts supplémentaires, nous utiliserons le type de niveau gratuit à des fins de démonstration.

Avec le type de niveau gratuit, vous obtenez un dc2.Grand nœud de décalage vers le rouge avec types de stockage SSD et puissance de calcul de 2 VCPU.

Avec l'option de niveau gratuit, AWS télécharge automatiquement quelques exemples de données sur votre cluster Redshift pour vous aider à en savoir plus sur AWS Redshift.

L'exemple de données téléchargées par AWS est appelée Tickit et utilise une exemple de base de données appelée Tickit. Tickit contient des exemples de fichiers de données individuels: deux tables de faits et cinq dimensions.

Après avoir chargé des exemples de données, il demandera le nom d'utilisateur et le mot de passe de l'administrateur pour s'authentifier avec AWS Redshift en toute sécurité. Vous pouvez soit définir vous-même le mot de passe administrateur, soit il peut être généré automatiquement en cliquant sur le Générer automatiquement bouton de mot de passe.

Après avoir fourni le nom d'utilisateur et le mot de passe de l'administrateur, nous pouvons créer notre cluster en cliquant sur le Créer un cluster Dans le coin inférieur à droite.

Cela créera notre nouveau cluster Redshift et chargera les exemples de données. Vous pouvez voir vos grappes disponibles dans la console Redshift.

Redshift est une sorte de base de données SQL qui peut exécuter des analyses sur les ensembles de données et prend en charge les requêtes de type SQL. Pour exécuter l'analyse à l'aide du redshift, sélectionnez le cluster que vous souhaitez et cliquez sur Données de requête Pour créer une nouvelle requête.

Pour exécuter la requête, vous devez vous connecter avec un cluster Redshift. Pour ce faire, sélectionnez l'option disponible en haut du Données de requête section.

Tout d'abord, vous devez sélectionner la connexion qui sera une nouvelle connexion si vous allez utiliser le cluster Redshift pour la première fois. Nous n'avons créé aucun paramètre pour l'authentification à l'aide du Secrets Manager, nous choisirons donc des informations d'identification temporaires.

Ensuite, nous devons sélectionner l'identifiant de cluster, le nom de la base de données et l'utilisateur de la base de données. Après cela, cliquez sur Connexion dans le coin inférieur à droite.

Si la connexion est établie avec succès, vous pouvez afficher l'état «connecté» en haut dans la section des données de requête.

Après la connexion réussie, vous pouvez simplement écrire votre requête SQL à l'aide de l'éditeur fourni. Nous allons créer une nouvelle table avec le titre personnes et avoir cinq attributs. Une fois votre requête terminée, vous pouvez l'exécuter en utilisant le courir Option en bas.

Créer des personnes de table (
PersonID int,
LastName Varchar (255),
FirstName Varchar (255),
Adresse Varchar (255),
City Varchar (255)
));

Lorsque vous cliquez sur le Courir bouton, il créera une table nommée Personnes avec les attributs spécifiés dans la requête.

L'ensemble du schéma de base de données peut être vu sur le côté gauche dans la même section. Vous pouvez afficher la table nouvellement créée et ses attributs ici:

Alors ici, nous avons vu comment créer un cluster de décalage vers le rouge et exécuter des requêtes en l'utilisant de manière simple.

Création d'un cluster de redshift en utilisant AWS CLI

Maintenant, nous verrons comment utiliser l'interface de ligne de commande AWS pour configurer un cluster Redshift. Une fois que vous vous êtes habitué à la ligne de commande et à acquérir une certaine expérience, vous le trouverez plus satisfaisant et pratique que la console de gestion AWS.

Tout d'abord, vous devez configurer AWS CLI sur votre système. Pour que les instructions fixent des informations d'identification CLI, visitez l'article suivant:

https: // linuxhint.com / Configure-aws-Cli-Credentials /

Pour créer un nouveau cluster Redshift, vous devez exécuter la commande suivante à l'aide de la CLI:

$: AWS Redshift Create-Cluster \
--type de nœud \
--type de cluster \
--nombre de nodes \
--maître-username \
--Master-User-Password < username password> \
--cluster-identificateur

Si le cluster est créé avec succès dans votre compte AWS, vous obtiendrez une sortie détaillée, comme indiqué dans la capture d'écran suivante:

Ainsi, votre cluster est créé et configuré. Si vous souhaitez afficher tous les grappes de décalage vers le rouge dans une région particulière, vous aurez besoin de la commande suivante. Cela vous fournira les détails de tous les clusters créés sur votre compte AWS.

$: AWS Redshift décrivait-les-cluster

Enfin, nous avons vu comment créer facilement un cluster de décalage vers le rouge en utilisant la CLI AWS.

Conclusion

Amazon Redshift est un service d'entreposage de données entièrement géré qui peut être utilisé avec d'autres services AWS comme les seaux S3, les bases de données RDS, les instances EC2, les données de données Kinesis, le mouillage rapide et bien d'autres pour produire les résultats souhaités à partir des données données données. Il peut fournir des sauvegardes en cas d'échec de la reprise après sinistre et a une haute sécurité à l'aide du chiffrement, des politiques IAM et du VPC. Il s'agit donc d'un service très sécurisé et fiable qui peut analyser de grands ensembles de données à un rythme rapide.