Déclarations SQL pour les scientifiques des données

Déclarations SQL pour les scientifiques des données
SQL signifie un langage de programmation structuré. Il s'agit d'un langage de requête simple qui vous permet de gérer les données d'une base de données.

Une base de données est une collection de données stockées dans un système informatique. SQL est l'un des langages de programmation les plus universels qui peuvent remplir des milliers de fonctions, notamment la lecture, l'écriture et la manipulation de données.

Il s'agit du langage de programmation standard pour la gestion des bases de données relationnelles et est utilisée par les informaticiens, les analystes de données et les scientifiques des données à travers le monde.

Dans ce guide, nous passerons en revue des déclarations SQL ou des requêtes qui sont largement utilisées dans la science des données.

Ce guide utilise un logiciel PostgreSQL pour exécuter les requêtes. Vous pouvez le télécharger à partir du site officiel en cliquant ici.

Cela étant dit, commençons!1

1. Sélection de toutes les colonnes

La déclaration de sélection est l'une des requêtes SQL les plus fondamentales. Cette instruction vous aide à sélectionner certaines ou toutes les colonnes dans la base de données. Vous utiliserez cette fonction tout au long de vos projets de science des données.

Pour sélectionner toutes les colonnes, utilisez '*' comme indiqué dans l'exemple suivant:

«Produit» est un tableau qui se compose de 3 colonnes. Après avoir exécuté la requête précédente, nous pouvons examiner les colonnes qui sont présentes à l'intérieur du tableau des produits.

2. De la clause

De la clause vient après sélection et aide à identifier où se trouve la colonne dans le tableau par nom.

Lorsque vous spécifiez plusieurs tables, utilisez des virgules et de l'espace entre les noms de table. Ceci est illustré dans l'exemple suivant:

La sortie est plus spécifique avec une seule colonne. Ceci est montré dans les éléments suivants:

3. Où clause

La déclaration suivante après est d'où. Il nous aide à filtrer les données de la base de données en fonction de certaines conditions.

Sortir:

4. Groupe par déclaration

Cette clause est utilisée pour sélectionner et regrouper les lignes qui ont les mêmes valeurs.

Dans la requête SQL donnée, nous regrouperons deux lignes où le produit_price est égal à 6.

La sortie aura une nouvelle colonne nommée Count. Il est suivi de la colonne Product_name comme indiqué dans ce qui suit:

5. Avoir une déclaration

Fonctions d'agrégation telles que SUM, AVG, MAX, MIN, ETC. ne peut pas être utilisé dans la clause où. Pour les utiliser, vous devez utiliser la déclaration. Ceci est démontré à l'aide du code suivant:

Sortir:

6. Ordre par déclaration

À partir du nom, l'ordre par commande est utilisé pour répertorier les enregistrements dans l'ordre croissant ou descendant. Pour ascendant, utilisez l'ordre seul ou ajoutez le mot-clé «ASC» le long de celui-ci. De même, pour trier les valeurs dans l'ordre décroissant, utilisez le mot-clé «desc» avec l'ordre par.

Pour l'ordre descendant:

Sortir:

De même, pour l'ordre croissant:

Sortir:

7. Déclaration de limite

Limit est une instruction SQL importante qui vous aide à spécifier le nombre d'enregistrements à retourner de la base de données. Par exemple, pour retourner seulement deux lignes de notre base de données, utilisez la commande limite comme suit:

Sortir:

8. Fonctions de données prédéfinies

Les fonctions prédéfinies sont très importantes dans SQL car ils aident les données sur les données à gagner du temps. Ces fonctions sont également appelées fonctions agrégées qui fonctionnent sur un ensemble de lignes au lieu d'une seule ligne et renvoient une seule valeur. Il existe de nombreuses fonctions agrégées différentes. Certains importants sont répertoriés dans ce qui suit:

Count (*) -> Renvoie le nombre de lignes.

Min () -> trouve la valeur minimale dans la colonne.

Max () -> trouve la valeur maximale dans la colonne.

Sum () -> la somme de toutes les valeurs à l'intérieur du nom de la colonne.

Quel est le prix maximum de notre tableau de données?

Sortir:

9. INTER, GAUCHE ET DES JOINS

Il existe de nombreux types de jointures, mais les trois principales sont discutées ici.

Inner Join est la jointure la plus simple et la plus commune qui est utilisée pour créer une nouvelle table qui a des lignes correspondantes dans les colonnes à gauche et à droite.

Sortir:

La jointure de gauche renvoie toutes les lignes dans la colonne de gauche et les lignes correspondantes dans la colonne de droite.

Sortir:

Ici, nous avons rejoint la colonne Product_Profit de Table2 avec la colonne Product_name du tableau 1.

La jointure droite est l'opposé de la jointure de gauche. Il renvoie toutes les lignes présentes dans la colonne de droite et les lignes correspondantes dans la colonne de gauche.

dix. Sous-questionnaires

Dernier point mais non le moindre, nous avons une sous-requête qui est également connue sous le nom de requête intérieure. Il est imbriqué à l'intérieur d'une plus grande requête qui peut se produire à l'intérieur de la clause sélectionnée, à partir ou où.

Une sous-requête ne se limite pas à ces clauses. Il peut également se produire dans d'autres clauses telles que la suppression, l'insertion ou la mise à jour.

Une autre caractéristique importante de la sous-requête est que vous pouvez utiliser les opérateurs logiques comme>, <, or =. A subquery is also executed first before its parent query.

Par exemple:

Sortir:

Conclusion

Dans cet article, nous avons passé en revue les questions importantes SQL pour les scientifiques des données. Ces requêtes sont très courantes et peuvent être utilisées par des professionnels tels que les ingénieurs de données, les analystes de données, etc. La meilleure façon d'apprendre toutes ces requêtes est de créer votre propre base de données, puis de pratiquer autant que vous pouvez. Avec ce guide comme fondation, vous pouvez maintenant en savoir plus sur les requêtes plus avancées pour la science des données.