Fonction médiane de décalage vers le rouge

Fonction médiane de décalage vers le rouge
La médiane est un concept simple et commun dans les statistiques et la probabilité. Les élèves liés à de tels domaines mathématiques connaissent son utilisation et comment le calculer verbalement. C'est simplement la valeur moyenne dans un ensemble de données disposé. Si vous souhaitez trouver la médiane d'un ensemble, organisez simplement les valeurs dans l'ordre croissant ou décroissant et choisissez la valeur moyenne.

Il existe deux scénarios différents lors du calcul de la médiane d'un ensemble de données:

  • Vous avez un nombre impair de valeurs dans notre ensemble de données
  • Vous avez un nombre égal de valeurs dans notre ensemble de données

Dans le cas où vous avez un nombre impair de valeurs, la solution est simple et vous pouvez facilement trouver le nombre central.

Si vous essayez de trouver la médiane pour un nombre uniforme de valeurs, vous devez prendre la moyenne ou la moyenne des deux nombres moyens. En d'autres termes, vous devez ajouter les deux valeurs qui résident au milieu de l'ensemble de données et diviser leur somme par deux.

Dans cet article, nous allons nous concentrer sur la façon dont vous pouvez trouver la médiane d'un ensemble de données dans votre base de données Amazon Redshift. Redshift est un service d'entreposage de données AWS très célèbre pour résoudre des requêtes de base de données complexes et exécuter des travaux d'analyse de Big Data.

Syntaxe pour utiliser la fonction médiane

Si vous travaillez avec Redshift, vous pouvez facilement trouver la médiane d'un ensemble de données en utilisant la syntaxe suivante:

Médian ( )

Ici le expression médiane est simplement l'ensemble de données ou le nom de colonne pour lequel vous souhaitez trouver la médiane.

Exemples d'utilisation de la fonction médiane

Maintenant, prenons un exemple où vous voulez trouver la médiane pour l'âge des élèves de la classe. Tu as une table class_data avec deux colonnes nom et âge dans le cluster de redshift.

Nous avons des données aléatoires et non ordonnées et nous voulons la médiane de ces données. Pour trouver la médiane d'un tel ensemble de données, vous écrirez la requête suivante dans Redshift:

Sélectionner la médiane (âge)
De l'organisation.class_data

La requête est simple et courte, mais elle renvoie la médiane de l'ensemble de données fourni par l'expression d'entrée. La fonction médiane peut simplement être une petite partie de nombreuses requêtes complexes dans l'analyse difficile des données et les emplois statistiques.

Vous avez vu comment trouver la médiane d'une colonne appartenant à une certaine table de données. Passons à un niveau supérieur et voyons comment la fonction médiane peut être utilisée dans des requêtes de décalage vers le rouge complexes.

Cas conditionnel

Ici, vous allez voir comment vous pouvez ajouter une déclaration conditionnelle tout en essayant de trouver une médiane d'un ensemble de données. Supposons que vous travaillez en tant que spécialiste informatique du département des ventes et des revenus de votre organisation. Vous êtes attribué à une tâche par votre haute direction pour trouver la médiane des projets coûtant plus de mille dollars et en ce moment tous les projets sont répertoriés dans une seule table de base de données sans aucune ségrégation de coût.

Vous savez déjà comment trouver la médiane de cette colonne. Mais ici, notre exigence est un peu différente, c'est pourquoi vous utiliserez la requête suivante pour obtenir les résultats souhaités:

Sélectionner la médiane (coût)
de l'organisation.projets
où coûte> 1000

Vous allez obtenir la sortie suivante de cette requête. La médiane que nous avons reçue est calculée après avoir ignoré toutes les valeurs de coût moins que mille.

C'est ainsi que vous pouvez utiliser la fonction médiane avec une limite conditionnelle pour obtenir vos résultats requis dans la base de données Redshift.

Fonction de fenêtre médiane

Dans le cas où vous n'êtes pas familier avec les fonctions de fenêtre, elles sont utilisées lorsque vous ne souhaitez pas appliquer la fonction sur l'ensemble du tableau ou de la colonne de base de données. Les fonctions de fenêtre vous permettent d'appliquer une fonction sur un ensemble ou un groupe spécifique ou une gamme de données. Chaque groupe renverra son résultat pour cette fonction particulière en une seule sortie. Vous pouvez trouver des fonctions de fenêtre correspondantes pour de nombreuses fonctions SQL dans Amazon Redshift.

Supposons que vous alliez démarrer un nouveau projet, mais votre entreprise manque de certains ensembles de compétences pour terminer ce projet. Pour cette raison, vous souhaitez externaliser une partie de la partie du projet pour laquelle vous avez d'autres organisations pour vous fournir des citations pour ce projet d'externalisation. Chaque client a trouvé trois plans d'exécution différents dont vous devez en choisir un.

Maintenant, vous devez suivre un plan modéré pour chaque client. Pour trouver la solution d'abord, vous trouverez la médiane pour chaque client séparément. Nous utiliserons la fonction de fenêtre médiane pour cette tâche.

Sélectionnez Client_Name, Project_Type, Median (Quotation_Value)
sur (partition par client_name)
de l'organisation.clients
Commande par client_name;

Dans la sortie, vous obtiendrez les résultats suivants. La médiane pour chaque client est calculée et affichée séparément en utilisant le SUR clause où nous avons mentionné le Nom du client pour la base de cette partition.

De cette façon, vous pouvez utiliser la fonction de fenêtre médiane à l'aide d'Amazon Redshift. Ce schéma peut également être utilisé pour des ensembles de données plus complexes et beaucoup plus importants.

Conclusion

Si vous souhaitez trouver la médiane d'un ensemble de données en Amazon Redshift, vous pouvez effectuer cette tâche facilement en utilisant la fonction médiane de redshift qui vous permet de calculer la médiane pour une colonne complète ou simplement pour un petit groupe de valeurs en utilisant la fonction de fenêtre médiane. Il y a certains cas et scénarios de fonction médiane discutés dans ce blog pour rendre votre compréhension claire.