Pandas Résumé Statistiques

Pandas Résumé Statistiques
«Pandas» est une excellente langue pour effectuer l'analyse des données en raison de son grand écosystème de packages Python centrés sur les données. Cela facilite l'analyse et l'importation des deux facteurs. Le Pandas DataFrame fournit également des moyens de résumer les valeurs numériques qui sont présentes dans le dataframe. Notez qu'il est important d'obtenir le résumé des statistiques dans n'importe quel domaine pour une analyse supplémentaire des performances des données selon les statistiques. Les calculs de statistiques incluent la moyenne arithmétique comme les emplacements ou les tendances qui relancent, l'écart type, l'écart moyen en fonction de la forme des données et les mesures évaluant en fonction de la dataframe travaillant sur. Nous discuterons de toutes les méthodes du calcul des statistiques sommaires dans Pandas. Nous utiliserons l'outil «Spyder» pour l'implémentation du code, qui est un environnement «Python» adapté à la langue.

Syntaxe:

«Statistiques = DF.décrire (valeur) "

La syntaxe précédente est utilisée pour calculer les statistiques sommaires dans les pandas. Le «DF» dans la syntaxe représente le «DataFrame». Tandis que le «décrire» est utilisé dans la ligne spécifique ou la colonne définissant le «DF». La «valeur» est la valeur de la ligne ou la colonne dans laquelle la fonction doit être effectuée qui a été affectée aux statistiques. La fonction ".décrire () "donne les résultats de sortie comme le grand format affiché dans le dataframe. La méthode exécute les statistiques de résumé dans le dataframe des colonnes numériques incluses. Les méthodes incluent la «moyenne», les «valeurs uniques», «MIN», «Max» et «Count».

Ici, les moyens suivants sont indiqués dans lesquels les statistiques sommaires sur les pandas peuvent être faites. Nous allons mettre en œuvre chacun d'eux dans l'exemple pour une meilleure compréhension de la méthode:

  • Résumé des calculs de statistiques dans les pandas pour toutes les variables numériques
  • Calcul des statistiques sommaires dans les pandas regroupés par une variable
  • Calculs de statistiques sommaires dans les pandas pour toutes les variables de chaîne

Création d'un dataframe pour l'exemple d'exécution des calculs dans les statistiques sommaires de Pandas

Tout d'abord, ouvrez l'outil «Spyder» pour implémenter le code. Ensuite, importez la bibliothèque Panadas comme «PD» et la bibliothèque Numpy comme «NP». Le Numpy est utilisé pour le calcul numérique. Commencez à créer le DataFrame, qui se compose de l'équipe comme «N» et «W» avec leurs scores comme «44», «41», «42», «43», «45», «47», «48», et "50". Les passes décisives sont «2», «NP. Nan "," 4 "," 5 "," 6 "," 7 "," 8 "et" 9 ". La valeur des rebonds sera «18», «20», «17», «16», «11», «12», «29», «NP.nan "et" 25 ". Le «NP.Nan ”est le NP du« Numpy »et Nan représente« pas une valeur », ce qui signifie qu'il n'y a pas de valeur attribuée là-bas. Ensuite, donnez à la condition «imprimer» le dataframe. La fonction «print ()» fonctionne pour imprimer les résultats du code et écrire les résultats en fonction du message.

La sortie affiche le dataframe créé en conséquence aux valeurs attribuées dans le code. Il y a les «quatre» colonnes: l'équipe, les scores, les passes décisives et les rebonds.

Exemple # 01: Calculs de statistiques sommaires dans les pandas pour toutes les variables numériques

Dans cet exemple, nous apprendrons à calculer les statistiques sommaires dans les pandas pour toutes les variables numériques. Le DataFrame se compose de l'équipe comme «O» et «V»; Ils ont marqué «45», «88», «25», «55», «24», «78», «87», «40» et «20». Les passes décisives sont «2», «11», «1», «3», «6», «4», «2», «10» et «np.nan ». Les rebonds sont «31», «32», «33», «34», «35», «37», «38», «null» et «39». La fonction DataFrame «décrire» calculera la variable numérique dans les statistiques de résumé de DataFrame of Pandas.

La sortie affiche les colonnes des colonnes numériques, qui sont des «scores», des «aides» et des «rebonds». Le nombre fait le travail de compter les valeurs «non nuls». La moyenne concerne les valeurs «moyennes», MST pour le calcul des valeurs d'écart type, le MIN représente la valeur MIN qui signifie le calcul des valeurs minimales et le maximum du calcul de la valeur maximale, les 25%, 50%, et 75% sont destinés aux valeurs.

Exemple n ° 02: Calcul des statistiques sommaires dans les pandas pour le groupe par une variable:

Nous exécuterons le calcul du groupe par une variable dans le dataframe des statistiques sommaires dans les pandas dans cet exemple. Le DataFrame se compose des deux équipes comme «M» et «Q» avec leurs scores comme «59», «58», «56», «50», «51», «53», «54» et «55 ". Les assises valent les valeurs comme «null», «7», «17», «18», «5», «3», «6», «21» et «15». Les rebonds valent «81», «82», «60», «30», «24», «97», «56», «null» et «71». La fonction Groupby avec l'équipe des revenus est la condition adoptée avec le calcul «DOT» «Mean ()» nous amenant aux résultats des statistiques de résumé des pandas. Ici, la moyenne sera calculée avec le «Numpy», pour calculer le tableau Numpy en cours d'exécution.

La sortie affiche le calcul des statistiques sommaires en pandas. Les équipes «M» et «Q» montrant avec les calculs car le sommet a les valeurs qui se produisent le plus souvent dans le «DF», le «Freq» est le nombre de fréquences de la valeur la plus accessible dans le «DF» et le «Unique» est utilisé pour les valeurs les plus uniques de DataFrame. C'est les opérations de fond effectuées pour le calcul du groupe pour toutes les variables en statistiques sommaires des pandas.

Exemple # 03: Calculs de statistiques sommaires dans Pandas pour toutes les variables de chaîne

Dans cet exemple, nous mettrons en œuvre le calcul de toutes les variables de chaîne dans les pandas pour les statistiques sommaires. Le DataFrame a les équipes comme «S» et «D». Les scores des équipes sont «59», «53», «96», «80», «85», «62», «27», «22» et «21». Les valeurs assistées comme «null», «8», «27», «50», «15», «31», «61», «11» et «17», et les rebonds sont constitués des valeurs «70 »,« 84 »,« 30 »,« 20 »,« 94 »,« 95 »,« 90 »,« null »et« 91 »respectivement. La condition sera évanouie pour le calcul effectué dans le dataframe spécifiant la fonction «décrire» et dans le support «inclure» égal à «l'objet». Cela nous fournira le cadre de données calculé de toutes les variables de chaîne dans les statistiques sommaires des pandas.

Les produits sont apparus comme la valeur médiane des colonnes des «points», des «rebonds» et des variables de cordes «assises» qui ont été regroupées par la variable «équipe». La sortie est comme «compter, unique, haut, freq» leurs valeurs sont comme «9», «2», «d» et «5».

Conclusion

Les pandas sont rapides et faciles à utiliser dans la bibliothèque. Les statistiques de résumé des pandas sont une fonction si utile et utile que nous avons utilisée dans les pandas. Il a trouvé différentes méthodes pour différentes situations. Nous avons exécuté toutes les façons dont les statistiques de résumé des pandas peuvent être calculées dans le dataframe. L'exemple précédent a fourni une énorme explication sur la façon d'effectuer chacun d'eux. Nous avons terminé le calcul du résumé des statistiques dans les pandas pour la variable de chaîne présente dans le dataframe, le calcul des statistiques dans les pandas pour le groupe d'une variable disponible dans le dataframe, et enfin, nous avons également effectué l'exemple du calcul des statistiques de résumé de tous les valeurs numériques dans le dataframe. Les calculs de statistiques sommaires jouent un grand rôle dans les industries et les entreprises.