Par conséquent, un test du chi carré est une alternative exceptionnelle pour nous aider à mieux comprendre et à évaluer le lien entre les deux variables catégorielles. Les deux variables doivent provenir d'une population similaire et être catégorielles; Ces variables sont ensuite classées comme oui / non, mâle / femelle, rouge / vert, et ainsi de suite.
Lors de l'évaluation des comptes et des comptes de réponses catégorisées parmi plusieurs groupes indépendants, le test du chi carré est bénéfique."
Test du chi carré dans R
Une fois le test terminé, le résultat est une valeur «p», que vous utilisez pour déterminer si votre hypothèse d'indépendance est correcte ou non. Le nombre «P» représente simplement la probabilité que vos variables soient indépendantes.
Si la valeur «p» est supérieure à 0.05, la probabilité d'indépendance est assez forte et adéquate pour déterminer que les facteurs ne sont pas liés. D'un autre côté, rien de moins de 0.05, en revanche, indique une chance négligeable d'indépendance, et il existe un lien élevé entre les facteurs.
Vous pourriez vous demander pourquoi 0.05 et pas toute autre quantité. Ce chiffre a été conçu par des chercheurs statistiques et est largement adopté simplement parce que 0.05 est généralement utilisé comme un endroit déterminant.
Pour résumer ce qui a été dit ci-dessus:
H0: Les variables ne sont pas associées les unes aux autres, et il n'y a pas de corrélation entre eux.
H1: les variables sont associées les unes aux autres.
La programmation R nous fournit un «Chisq.test()" fonction pour effectuer des tests du chi carré et évaluer s'il existe une relation entre les deux variables des données fournies.
Les tests du chi carré fonctionnent en R en utilisant la syntaxe suivante:
# chisq.test (v1, v2)
Cet article vous apprendra à exécuter et à comprendre le test du chi carré dans R avec les exemples fournis ci-dessous.
Exemple 1
Nous commençons la mise en œuvre du test du chi carré avec l'exemple le plus simple et le plus basique.
Dans la première étape, nous avons utilisé la fonction «rm ()» pour supprimer tous les objets inutiles au cas où ils existent déjà. Maintenant, le code principal commence. Nous avons créé deux variables d'objet; «X_actual» et «x_predict.«Attribuez un« x_actual »une liste de valeurs réelles en utilisant la fonction« C () »dans R. Tout en attribuant «x_predict» une liste de valeurs prévues. Appelez maintenant le «Chisq.TEST () ”Fonction et passant les valeurs réelles et prédites comme paramètre. En utilisant l'objet «Chi» stocké, les valeurs du test du chi carré. La déclaration «print ()» imprimera simplement le résultat du test du chi carré.
Avant d'interpréter le résultat du test du chi carré, laissez-nous vous présenter certaines terminologies qui seront utilisées dans le résultat du test du chi carré.
"DF" sont les valeurs qui sont libres de changer par rapport aux variables fournies.
"X-Squared" est la variable arbitraire dans le test du chi carré qui illustre la moyenne des variables observées vs. Compte de fréquence prévu.
«Vale P» exprime la perspective de l'échantillon.
Si la valeur p est plus petite que la valeur de signification, qui est 0.05 En règle générale, nous pouvons interpréter le test du chi carré. Si c'est le cas, nous éliminons l'hypothèse nulle et déclarons qu'il existe une relation entre les deux variables. En d'autres termes, une variable peut élucider l'autre.
La valeur p de notre scénario est plus grande que la valeur de signification déclarée (0.05). En fin de compte, nous acceptons l'hypothèse nulle et supposons que les variables sont autonomes les uns des autres.
Exemple n ° 2
Dans cet exemple, nous utiliserons un ensemble de données intégré fourni par R Base et effectuerons un test du chi carré dessus. L'ensemble de données que nous allons utiliser est «Chicksweight."Il nous fournit des données sur le poids des poussins en fonction de leur alimentation et de la période après la naissance.
Nous effectuons ce test pour voir s'il existe une relation entre le régime des poussins et le poids du poussin. Fonction intégrée de R «Chisq.TEST () »vous fournit élégamment tout ce que vous devez savoir sur l'indépendance des variables dans un ensemble de données pour déterminer s'ils sont associés ou non.
Nous commencerons par importer l'ensemble de données dans R.
Le résultat des tests du chi carré dans l'image ci-dessous montre que la valeur «valeur p» de ce test est supérieure à la «valeur p» significative qui est 0.05, qui indique que le poids des poussins est indépendant de leur alimentation. Même si cela peut sembler étrange au début, car le poids de chaque poussin doit être déterminé par ce que le poussin consomme. Cependant, ce n'est peut-être pas le cas dans cette illustration.
Maintenant, nous comparerons le poids à une autre variable, qui est «le temps."Cette variable calcule la durée depuis la naissance du poussin depuis la naissance.
Dans ce segment de code, nous venons de remplacer la colonne «Diet» par la colonne «Time», car nous comparons maintenant les poussins qui éclosent le temps à leur poids pour le test du chi carré.
Dans le test du chi carré qui en résulte, la valeur de «p» peut être vue, qui est très petite. Cela signifie qu'il existe une forte association entre le moment où les poussins sont nés et le poids des poussins. Cela signifie qu'ils commencent à prendre du poids en vieillissant.
Conclusion
Notre article d'aujourd'hui tourne autour du sujet du test du chi carré dans R. Dans la section Introduction, nous avons expliqué le test du chi carré, pourquoi il est effectué et comment il est effectué. Nous avons discuté de tous les simples concepts inclus dans ce sujet. Après cela, nous avons effectué 2 exemples de codage pratiques dans RStudio dans Ubuntu 20.04. Notre premier exemple vous aidera à effectuer un test du chi carré sur les variables définies par l'utilisateur, tandis que le 2nd L'exemple est exécuté à l'aide du DataFrame intégré de la base R. Nous prévoyons que cette écriture vous facilitera en effectuant le test du chi carré dans la programmation R.