Indépendance & Khi-deux ² Mots clés : Indépendance, écart à l’indépendance, tableau observé, tableau calculé, effectifs d’indépendance, distance entre tableaux, contributions absolues, contributions relatives, Khi-deux, ddl par ligne, ddl par colonne, ddl du ², Phi-deux, V de Kramer, coefficient de contingence.
Généralités : Parfois nous nous posons des questions du genre : Est-ce que le niveau d’études atteint dépend du milieu social ? Est-ce que la mémorisation des mots d’un texte dépend de la longueur des mots ? Est-ce que l’impact d’une campagne publicitaire dépend du média choisi ? Est-ce que le cours du pétrole dépend de celui de l’euro ? Est-ce que le cours de l’euro dépend de celui du pétrole ? Est-ce que le loisir préféré des étudiants dépend de leur sexe ? Toutes ces questions mettent en jeu deux variables. Ces deux variables sont observées sur la même population.
Généralités : Exemple : Considérons une population d’étudiants du DEUG SHS et associons à chaque étudiant un couple d’observations (loisir préféré ; sexe). Sur cette (même) population on observe deux variables : Variable X : loisir préféré : nominale à 3 modalités : Cinéma, Sport et Musique. Variable Y : sexe : nominale à 2 modalités : Garçon, et Fille. On obtient une série double (une série de 12 couples) X M S C C S S M C S M S S Y G G F F F F G F F G F F
Distribution conjointe : Tableau de contingence (tri croisé) On a organisé cette série double en tableaux de contingence donnant la distribution conjointe (des effectifs et des fréquences) du couple (X, Y). A partir du tableau de contingence on a déduit les distributions marginales.
Tableau de contingence : tentatives de reconstruction ! On a vu aussi qu’à partir des distributions marginales on peut obtenir plusieurs tableaux de contingence. Ceci soulève le problème de la “liaison entre les deux variables”
Tableau de contingence :Comparaison de deux tableaux Comparons le tableau de contingence observé avec l’un des tableaux reconstitué par tâtonnement.
Comparons ces deux tableaux en analysant les distributions conditionnelles (les loisirs préférés selon le sexe)
Comparaison des distributions conditionnelles On remarque que pour l’un des tableaux les distributions conditionnelles des fréquences sont les mêmes et en plus elles sont identiques à la distribution marginale. Définition : Deux variables sont indépendantes si leurs distributions conditionnelles des fréquences sont les mêmes
Indépendance et effectifs : On démontre que cette définition de l’indépendance se traduit par la relation suivante entre effectifs : effectif conjoint = quotient du produit des effectifs marginaux par l’effectif total. Exemple : 1=(4x3)/12 ; 4=(8x6)/12 On voit immédiatement que X et Y ne sont pas indépendantes dans le tableau de droite car 5=(8x6)/12
Ecart à l’indépendance : Dans notre exemple (tableau de droite) les variables ne sont pas indépendantes. On se propose de mettre en oeuvre un indice qui mesure l’écart à l’indépendance en calculant la distance entre les deux tableaux : Le tableau observé : obtenu à partir de la série double Le tableau calculé : obtenu en calculant les effectifs (d’indépendance) correspondant au cas où l’on suppose que les deux variables sont indépendantes (modèle d’indépendance).
Calcul du khi-deux: On dresse le tableau des écarts en retranchant les effectifs calculés aux effectifs observés. Tableau calculé Tableau observé
Calcul du khi-deux: On remarque que les totaux par ligne et par colonne de ces écarts sont nuls. Ceci est vrai pour tout tableau calculé. Pourquoi ?
Calcul du khi-deux: On calcule le carré de ces écarts.
Calcul du khi-deux: On calcule les contributions absolues : c’est le rapport des carrés des écarts par les effectifs calculés. Tableau des carrés des écarts Tableau calculé
Calcul du khi-deux: Le khi-deux est la somme de toutes ces contributions absolues. Tableau des carrés des écarts Tableau calculé
Calcul du khi-deux: Le pourcentage des contributions absolues par rapport au khi-deux donne les contributions relatives.
Le Phi-deux : ² Remarque 1 : Le Khi-deux dépend du nombre total (effectif total n) des observations. La même technique appliquée aux fréquences permet d’éliminer cet “effet de n”. On obtient le Phi-deux (²). Il existe une relation simple entre le Khi-deux et le Phi-deux : le Phi-deux est égal au quotient du Khi-deux par n. Dans l’exemple on a : ²=8,25/12=0,6875
Degré de liberté : ddl On a vu qu’à partir des distributions marginales on peut obtenir plusieurs tableaux de contingence mais pour chaque ligne et chaque colonne la dernière “case” est imposée par la contrainte du total (marginal) Définition : On appelle degré de liberté par ligne le nombre de colonnes (de modalités) diminué de 1. On note ddll. Exemple 3-1=2 On appelle degré de liberté par colonne le nombre de lignes (de modalités) diminué de 1. On note ddlc. Exemple 2-1=1 On appelle degré de liberté du khi-deux le produit ddll x ddlc. On note ddl. Exemple (3-1)x( 2-1)=2x1=2
Le V de Kramer : V Remarque 2 : Le Phi-deux ne dépend plus du nombre total (effectif total n) des observations, mais dépend encore de la dimension du tableau de contingence (nombre de lignes et de colonnes). Pour éliminer cet “effet dimension” on calcule le V de Kramer en calculant la racine carrée du rapport du ² par le plus petit des deux degrés de liberté (ddll, ddlc). Dans l’exemple on a : V=racine carrée de (Dans l’exemple on a : V=racine carrée de (²/1) = racine carrée de ( 0,6875)=0,829 On montre que : 0 V 1