INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives
Introduction Rappel Variables qualitatives Exemple sexe (homme, femme) secteur d’études (lettres, sciences) Etudier la relation entre les deux Se base sur les effectifs
Données brutes NomPrénomSexeSecteur ABERLENCEveFLettres ADAMStéphaneHSciences ADEMARichardHLettres ADJAOUTENadiaFLettres ALEXANDREMichelHSciences ALLARDNathalieFLettres ANCEAUXAudreyFLettres variables individus
Effectifs observés FemmesHommes Lettres Sciences modalités variable 2 modalités variable 1 Tri croisé on répartit les effectifs en fonction des combinaisons de modalités Source : Université de Provence,
Tri croisé FemmesHommesTotal Lettres Sciences Total Fréquences marginales totaux des lignes et des colonnes (marges)
Expression en pourcentages FemmesHommesTotal Lettres57,6%22,0%79,6% Sciences7,6%12,8%20,4% Total65,2%34,8%100,0% FemmesHommesTotal Lettres72,4%27,6%100,0% Sciences37,3%62,7%100,0% Total65,2%34,8%100,0% FemmesHommesTotal Lettres88,3%63,2%79,6% Sciences11,7%36,8%20,4% Total100,0%
Effectifs attendus FemmesHommesTotal Lettresx ? Sciences5 013 Total FemmesHommesTotal Lettres Sciences5 013 Total
Effectifs attendus FemmesHommesTotal Lettres Sciences5 013 Total FemmesHommesTotal Lettres Sciences5 013 Total FemmesHommesTotal Lettres Sciences Total FemmesHommesTotal Lettres Sciences Total
Effectifs attendus FemmesHommesTotal Lettres Sciences Total
Comparaison FemmesHommesTotal Lettres Sciences Total FemmesHommesTotal Lettres Sciences Total Observés Attendus
Ecarts FemmesHommes Lettres Sciences FemmesHommesTotal Lettres Sciences Total FemmesHommesTotal Lettres Sciences Total Observés Attendus
Ecarts carrés FemmesHommes Lettres Sciences Ecarts FemmesHommes Lettres Sciences
Ecarts carrés relatifs FemmesHommes Lettres153,5287,5 Sciences597, ,0 FemmesHommesTotal Lettres Sciences Total Attendus FemmesHommes Lettres Sciences Ecarts carrés
2222 FemmesHommes Lettres153,5287,5 Sciences597, ,0 2 = 2157,4 Chi-deux Somme
Formule
Test d’hypothèse Statistique inférentielle Le 2 permet de tester l’hypothèse d’indépendance des variables : les données observées résultent simplement de fluctuations dues au hasard On peut mesurer la probabilité p de se tromper en rejetant l’indépendance
Tableur Pratiquement aucune chance de se tromper en rejetant l’indépendance : il y a bien un effet significatif
Tableur 30% de chances de se tromper en rejetant l’indépendance : pas d’effet significatif
Seuils de rejet Seuils de rejet p < 0,05 en sciences humaines p < 0,01 si l’on veut être très strict
Attention Ne jamais employer le test de chi-deux si certains des effectifs attendus sont 5.
Problème 2 dépend de l’effectif difficile d’apprécier la valeur du 2 dans l’absolu on peut normaliser le coefficient pour le rendre indépendant de la taille
2 = 2157,4 Phi varie entre 0 et +1 analogue au coefficient de corrélation des variables quantitatives = = = = 0,30
Application linguistique Force d’association entre mots Deux mots sont associés s’ils apparaissent souvent ensemble dans des pages Web Ex. : Chirac + Jospin Chirac + Corona etc.
Exemple Google (réglé sur tout le Web) On va chercher A = Nombre d’occurrences Chirac B = Nombre d’occurrences Jospin C = nombre de cooccurrences Chirac Jospin N = Nombre total de pages
A B CN
Formule directe Une formule un peu compliquée, mais qui évite les calculs intermédiaires :
Classement Par décroissant :
Termes à retenir Tris croisé Fréquences marginales 2 Chi-deux ( 2 ) Hypothèse d’indépendance Seuil de rejet Phi ( )