INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives.

Présentations similaires


Présentation au sujet: "INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives."— Transcription de la présentation:

1

2 INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives

3 Introduction  Rappel  Variables qualitatives  Exemple  sexe (homme, femme)  secteur d’études (lettres, sciences)  Etudier la relation entre les deux  Se base sur les effectifs

4 Données brutes NomPrénomSexeSecteur ABERLENCEveFLettres ADAMStéphaneHSciences ADEMARichardHLettres ADJAOUTENadiaFLettres ALEXANDREMichelHSciences ALLARDNathalieFLettres ANCEAUXAudreyFLettres............ variables individus

5 Effectifs observés FemmesHommes Lettres14 1195 394 Sciences1 8713 142 modalités variable 2 modalités variable 1  Tri croisé  on répartit les effectifs en fonction des combinaisons de modalités Source : Université de Provence, 2002-2003

6 Tri croisé FemmesHommesTotal Lettres14 1195 39419 513 Sciences1 8713 1425 013 Total15 9908 53624 526  Fréquences marginales  totaux des lignes et des colonnes (marges)

7 Expression en pourcentages FemmesHommesTotal Lettres57,6%22,0%79,6% Sciences7,6%12,8%20,4% Total65,2%34,8%100,0% FemmesHommesTotal Lettres72,4%27,6%100,0% Sciences37,3%62,7%100,0% Total65,2%34,8%100,0% FemmesHommesTotal Lettres88,3%63,2%79,6% Sciences11,7%36,8%20,4% Total100,0%

8 Effectifs attendus FemmesHommesTotal Lettresx ?19 513 Sciences5 013 Total15 9908 53624 526 FemmesHommesTotal Lettres 12 722 19 513 Sciences5 013 Total15 9908 53624 526

9 Effectifs attendus FemmesHommesTotal Lettres 12 722 19 513 Sciences5 013 Total15 9908 53624 526 FemmesHommesTotal Lettres 6 791 19 513 Sciences5 013 Total15 9908 53624 526 FemmesHommesTotal Lettres19 513 Sciences 3 268 5 013 Total15 9908 53624 526 FemmesHommesTotal Lettres19 513 Sciences 1 745 5 013 Total15 9908 53624 526

10 Effectifs attendus FemmesHommesTotal Lettres 12 722 6 791 19 513 Sciences 3 268 1 745 5 013 Total15 9908 53624 526

11 Comparaison FemmesHommesTotal Lettres14 1195 39419 513 Sciences1 8713 1425 013 Total15 9908 53624 526 FemmesHommesTotal Lettres 12 722 6 791 19 513 Sciences 3 268 1 745 5 013 Total15 9908 53624 526 Observés Attendus

12 Ecarts FemmesHommes Lettres +1 397 -1 397 Sciences -1 397 +1 397 FemmesHommesTotal Lettres14 1195 39419 513 Sciences1 8713 1425 013 Total15 9908 53624 526 FemmesHommesTotal Lettres 12 722 6 791 19 513 Sciences 3 268 1 745 5 013 Total15 9908 53624 526 Observés Attendus

13 Ecarts carrés FemmesHommes Lettres +1 397 -1 397 Sciences -1 397 +1 397 Ecarts FemmesHommes Lettres 1 952 395 Sciences 1 952 395

14 Ecarts carrés relatifs FemmesHommes Lettres153,5287,5 Sciences597,4 1 119,0 FemmesHommesTotal Lettres 12 722 6 791 19 513 Sciences 3 268 1 745 5 013 Total15 9908 53624 526 Attendus FemmesHommes Lettres 1 952 395 Sciences 1 952 395 Ecarts carrés

15 2222 FemmesHommes Lettres153,5287,5 Sciences597,4 1 119,0  2 = 2157,4  Chi-deux Somme

16 Formule

17 Test d’hypothèse  Statistique inférentielle  Le  2 permet de tester l’hypothèse d’indépendance des variables :  les données observées résultent simplement de fluctuations dues au hasard  On peut mesurer la probabilité p de se tromper en rejetant l’indépendance

18 Tableur Pratiquement aucune chance de se tromper en rejetant l’indépendance : il y a bien un effet significatif

19 Tableur 30% de chances de se tromper en rejetant l’indépendance : pas d’effet significatif

20 Seuils de rejet  Seuils de rejet  p < 0,05 en sciences humaines  p < 0,01 si l’on veut être très strict

21 Attention  Ne jamais employer le test de chi-deux si certains des effectifs attendus sont  5.

22 Problème   2 dépend de l’effectif  difficile d’apprécier la valeur du  2 dans l’absolu  on peut normaliser le coefficient pour le rendre indépendant de la taille

23   2 = 2157,4  Phi  varie entre 0 et +1  analogue au coefficient de corrélation des variables quantitatives  = = = = 0,30

24 Application linguistique  Force d’association entre mots  Deux mots sont associés s’ils apparaissent souvent ensemble dans des pages Web  Ex. :  Chirac + Jospin  Chirac + Corona  etc.

25 Exemple  Google (réglé sur tout le Web)  On va chercher  A = Nombre d’occurrences Chirac  B = Nombre d’occurrences Jospin  C = nombre de cooccurrences Chirac Jospin  N = Nombre total de pages

26 A B CN

27

28

29 Formule directe  Une formule un peu compliquée, mais qui évite les calculs intermédiaires :

30 Classement  Par  décroissant :

31

32 Termes à retenir   Tris croisé   Fréquences marginales   2  Chi-deux (  2 )   Hypothèse d’indépendance   Seuil de rejet    Phi (  )

33


Télécharger ppt "INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives."
Annonces Google