La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives.

Présentations similaires


Présentation au sujet: "INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives."— Transcription de la présentation:

1

2 INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives

3 Introduction  Rappel  Variables qualitatives  Exemple  sexe (homme, femme)  secteur d’études (lettres, sciences)  Etudier la relation entre les deux  Se base sur les effectifs

4 Données brutes NomPrénomSexeSecteur ABERLENCEveFLettres ADAMStéphaneHSciences ADEMARichardHLettres ADJAOUTENadiaFLettres ALEXANDREMichelHSciences ALLARDNathalieFLettres ANCEAUXAudreyFLettres............ variables individus

5 Effectifs observés FemmesHommes Lettres14 1195 394 Sciences1 8713 142 modalités variable 2 modalités variable 1  Tri croisé  on répartit les effectifs en fonction des combinaisons de modalités Source : Université de Provence, 2002-2003

6 Tri croisé FemmesHommesTotal Lettres14 1195 39419 513 Sciences1 8713 1425 013 Total15 9908 53624 526  Fréquences marginales  totaux des lignes et des colonnes (marges)

7 Expression en pourcentages FemmesHommesTotal Lettres57,6%22,0%79,6% Sciences7,6%12,8%20,4% Total65,2%34,8%100,0% FemmesHommesTotal Lettres72,4%27,6%100,0% Sciences37,3%62,7%100,0% Total65,2%34,8%100,0% FemmesHommesTotal Lettres88,3%63,2%79,6% Sciences11,7%36,8%20,4% Total100,0%

8 Effectifs attendus FemmesHommesTotal Lettresx ?19 513 Sciences5 013 Total15 9908 53624 526 FemmesHommesTotal Lettres 12 722 19 513 Sciences5 013 Total15 9908 53624 526

9 Effectifs attendus FemmesHommesTotal Lettres 12 722 19 513 Sciences5 013 Total15 9908 53624 526 FemmesHommesTotal Lettres 6 791 19 513 Sciences5 013 Total15 9908 53624 526 FemmesHommesTotal Lettres19 513 Sciences 3 268 5 013 Total15 9908 53624 526 FemmesHommesTotal Lettres19 513 Sciences 1 745 5 013 Total15 9908 53624 526

10 Effectifs attendus FemmesHommesTotal Lettres 12 722 6 791 19 513 Sciences 3 268 1 745 5 013 Total15 9908 53624 526

11 Comparaison FemmesHommesTotal Lettres14 1195 39419 513 Sciences1 8713 1425 013 Total15 9908 53624 526 FemmesHommesTotal Lettres 12 722 6 791 19 513 Sciences 3 268 1 745 5 013 Total15 9908 53624 526 Observés Attendus

12 Ecarts FemmesHommes Lettres +1 397 -1 397 Sciences -1 397 +1 397 FemmesHommesTotal Lettres14 1195 39419 513 Sciences1 8713 1425 013 Total15 9908 53624 526 FemmesHommesTotal Lettres 12 722 6 791 19 513 Sciences 3 268 1 745 5 013 Total15 9908 53624 526 Observés Attendus

13 Ecarts carrés FemmesHommes Lettres +1 397 -1 397 Sciences -1 397 +1 397 Ecarts FemmesHommes Lettres 1 952 395 Sciences 1 952 395

14 Ecarts carrés relatifs FemmesHommes Lettres153,5287,5 Sciences597,4 1 119,0 FemmesHommesTotal Lettres 12 722 6 791 19 513 Sciences 3 268 1 745 5 013 Total15 9908 53624 526 Attendus FemmesHommes Lettres 1 952 395 Sciences 1 952 395 Ecarts carrés

15 2222 FemmesHommes Lettres153,5287,5 Sciences597,4 1 119,0  2 = 2157,4  Chi-deux Somme

16 Formule

17 Test d’hypothèse  Statistique inférentielle  Le  2 permet de tester l’hypothèse d’indépendance des variables :  les données observées résultent simplement de fluctuations dues au hasard  On peut mesurer la probabilité p de se tromper en rejetant l’indépendance

18 Tableur Pratiquement aucune chance de se tromper en rejetant l’indépendance : il y a bien un effet significatif

19 Tableur 30% de chances de se tromper en rejetant l’indépendance : pas d’effet significatif

20 Seuils de rejet  Seuils de rejet  p < 0,05 en sciences humaines  p < 0,01 si l’on veut être très strict

21 Attention  Ne jamais employer le test de chi-deux si certains des effectifs attendus sont  5.

22 Problème   2 dépend de l’effectif  difficile d’apprécier la valeur du  2 dans l’absolu  on peut normaliser le coefficient pour le rendre indépendant de la taille

23   2 = 2157,4  Phi  varie entre 0 et +1  analogue au coefficient de corrélation des variables quantitatives  = = = = 0,30

24 Application linguistique  Force d’association entre mots  Deux mots sont associés s’ils apparaissent souvent ensemble dans des pages Web  Ex. :  Chirac + Jospin  Chirac + Corona  etc.

25 Exemple  Google (réglé sur tout le Web)  On va chercher  A = Nombre d’occurrences Chirac  B = Nombre d’occurrences Jospin  C = nombre de cooccurrences Chirac Jospin  N = Nombre total de pages

26 A B CN

27

28

29 Formule directe  Une formule un peu compliquée, mais qui évite les calculs intermédiaires :

30 Classement  Par  décroissant :

31

32 Termes à retenir   Tris croisé   Fréquences marginales   2  Chi-deux (  2 )   Hypothèse d’indépendance   Seuil de rejet    Phi (  )

33


Télécharger ppt "INF L14 Initiation aux statistiques INF L14 Initiation aux statistiques 8 – Liaison entre variables qualitatives."

Présentations similaires


Annonces Google