La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification.

Présentations similaires


Présentation au sujet: "Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification."— Transcription de la présentation:

1 Statistiques Licence — quatrième séance

2 Analyse de variance simple Un facteur de classification

3 Plan 1.Une étude de Eysenck 1. La question 2. Les données 2.Situation statistique 1. Description 2. Le principe de raisonnement 3.Conditions d’application 4.Calculs 5.Interprétation des résultats 6.Exemple supplémentaire (11.22 p 390)

4 1. Une étude de Eysenck Mémoire et profondeur de traitement

5 1.1 Présentation [Howell, pp 340-]

6 Historique En 1974, Eysenck a mené une étude dans le but de démontrer que la profondeur de traitement a un effet sur la mémorisation involontaire. Des groupes de volontaires sont formés, qui ont a traiter une liste de mots. Le traitement varie selon les groupes, mais la liste est la même. On demande ensuite aux sujets de rappeler le maximum d’items possibles de la liste. Le nombre X de mots correctement rappelés est une mesure de la qualité de la rétention.

7 Historique L’étude comporte 5 groupes : Le groupe « addition » doit compter le nombre de lettres de chaque mot de la liste Le groupe « rime » doit chercher un mot rimant avec chaque mot de la liste On demande au groupe « adjectif » d’accoler un adjectif possible à chaque mot de la liste (il s’agit de substantifs) Au groupe « image » de se représenter mentalement l’objet désigné Au groupe « intentionnel » d’apprendre la liste.

8 Historique Dans l’esprit d’Eysenck, les groupes correspondent à des traitements de plus en plus profonds (signes / sons / sens / image).

9 Question La question qu’on se pose peut s’exprimer la façon suivante : Le traitement a-t-il une influence sur la mémorisation ? Ce qui revient à : Les moyennes de X dans les différents groupes sont-elles différentes ou au contraire toutes égales ?

10 1.2 Les données Formalisation et données brutes

11 Formalisation La situation est la suivante : 1.Nous disposons d’un échantillon de volontaires participants (individus) 2.D’un facteur T « traitement » catégoriel (qualitatif ou nominal) 3.D’une variable dépendante X quantitative 4.Et nous cherchons un lien éventuel entre T et X.

12 Les données brutes additionrimesadjectifimagesintention

13 Les données traitées addrimeadjimageinten n 10 Moyenne Écart type

14 2. La situation statistique Retour et généralisation

15 2.1 Description Quand faire une ANOVA ?

16 Les cas appelant l’anova Dans les situations semblables à celles que nous venons de décrire, on est amené à utiliser une méthode statistique particulière : l’analyse de variance ou ANOVA (ANalysis Of VAriance).

17 Situation propice à l’anova Nous avons deux variables : Une variable indépendante ou facteur catégoriel (échelle finie). Une variable dépendante quantitative. Il est indispensable d’avoir suffisamment de valeur de la VD pour chaque modalité de la VI. Mais les « groupes » ne sont pas nécessairement de la même taille.

18 Remarques Le tableau que nous avons présenté plus haut n’est ni descriptif ni statistique. L’anova est un test fondé sur un modèle, comme la régression linéaire (corrélation fondée sur le modèle linéaire). La conclusion donnée par le test est seulement que les moyennes vraies sont différentes (ie non toutes égales), et ne permet pas de conclure à un quelconque « sens » de variation, même si cela fait sens, comme ici. Il s’agira d’interprétation.

19 2.2 Principes fondamentaux Variations

20 Le principe de base est une étude des variations. On dit « variation » parce qu’il s’agit d’une version légèrement modifiée de la variance… mais l’idée est la même.

21 Variations La variable X n’est pas constante : elle présente des variations. L’anova est fondée sur l’idée qu’une partie de ces variations est attribuable au facteur. Le reste étant dû à d’autres facteurs. Si la variation due au facteur semble élevée, on pourra conclure à un « effet » du facteur sur la VD Dans le cas contraire, on ne pourra pas conclure (et non pas conclure qu’il n’y a pas d’effet !).

22 3. Conditions d’application De l’ANOVA

23 À vérifier systématiquement Pour pouvoir appliquer l’analyse de variance, il est indispensable de vérifier : 1.L’indépendance des observations (dans l’expérience d’Eysenck, les sujets ne passent qu’une des expériences possibles) 2.La normalité de la VD dans les groupes (elle se vérifie par ordinateur, nous la supposerons toujours) 3.L’homogénéité des variances. Vérifiez qu’aucune variance n’est 4 fois supérieure à une autre. (Eysenck a fait l’étude malgré la violation de cette condition).

24 Violation des conditions Cependant, l’anova est relativement robuste, et fonctionne encore si les conditions d’application sont « presque » vérifiées. Des variances très différentes impliqueront une plus grande prudence dans la lecture des résultats Des distributions non normales ne sont pas gênantes si elles sont d’asymétrie de même signe et unimodales.

25 Exemples

26

27

28

29 4. Les calculs Sans commentaire

30 La mesure de variation Tous les calculs se fondent sur un principe identique. Quand il nous faut mesurer la variation de X entre des groupes G1, G2… de taille n1, n2… nous procédons toujours de la manière suivante (encore valable en anova factorielle ou pour mesures répétées).

31 Facteur de correction Dans l’expérience d’Eysenck, on peut calculer le carré de la somme des 50 valeurs (9+8+…+11)²=503² Que l’on divise ensuite par 50 (il y a 50 valeurs), ce qui donne le facteur de correction FC= On calcule (attention à l’erreur dans Howell, p 350) On en déduit le facteur de correction

32 Somme des carrés On calcule la somme des carrés des totaux (par groupes) divisés par les effectifs. Par exemple, pour comparer les groupes d’Eysenck : On calcule alors simplement les « sommes des carrés » (en réalité somme des carrés des écarts à la moyenne) par :

33 Somme des carrés On a ainsi une mesure de la variation entre les groupes (traitement), donc « due au traitement » La variation due au traitement est SC est une mesure de la variation entre les groupes considérés.

34 Les différents SC Les SC se calculent pour les groupes de traitement, mais pas seulement. On peut aussi calculer les SC correspondant à d’autres « regroupements ». Les différents SC ainsi obtenus permettent de terminer l’anova.

35 Les différents SC Par exemple, on peut « regrouper » les valeurs une par une. Le raisonnement précédent s’applique, avec des groupes de taille 1 et des totaux égaux en fait à l’unique valeur considérée. On obtient alors la variation entre toutes les valeurs : la variation totale

36 Répartition des variations La variation totale (entre toutes les valeurs) est due d’une part à l’effet du facteur (variation entre les groupes) et d’autre part à ce qu’on appelle « l ’erreur » car dans le modèle simplifié où seul le facteur intervient, c’est une erreur. Cette variation supplémentaire est la variation « à l’intérieur des groupes », et elle est due à tous les facteurs autre que celui qui nous préoccupe.

37 Répartition des variations Une propriété formidable des SC est qu’elle sont « additives ». Ainsi, quand on additionne la variation due au facteur T et celle due aux autres facteurs, on obtient la variation totale.

38 Répartition des variations Variation totale Variation entre groupes Erreur (variation sujet)

39 Répartition des variations Dans la pratique, on calcule la variation due au facteur, puis la variation totale On en déduit la variation « erreur » par soustraction :

40 Degrés de liberté À chaque SC est associé un degré de liberté. Le degré de liberté est le nombre de groupes moins 1. Les degrés de liberté s’additionnent comme les SC. Dans le cas de l’expérience,

41 Degrés de liberté Dans le cas général, si n est le nombre total d’individus dans l’échantillon et k le nombre de groupes, on a

42 Carrés moyens Enfin, on définit les carrés moyens (qui sont une sorte de variance corrigée) CM. Ils mesurent la variation d’une manière standard et plus adéquate que les SC, mais ne sont pas additifs.

43 Présentation des résultats On a l’habitude de présenter les résultats dans un tableau standard de la forme : sourcedlSCCMF Groupe Erreur Total

44 Présentation des résultats Dans l’expérience de Eysenck, cela donne le tableau suivant (en rouge: obtenu par soustraction. En vert, par division). sourcedlSCCMF Traitement Erreur Total

45 5. Interprétation

46 F La seule valeur mystérieuse est F. Elle sert à tester l’hypothèse de différence entre les moyennes, et elle vaut

47 F Si le facteur n’intervient pas, on devrait avoir autant de variation entre les groupes qu’à l’intérieur des groupes, et donc on devrait avoir F=1 Si au contraire il intervient, on s’attend à avoir un F supérieur à 1 En particulier, un F inférieur à 1 n’est pas significatif.

48 F F suit une loi de Fisher-Snedecor. Les tables statistiques donnent les valeurs à partir desquelles la conclusion d’effet est possible Si l’on a observé un F de valeur supérieure, alors on peut affirmer (avec un certain risque, en général 1%) que les traitements différents donnent des moyennes différentes de la VD On dira alors que le facteur a un effet sur la VD

49 F Dans l’expérience d’Eysenck, la table donne Degré de liberté du numérateur Risque de 1% Degré de liberté du dénominateur

50 F On avait trouvé F=9.08 C’est supérieur à 3.78 On peut donc affirmer au risque de 1% que la profondeur de traitement a un effet sur la mémorisation. Cela ne dit pas que l’effet est positif, mais la forme du lien nous renseigne efficacement. Il faut pour cela représenter les données : on représente la distribution de l’espérance conditionnelle de X connaissant T.

51 Espérance conditionnelle

52 Achtung ! Le fait que F soit significatif implique que l’on peut donner la conclusion voulue Mais la valeur de F ne dit rien sur la grandeur de l’effet du facteur. Pour étudier la grandeur de l’effet, on utilise d’autres calculs, assez simples heureusement, qui consistent à chercher la part de SC due à tel ou tel facteur.

53 Exemple Par exemple, on avait chez Eysenck D’où on tire que la profondeur de traitement explique 44,6% des variations, ce qui n’est pas négligeable.

54 6. Exemple Darley et Latané (1968)

55 L’expérience Darley et Latané ont relevé la vitesse à laquelle les gens appellent à l’aide pour un inconnu quand ils pensent être seuls (groupe 1, n=13), ou qu’une autre personne (groupe 2, n=25) ou quatre personnes (groupe 3, n=13) les écoutent. La VD est la vitesse d’appel, d’autant plus grande que l’appel arrive peu de temps après l’événement nécessitant une aide extérieure.

56 Situation Nous avons donc un échantillon de , soit 51 individus (personnes) Sur lequel on étudie le facteur catégoriel « groupe » G Et son lien avec la VD quantitative « vitesse d’appel », X Une anova pourrait montrer que les moyennes de X varient d’un groupe à l’autre, et donc que G a un effet sur X

57 Données groupe123 n Moyenne X TOTAL

58 Données On peut déduire de ces données le facteur de correction FC=25.33 (somme totale au carré divisée par 51) Puis, du coup, le SC(groupe), variation due au nombre d’auditeurs supposés. En effet :

59 Données On sait d’autre part que les dl et les SC se répartissent de la manière suivante : Total : dl=50 SC= =3.395 Groupe : dl=2 SC=.851 Erreur : dl=48 SC=48x.053=2.544

60 Tableau On en déduit facilement le tableau sourcedlSCCMF Groupe Erreur Total

61 Conclusion La table de F donne : En réalité, 50… la table ne donne pas toutes les valeurs possibles

62 Conclusion La valeur trouvée est supérieure à celle de la table On peut affirmer au risque de 1% que le nombre supposé d’auditeurs influence la vitesse d’appel au secours. On peut également préciser que le nombre d’auditeurs supposé explique 25% des variations de vitesse observées. En effet, SC(gr)/SC(tot)=.25

63 Représentation


Télécharger ppt "Statistiques Licence — quatrième séance. Analyse de variance simple Un facteur de classification."

Présentations similaires


Annonces Google