Licence — quatrième séance

Slides:



Advertisements
Présentations similaires
Corrélation Position du problème Définition covariance (X,Y) r =
Advertisements

Statistique, licence Sixième séance.
GESTION DE PORTEFEUILLE chapitre n° 7
C1 Bio-statistiques F. KOHLER
Comparaison de deux moyennes observées
Inférence statistique
Comparaison d'une distribution observée à une distribution théorique
Comparaison de plusieurs moyennes observées
Tests non paramétriques
Les TESTS STATISTIQUES
Les TESTS STATISTIQUES
Régression -corrélation
1 Analyse de la variance multivariée Michel Tenenhaus.
Merci et bon visionnage.
Psychologie, Première année, Questionnaire.
Les traitements croisés
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
Plans à groupes indépendants: organisation
Régression linéaire simple
Howell, Chap. 1 Position générale
La droite dans R2 Montage préparé par : André Ross
L’Analyse de Variance 1 Généralités Le modèle Calculs pratiques
La corrélation et la régression
Corrélation Principe fondamental d’une analyse de corrélation
Analyse factorielle de variance: Principes d’expérimentation
Arithmétique et algèbre Continuités et ruptures : lettres, signe égal, expressions Module 1.
Régression linéaire (STT-2400)
Transformations linéaires et sous-espaces associés
Inéquations du premier degré à une inconnue
Hum?? Les statistiques… Qu’est-ce que c’est au juste?
Régression linéaire (STT-2400)
Mise en forme en Mathématiques
Calcul de probabilités
Présentation de la méthode des Eléments Finis
ORGANIGRAMME-MÉTHODES STATISTIQUES-COMPARAISONS DE MOYENNES
LE DISCOURS SCIENTIFIQUE
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Régression linéaire multiple : hypothèses & interprétation
Régression linéaire multiple : hypothèses & tests. Partie 3.
Statistiques, deuxième séance
Méthodes de Biostatistique
Méthodes de Biostatistique
Méthodologie expérimentale : l’analyse des données
Suites numériques Définitions.
ANOVA : introduction.
Thème: statistiques et probabilités Séquence 3: Statistique descriptive Utiliser un logiciel (par exemple, un tableur) ou une calculatrice pour étudier.
La Logique du premier ordre LPO
Master 1 – Sciences du Langage –
La firme Les techniques à deux facteurs La demande de facteurs
ESTIMATION 1. Principe 2. Estimateur 3. Distribution d’échantillonnage
Rappels de statistiques descriptives
Biostatistiques Quand on souhaite étudier une (ou des) caractéristique(s) sur un ensemble d’individus ou d’objets, il est difficile, voir impossible, d’observer.
ANALYSE DE DONNEES TESTS D’ASSOCIATION
Howell Chap. 11: ANOVA. Du monde connu au monde inconnu Du test t à l’analyse de varianceDu test t à l’analyse de variance Trouvez des nouveaux noms pour.
Les expressions algébriques
STATISTIQUES DESCRIPTIVES
Micro-intro aux stats.
Séance 8 30 novembre 2005 N. Yamaguchi
ANOVA à 1 facteur en groupes de mesure indépendants
Probabilités et Statistiques Année 2010/2011
Chapitre 4 Variables aléatoires discrètes
ECHANTILLONAGE ET ESTIMATION
Comparaison de plusieurs moyennes observées
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
LE CHOIX DE LA FORMULE  Reprise du cours du 09 au 12 décembre (GR 1 à 5, même si redites) o Question : vitesse moyenne du cycliste A sur l’ensemble de.
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
Transcription de la présentation:

Licence — quatrième séance Statistiques Licence — quatrième séance

Analyse de variance simple Un facteur de classification

Plan Une étude de Eysenck Situation statistique La question Les données Situation statistique Description Le principe de raisonnement Conditions d’application Calculs Interprétation des résultats Exemple supplémentaire (11.22 p 390)

Mémoire et profondeur de traitement 1. Une étude de Eysenck Mémoire et profondeur de traitement

1.1 Présentation [Howell, pp 340-]

Historique En 1974, Eysenck a mené une étude dans le but de démontrer que la profondeur de traitement a un effet sur la mémorisation involontaire. Des groupes de volontaires sont formés, qui ont a traiter une liste de mots. Le traitement varie selon les groupes, mais la liste est la même. On demande ensuite aux sujets de rappeler le maximum d’items possibles de la liste. Le nombre X de mots correctement rappelés est une mesure de la qualité de la rétention.

Historique L’étude comporte 5 groupes : Le groupe « addition » doit compter le nombre de lettres de chaque mot de la liste Le groupe « rime » doit chercher un mot rimant avec chaque mot de la liste On demande au groupe « adjectif » d’accoler un adjectif possible à chaque mot de la liste (il s’agit de substantifs) Au groupe « image » de se représenter mentalement l’objet désigné Au groupe « intentionnel » d’apprendre la liste.

Historique Dans l’esprit d’Eysenck, les groupes correspondent à des traitements de plus en plus profonds (signes / sons / sens / image).

Question La question qu’on se pose peut s’exprimer la façon suivante : Le traitement a-t-il une influence sur la mémorisation ? Ce qui revient à : Les moyennes de X dans les différents groupes sont-elles différentes ou au contraire toutes égales ?

Formalisation et données brutes 1.2 Les données Formalisation et données brutes

Formalisation La situation est la suivante : Nous disposons d’un échantillon de volontaires participants (individus) D’un facteur T « traitement » catégoriel (qualitatif ou nominal) D’une variable dépendante X quantitative Et nous cherchons un lien éventuel entre T et X.

Les données brutes addition rimes adjectif images intention. 9 7 11 12 10 8 13 19 6 16 14 5 4 23 3 15

Les données traitées 10 7 6.9 11 13.4 12 1.83 2.13 2.49 4.50 3.74 add rime adj image inten n 10 Moyenne 7 6.9 11 13.4 12 Écart type 1.83 2.13 2.49 4.50 3.74

2. La situation statistique Retour et généralisation

2.1 Description Quand faire une ANOVA ?

Les cas appelant l’anova Dans les situations semblables à celles que nous venons de décrire, on est amené à utiliser une méthode statistique particulière : l’analyse de variance ou ANOVA (ANalysis Of VAriance).

Situation propice à l’anova Nous avons deux variables : Une variable indépendante ou facteur catégoriel (échelle finie). Une variable dépendante quantitative. Il est indispensable d’avoir suffisamment de valeur de la VD pour chaque modalité de la VI. Mais les « groupes » ne sont pas nécessairement de la même taille.

Remarques Le tableau que nous avons présenté plus haut n’est ni descriptif ni statistique. L’anova est un test fondé sur un modèle, comme la régression linéaire (corrélation fondée sur le modèle linéaire). La conclusion donnée par le test est seulement que les moyennes vraies sont différentes (ie non toutes égales), et ne permet pas de conclure à un quelconque « sens » de variation, même si cela fait sens, comme ici. Il s’agira d’interprétation.

2.2 Principes fondamentaux Variations

Variations Le principe de base est une étude des variations. On dit « variation » parce qu’il s’agit d’une version légèrement modifiée de la variance… mais l’idée est la même.

Variations La variable X n’est pas constante : elle présente des variations. L’anova est fondée sur l’idée qu’une partie de ces variations est attribuable au facteur. Le reste étant dû à d’autres facteurs. Si la variation due au facteur semble élevée, on pourra conclure à un « effet » du facteur sur la VD Dans le cas contraire, on ne pourra pas conclure (et non pas conclure qu’il n’y a pas d’effet !).

3. Conditions d’application De l’ANOVA

À vérifier systématiquement Pour pouvoir appliquer l’analyse de variance, il est indispensable de vérifier : L’indépendance des observations (dans l’expérience d’Eysenck, les sujets ne passent qu’une des expériences possibles) La normalité de la VD dans les groupes (elle se vérifie par ordinateur, nous la supposerons toujours) L’homogénéité des variances. Vérifiez qu’aucune variance n’est 4 fois supérieure à une autre. (Eysenck a fait l’étude malgré la violation de cette condition).

Violation des conditions Cependant, l’anova est relativement robuste, et fonctionne encore si les conditions d’application sont « presque » vérifiées. Des variances très différentes impliqueront une plus grande prudence dans la lecture des résultats Des distributions non normales ne sont pas gênantes si elles sont d’asymétrie de même signe et unimodales.

Exemples

Exemples

Exemples

Exemples

4. Les calculs Sans commentaire

La mesure de variation Tous les calculs se fondent sur un principe identique. Quand il nous faut mesurer la variation de X entre des groupes G1, G2… de taille n1, n2… nous procédons toujours de la manière suivante (encore valable en anova factorielle ou pour mesures répétées).

Facteur de correction Dans l’expérience d’Eysenck, on peut calculer le carré de la somme des 50 valeurs (9+8+…+11)²=503² Que l’on divise ensuite par 50 (il y a 50 valeurs), ce qui donne le facteur de correction FC=5060.18 On calcule (attention à l’erreur dans Howell, p 350) On en déduit le facteur de correction

Somme des carrés On calcule la somme des carrés des totaux (par groupes) divisés par les effectifs. Par exemple, pour comparer les groupes d’Eysenck : On calcule alors simplement les « sommes des carrés » (en réalité somme des carrés des écarts à la moyenne) par :

Somme des carrés On a ainsi une mesure de la variation entre les groupes (traitement), donc « due au traitement » La variation due au traitement est 351.52 SC est une mesure de la variation entre les groupes considérés.

Les différents SC Les SC se calculent pour les groupes de traitement, mais pas seulement. On peut aussi calculer les SC correspondant à d’autres « regroupements ». Les différents SC ainsi obtenus permettent de terminer l’anova.

Les différents SC Par exemple, on peut « regrouper » les valeurs une par une. Le raisonnement précédent s’applique, avec des groupes de taille 1 et des totaux égaux en fait à l’unique valeur considérée. On obtient alors la variation entre toutes les valeurs : la variation totale

Répartition des variations La variation totale (entre toutes les valeurs) est due d’une part à l’effet du facteur (variation entre les groupes) et d’autre part à ce qu’on appelle « l ’erreur » car dans le modèle simplifié où seul le facteur intervient, c’est une erreur. Cette variation supplémentaire est la variation « à l’intérieur des groupes », et elle est due à tous les facteurs autre que celui qui nous préoccupe.

Répartition des variations Une propriété formidable des SC est qu’elle sont « additives ». Ainsi, quand on additionne la variation due au facteur T et celle due aux autres facteurs, on obtient la variation totale.

Répartition des variations Variation totale Variation entre groupes Erreur (variation sujet)

Répartition des variations Dans la pratique, on calcule la variation due au facteur, puis la variation totale On en déduit la variation « erreur » par soustraction :

Degrés de liberté À chaque SC est associé un degré de liberté. Le degré de liberté est le nombre de groupes moins 1. Les degrés de liberté s’additionnent comme les SC. Dans le cas de l’expérience,

Degrés de liberté Dans le cas général, si n est le nombre total d’individus dans l’échantillon et k le nombre de groupes, on a

Carrés moyens Enfin, on définit les carrés moyens (qui sont une sorte de variance corrigée) CM. Ils mesurent la variation d’une manière standard et plus adéquate que les SC, mais ne sont pas additifs.

Présentation des résultats On a l’habitude de présenter les résultats dans un tableau standard de la forme : source dl SC CM F Groupe Erreur Total

Présentation des résultats Dans l’expérience de Eysenck, cela donne le tableau suivant (en rouge: obtenu par soustraction. En vert, par division). source dl SC CM F Traitement 4 351.52 87.88 9.08 Erreur 45 435.30 9.67 Total 49 789.82

5. Interprétation

F La seule valeur mystérieuse est F. Elle sert à tester l’hypothèse de différence entre les moyennes, et elle vaut

F Si le facteur n’intervient pas, on devrait avoir autant de variation entre les groupes qu’à l’intérieur des groupes, et donc on devrait avoir F=1 Si au contraire il intervient, on s’attend à avoir un F supérieur à 1 En particulier, un F inférieur à 1 n’est pas significatif.

F F suit une loi de Fisher-Snedecor. Les tables statistiques donnent les valeurs à partir desquelles la conclusion d’effet est possible Si l’on a observé un F de valeur supérieure, alors on peut affirmer (avec un certain risque, en général 1%) que les traitements différents donnent des moyennes différentes de la VD On dira alors que le facteur a un effet sur la VD

F Dans l’expérience d’Eysenck, la table donne Degré de liberté du dénominateur Risque de 1% Degré de liberté du numérateur

F On avait trouvé F=9.08 C’est supérieur à 3.78 On peut donc affirmer au risque de 1% que la profondeur de traitement a un effet sur la mémorisation. Cela ne dit pas que l’effet est positif, mais la forme du lien nous renseigne efficacement. Il faut pour cela représenter les données : on représente la distribution de l’espérance conditionnelle de X connaissant T.

Espérance conditionnelle

Achtung ! Le fait que F soit significatif implique que l’on peut donner la conclusion voulue Mais la valeur de F ne dit rien sur la grandeur de l’effet du facteur. Pour étudier la grandeur de l’effet, on utilise d’autres calculs, assez simples heureusement, qui consistent à chercher la part de SC due à tel ou tel facteur.

Exemple Par exemple, on avait chez Eysenck D’où on tire que la profondeur de traitement explique 44,6% des variations, ce qui n’est pas négligeable.

6. Exemple Darley et Latané (1968)

L’expérience Darley et Latané ont relevé la vitesse à laquelle les gens appellent à l’aide pour un inconnu quand ils pensent être seuls (groupe 1, n=13), ou qu’une autre personne (groupe 2, n=25) ou quatre personnes (groupe 3, n=13) les écoutent. La VD est la vitesse d’appel, d’autant plus grande que l’appel arrive peu de temps après l’événement nécessitant une aide extérieure.

Situation Nous avons donc un échantillon de 25+13+13, soit 51 individus (personnes) Sur lequel on étudie le facteur catégoriel « groupe » G Et son lien avec la VD quantitative « vitesse d’appel », X Une anova pourrait montrer que les moyennes de X varient d’un groupe à l’autre, et donc que G a un effet sur X

Données groupe 1 2 3 n 13 25 Moyenne X 0.87 0.72 0.51 TOTAL 11.31 18 6.63

Données On peut déduire de ces données le facteur de correction FC=25.33 (somme totale au carré divisée par 51) Puis, du coup, le SC(groupe), variation due au nombre d’auditeurs supposés. En effet :

Données On sait d’autre part que les dl et les SC se répartissent de la manière suivante : Total : dl=50 SC=2.544+.851 =3.395 Groupe : dl=2 SC=.851 Erreur : dl=48 SC=48x.053=2.544

Tableau On en déduit facilement le tableau source dl SC CM F Groupe 2 .851 .4255 8.03 Erreur 48 2.544 .053 Total 50 3.395

En réalité, 50… la table ne donne pas toutes les valeurs possibles Conclusion La table de F donne : En réalité, 50… la table ne donne pas toutes les valeurs possibles

Conclusion La valeur trouvée est supérieure à celle de la table On peut affirmer au risque de 1% que le nombre supposé d’auditeurs influence la vitesse d’appel au secours. On peut également préciser que le nombre d’auditeurs supposé explique 25% des variations de vitesse observées. En effet, SC(gr)/SC(tot)=.25

Représentation