Statistiques, licence Cinquième séance 18/06/2019.

Slides:



Advertisements
Présentations similaires
Introduction à la notion de fonction 1. Organisation et gestion de données, fonctions 1.1. Notion de fonction ● Déterminer l'image d'un nombre par une.
Advertisements

Dr. Tarek Barhoumi statistiques descriptives Statistiques descriptives Dr. Tarek Barhoumi.
Calcul de probabilités
Exploitation de mesures scientifiques.
De la fonction à la dérivée : la covariation à la rescousse!
Le Mouvement Directionnel
Calcul et interprétation de taux de variation
PIB en valeur et en volume
Projet de programme et recommandations
Corrélation et causalité
Valeurs de toutes les différences observables sous H0
La ProbabilitÉ.
L’obésité est-elle un facteur de risque de
Première partie : La droite de budget
Reprise du cours ( ) Aujourd’hui :
Dessaturation = Palier = vitesse de remonté.
Niveau 2 : Tables de plongée
Chapitre 13 : Echantillonnage
Plans d’expériences: Plans factoriels
Les Plans d’expériences: Plans Factoriels
Reprise du cours ( ) Au menu du jour :
Plans d’expériences: Plans factoriels.
Couche limite atmosphérique
Comment construire un graphique ?
Plans d'expérience Méthode Taguchy.
Analyses statistiques Représentations et alexithymie
La clarification du lien entre l’intolérance à l’incertitude et l’orientation négative aux problèmes: étude 2. Philippe Roy1, Alexandre Bouvette1, Frédéric.
Méthode Taguchy Analyse de la variance Anavar
Stabilité des porteurs horizontaux (Poutres)
Introduction aux statistiques Intervalles de confiance
Méthodologie scientifique
Pourquoi étudier la statistique ?
POL1803: Analyse des techniques quantitatives
Chapitre 3 : Caractéristiques de tendance centrale
Notion de risque et mesures d’association
Décomposer et encadrer les fractions
Les changements d’état de l’eau
L1 Technique informatique
CRITERES DE QUALITE 1) PRECISION 2) RAPIDITE 3) AMORTISSEMENT
Programme financé par l’Union européenne
A l’aide du triangle pédagogique de Jean Houssaye
4°) Intervalle de fluctuation :
Information sur survies des patients en dialyse péritonéale, en France métropolitaine dans le RDPLF Année 2016.
Lois de Probabilité Discrètes
Lois de Probabilité Discrètes
LE processus d’enquête
Programme d’appui à la gestion publique et aux statistiques
Difficultés d’apprentissage
Doc. f typologie des biens économiques
Présentation 4 : Sondage stratifié
Présentation 9 : Calcul de précision des estimateurs complexes
Les historiques de cours
Jean-Sébastien Provençal
Projection, cosinus et trigonométrie.
Présentation 6 : Sondage à plusieurs degrés
5. les rendements d’echelle:
L’effet de testing sur les résultats scolaires :
Opérateurs et fonctions arithmétiques Opérateurs de relation Opérateurs logiques Cours 02.
Quoi regarder dans un graphique des moyennes ?
Analyse des données et complémentarité des sources
Tableaux croisés dynamiques sous Excel: des outils simples pour une analyse rapide de jeux de données en cytométrie Camille SANTA MARIA Ingénieur d’étude.
Chapitre 12 : Notion de fonction
MATHÉMATIQUES FINANCIÈRES I
Les 6 aspects de la pensée historique
LA MÉTHODE SCIENTIFIQUE
Présentation des nouveaux programmes de mathématiques de première des séries technologiques Jessica Parsis.
Principales stratégies de compréhension en lecture
Présentation projet de fin d’études
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES.
VII – LES CHANGEMENTS D’ETAT DE L’EAU
Transcription de la présentation:

Statistiques, licence Cinquième séance 18/06/2019

Analyse de variance pour plans factoriels Le cas de deux facteurs 18/06/2019

Plan de la séance Quand utiliser l’anova factorielle ? Les différents effets Exemple : Eysenck again Comment utiliser l’anova factorielle ? Interprétation Exemple par ordinateur 18/06/2019

Situation, conditions d’application, modèle sous-jacent 1. Quand ? Situation, conditions d’application, modèle sous-jacent 18/06/2019

Situation statistique On utilise l’analyse factorielle de variance quand on dispose de : Deux facteurs catégoriels Une variable quantitative Et que l’on cherche un lien entre les VI et la VD Il est nécessaire d’avoir plusieurs valeurs de la VD pour chaque couple de niveaux des VI Il est préférable d’avoir des groupes de même taille. Si ce n’est pas le cas, les procédures diffèrent légèrement (en particulier pour les tests Post Hoc) Les observations doivent être indépendantes. 18/06/2019

Présentation des données cellule La cellule comporte 8 individus. Elle correspond à un niveau de F1 (A) et de F2 (d). 18/06/2019

Conditions d’application On vérifiera qu’il est raisonnable de supposer les variances égales, par exemple grâce au test de Levene. On vérifie que les observations sont bien indépendantes On supposera que la VD (X) est normale dans chaque cellule si on a des raisons de poser cette hypothèses. Sinon, on pourra utiliser un test de Kolmogorov-Smirnov. 18/06/2019

2. Les différents effets Que l’on peut étudier 18/06/2019

Généralités Contrairement au cas de l’anova simple, nous pouvons ici étudier de nombreux « effets » On appelle « effet » la variation de la VD (désormais X) attribuée à un facteur ou à une « cause » particulière L’ajout d’une seconde variable indépendante complique énormément les données, mais les enrichit également… 18/06/2019

Effets principaux On peut étudier l’effet de l’un des deux facteurs (disons F1) sur X, en prenant en compte l’ensemble de l’échantillon. On est ainsi ramené — presque — à une analyse de variance simple. Cependant, si on peut attribuer une partie de la variation indifféremment à F1 et F2, on n’obtiendra pas les mêmes résultats. On parle dans ce cas d’effet principal de F1. 18/06/2019

Effets simples On peut également étudier l’effet de F1 pour un niveau fixé de F2 Ou de F2 pour un niveau fixé de F1. On parle alors d’effet simple. Là encore, on pourrait se ramener à une analyse de variance simple, avec les mêmes limites que pour les effets principaux. 18/06/2019

Remarques Ces effets, accessibles — quoique différemment — directement par l’anova simple, ont rarement d’intérêt seuls. Les effets combinant les deux variables sont souvent beaucoup plus instructifs, et en général nous n’étudions qu’eux. 18/06/2019

Effet du croisement On appelle croisement des facteurs F1 et F2 la variable F1xF2 dont les modalités sont les couples (a,A) de niveaux de F1 et F2 respectivement Autrement dit, chaque cellule correspond à un niveau du croisement. Exemple : Si F1 est le bruit et F2 la pollution visuelle, F1xF2 peut être le « confort », défini comme la donnée des pollutions sonore et visuelle. 18/06/2019

Effet de l’interaction L’effet le plus passionnant auquel donne accès l’anova factorielle est l’effet de l’interaction. Il est difficile à définir. Nous y reviendrons plus loin. Mais il correspond à la trace sur X de ce qu’on appelle habituellement une « interaction  ». 18/06/2019

Interaction : exemple Supposons donnés deux médicaments A et B baissant la température de 1 et 2 degrés respectivement. Si on prend le médicament A, on passe de 37° à 36°, de 35° à 34° (très théorique, bien entendu)… Si on prend le médicament B, on passe de 37° à 35°, de 36° à 34°, etc. 18/06/2019

Interaction : exemple Si les deux médicaments ne sont pas en interaction (et agissent donc indépendamment l’un de l’autre), A+B baisse la température de 3°. En revanche, si B annule A ou renforce son action, il y a interaction (positive ou négative), et A+B ne fait pas baisser la température de 3° 18/06/2019

Interaction : exemple Graphiquement, cela peut se lire assez simplement. 18/06/2019

Interaction : exemple Effet de A sans B (effet simple) : –1 Effet simple de B sans A : –2. Effet simple de B avec A : –2. 18/06/2019

Interaction : exemple Dire qu’il n’y a pas interaction (ou que l’interaction n’a pas d’effet sur la température), c’est dire que l’effet de A+B est la somme des effets (–3) C’est dire que l’effet de B ne dépend pas de la prise éventuelle de A C’est dire que les deux courbes représentant les liens simples de B sur X (température) sont parallèles. 18/06/2019

Interaction : exemple Interaction positive ayant un effet sur la baisse de température 18/06/2019

Interaction : exemple Interaction négative ayant un effet sur la baisse de température 18/06/2019

3. L’étude d’Eysenck Compléments 18/06/2019

Présentation L’étude d’Eysenck étudiait en réalité, en plus de la profondeur de traitement, l’âge des sujets. Il y avait deux groupes de sujets : « jeune » et « âgé ». Nous avons étudié avec l’anova simple le cas des sujets jeunes : il s’agit en fait de l’étude d’un effet simple 18/06/2019

Situation Nous avons en effet ici une VD numérique : X (nombre de mots rappelés) Et deux facteurs catégoriels C (condition de rétention, ou groupe, ou profondeur de traitement) et A (âge) L’étude du groupe jeune était donc l’étude de l’effet de C sur X pour le niveau « jeune » de la VI A. 18/06/2019

Données 18/06/2019

Données 18/06/2019

4. Utilisation de l’anova (factorielle) 18/06/2019

Principe Le principe est le même que pour l’anova simple : on raisonne sur les SC et les CM, qui se calculent comme précédemment La décomposition est un peu différente. Les dl se décomposent toujours de la même manière que les SC 18/06/2019

Nombre de groupes pour A Décomposition des dl Nombre de groupes pour A 18/06/2019

Remarques La décomposition des SC est exactement la même Pour calculer les SC à la main, il faudrait refaire le raisonnement valable en anova simple, c’est-à-dire considérer des groupes que l’on compare. Bien entendu, on laissera l’ordinateur s’occuper de tout ça. 18/06/2019

SC(total) Le SC total est la variation totale, on l’obtient en comparant les 100 (N) valeurs de X. Les groupes sont de taille 1, et les sommes sont simplement les valeurs. 18/06/2019

SC(AxC) Il s’agit de la variation due aux deux facteurs pris simultanément, donc entre les cellules. Les groupes sont de taille 10, et les sommes sont les totaux de cellules 18/06/2019

SC(erreur) Il s’agit du terme d’erreur Il s’obtient par différence, tout simplement 18/06/2019

SC(A) C’est la variation due à l’âge : on compare donc les deux groupes d’âge Si bien que la taille des groupes est de 50, et les totaux sont donnés en dernière colonne 18/06/2019

SC(C) C’est la variation due à la condition : on compare donc les cinq groupes de rétention Si bien que la taille des groupes est de 20, et les totaux sont donnés en dernière ligne 18/06/2019

SC(A*C) C’est la variation due à l’interaction entre l’âge et la condition. Elle s’obtient très facilement par différence 18/06/2019

Répartition des SC 18/06/2019

Présentation des résultats On divise toujours par CM(erreur). 18/06/2019

5. Interprétation Des différents F 18/06/2019

Les F Chaque F est calculé en divisant un CM par le CM(erreur). Les degrés de liberté pour le numérateur et le dénominateur sont donnés dans le tableau résumé Les tables de F se lisent comme pour le cas simple. 18/06/2019

Interprétation Dans notre cas, les trois F sont significatifs à 5% Donc nous pouvons écrire : 18/06/2019

!!!! On peut affirmer au risque de 5%, que l’âge a un effet sur la rétention (i.e. le nombre moyen de mots rappelés diffère selon l’âge) On peut affirmer au risque de 5% que la profondeur de traitement (i.e. la condition) a un effet sur X On peut affirmer au risque de 5% que l’interaction de l’âge et de la profondeur de traitement a un effet sur X, ce qui signifie que la condition n’a pas le même effet pour les sujets des groupes « jeune » et « âgé ». 18/06/2019

Mais on ne peut pas dire : !!!! Mais on ne peut pas dire : « Au risque de 5%, on a prouvé que A, C et l’interaction ont un effet sur X. » 18/06/2019

Erreur de l’ensemble Intuitivement, si la probabilité d’erreur à chacune des trois propositions est de 5%, il y a une probabilité supérieure à 5% « de se tromper » sur la conjonction des trois (on appelle conjonction des deux hypothèses A et B l’hypothèse « A et B ») On pourra considérer, dans les cas courants, que le risque d’erreur de l’ensemble (risque de la conjonction) est la somme des risques 18/06/2019

Erreur de l’ensemble Ici, cela donnerait un risque de… 15% Ce qui est beaucoup trop. (Le risque est en fait un peu différent) Quand on veut une conclusion composée, il faut toujours choisir un risque petit (ici, 1% donne un risque totale d’environ 3%, ce qui reste acceptable) 18/06/2019

Remarques Il est important de choisir avant l’expérience (indépendamment des données elles-mêmes) les F à calculer. Si l’on s’intéresse, comme c’est souvent le cas, à l’interaction, on aurait pu ne calculer que le F correspondant, soit 5.93. Calculé avec 4 et 90 dl, il doit être comparé avec 3.48 pour un risque de 1%. L’interaction de l’âge et de la condition a un effet sur la rétention. 18/06/2019

Qu’est-ce à dire ? L’interaction de l’âge et de la profondeur de traitement a un effet sur la rétention Comment comprendre ce résultat ? Graphiquement, cela signifie que les courbes des moyennes de X par condition (moyennes conditionnelles) ne sont par parallèles. 18/06/2019

Qu’est-ce à dire ? 18/06/2019

Qu’est-ce à dire ? Autrement dit, cela signifie Que les effets de l’âge et de la condition ne s’additionnent pas Que la condition n’a pas le même effet sur la VD selon que l’on est jeune ou âgé (donc selon les modalités de l’autre facteur) Ici, le graphique suggère que les personnes plus âgés appliquent spontanément un traitement approfondi même quand la consigne ne l’impose pas, ce qui compense pour les premiers groupes la faiblesse due à l’âge. 18/06/2019

Grandeur des effets Comme dans le cas simple, on pourra calculer des rapports de SC pour mesurer la taille de tel ou tel effet On parle souvent de taille d’effet en pourcentage du total, Mais également « indépendamment de l’erreur », c’est-à-dire en pourcentage de SC(AxC) 18/06/2019

Grandeur des effets Par exemple, dans notre cas, l’interaction explique 7% de la variation totale, car 18/06/2019

Grandeur des effets Mais on peut dire également que l’interaction explique 9.8% de la variation totale, indépendamment de l’erreur (c’est-à-dire sans compter la variation que le modèle n’explique pas) : 18/06/2019

6. Obésité et dépression Coeuret-Pelissier,M. et al. (2002). Association between obesity and depressive symptoms in general population. Observatoire des habitudes alimentaires et du poids. 18/06/2019

Les données On relève les facteurs GENRE (féminin, masculin) et OBESITE (témoin, faible, fort), ainsi que la variable DEP (score de symptômes dépressifs). Il s’agit d’un plan croisé (factoriel): on a 6 groupes distincts. Les observations sont indépendantes. On cherche à déterminer l’effet des deux facteurs sur la VD, ainsi qu’une éventuelle interaction. Nous n’avons pas d’hypothèse précise a priori, qui nous aurait indiqué ce qu’il faut calculer. On utilise l’anova pour plans factoriels. 18/06/2019

le test de Levene se fonde sur une statistique F. le test de Levene n’est pas significatif (p>.10), on peut poser l’hypothèse que les variances sont égales, et donc utiliser l’anova (on suppose les variables normales… 18/06/2019

précise le caractère plus ou moins convaincant de nos conclusions précise le caractère plus ou moins convaincant de nos conclusions. Restez méfiants. les effets principaux ainsi que celui de l’interaction sont significatifs. grandeurs des effets expérimentaux. Les valeurs sont « partielles » car on enlève à chaque fois les effets annexes. L’interaction a le plus effet, malgré F. il y a plusieurs manières de répartir les SC entre les facteurs. Le type le plus courant est le type III interaction 18/06/2019

le test de Tukey permet de former des groupes homogènes a posteriori les obésités témoin et faible ne se distinguent pas entre elles, mais ce distinguent du groupe « fort ». les groupes sont formés en utilisant l’échantillon entier, et sont fondés sur les effets principaux. Il n’est pas clair que cela soit la bonne méthode, puisque l’interaction est significative… le test de Tukey permet de former des groupes homogènes a posteriori 18/06/2019

il serait intéressant de comparer a posteriori les groupes fondés sur l’obésité en séparant les genres. On trouverait probablement que l’obésité n’a pas d’effet significatif chez les hommes, mais en a chez les femmes, ce que laisse d’ailleurs penser l’interaction. 18/06/2019