Vérification des données

Slides:

Advertisements

Présentations similaires

Analyse d’items Ensemble de procédés statistiques dont le but est d ’évaluer la qualité d’un instrument de mesure et des items qui le composent. Ensemble.

Advertisements

Comparaison d’une moyenne observée à une moyenne théorique

Test statistique : principe

TESTS RELATIFS AUX CARACTERES QUANTITATIFS

Inférence statistique

C1 Bio-statistiques F. KOHLER

Comparaison de deux moyennes observées

Inférence statistique

Les TESTS STATISTIQUES

Les TESTS STATISTIQUES

Échantillonnage-Estimation

Laboratoire Inter-universitaire de Psychologie

Analyse de la variance à un facteur

1 Analyse de la variance multivariée Michel Tenenhaus.

Plans à groupes indépendants: organisation

La Régression Multiple

Analyse de la variance : ANOVA à un facteur

Régression linéaire simple

Groupe 1: Classes de même intervalle

Objectifs du chapitre 12: Interprétation des résultats

Problème Autre formulation :

Howell, Chap. 1 Position générale

L’Analyse de Covariance

Plan la séance 8 Préparation des données

Une observation par cellule facteurs fixes versus facteurs aléatoires.

Analyse de la covariance

Analyse de la variance multivariée

Toutes les variables étaient mesurées au niveau intervalle et sans erreur Toutes les variables étaient mesurées au niveau intervalle et sans erreur ->

L’analyse de variance factorielle

La corrélation et la régression multiple

La corrélation et la régression

Le test t. Procédure de linférence statistique 1. Contexte théorique 2. Hypothèses 3. Seuil de signification et puissance 4. Taille de leffet 5. Collecte.

L’analyse de variance.

La puissance statistique

La puissance statistique

La régression logistique

Lanalyse de la covariance. X y ANOVA Lanalyse de la covariance y X ANOVA.

La corrélation et la régression

Université dOttawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Concepts fondamentaux: statistiques et distributions.

Les modèles linéaires (Generalized Linear Models, GLM)

Corrélation Principe fondamental d’une analyse de corrélation

Le comportement des coûts Chapitre 3

Structure discriminante (analyse discriminante)

Objectifs du chap. 5: Plans de recherche classiques

Objectifs Chapitre 7: variables indépendantes et dépendantes

Analyse factorielle de variance: Principes d’expérimentation

La régression multiple

ORGANIGRAMME-MÉTHODES STATISTIQUES-COMPARAISONS DE MOYENNES

Mesures de position Ils s’expriment dans la même unité que les observations Moyenne et moyenne pondérée Exemple : on dispose du nombre moyen d’enfants.

Méthodologie expérimentale : l’analyse des données

ANALYSE DE DONNEES TESTS D’ASSOCIATION

N. Yamaguchi1 Statistiques Séance 6 – 16 Nov 2005.

STATISTIQUES DESCRIPTIVES

Séance 8 30 novembre 2005 N. Yamaguchi

ANOVA à 1 facteur en groupes de mesure indépendants

Probabilités et Statistiques Année 2010/2011

1 BIO 4518: Biostatistiques appliquées Le 1er novembre 2005 Laboratoire 7 ANCOVAs (Analyse de covariance)

BIO 4518: Biostatistiques appliquées Le 25 octobre 2005 Laboratoire 6 Corrélation linéaire et régression linéaire simple.

1.  On souhaite comparer deux traitements dans le cadre d’un essai randomisé sur les lombosciatiques :  corticoïdes par infiltrations  placebo  Critère.

Modèle linéaire Relation entre une variable expliquée Y (par exemple le salaire), et p variables explicatives X j, j = 1, …, p (par exemple, p = 5, X 1.

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :34 1 Les modèles linéaires (Generalized Linear.

Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Comparaison de deux échantillons Principes.

Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.

Les distributions de fréquences et de pourcentages

Chapitre 4 Concepts fondamentaux Les composantes d’un test statistique Les hypothèses nulles en statistiques Le sens de p Inférence: comment traduire p.

ECHANTILLONAGE ET ESTIMATION

Statistiques: mesures de liaisons tests d’hypothèse

Introduction aux statistiques Intervalles de confiance

Transcription de la présentation:

Vérification des données

Entrée des données Fichier Excel Données brutes Nom Note score R age sexe Houle, N. A 30 21 f Darcy, T. B 27 25 m Petit, M. C 31 23 m Legrand, P. A 28 24 f . Baron, C. B 29 24 m

«Data window»

Premières vérifications Vérification du fichier de données Données manquantes Exclusion des variables ou des cas générant un pourcentage important de données manquantes Remplacement des valeurs manquantes Moyenne de groupe Régression Valeurs extrêmes Univariées Multivariées

Influence des valeurs extrêmes Examine <nom de variable>

Valeurs extrêmes univariées (SPSS - Explore) tracé en arborescence

Valeurs extrêmes multivariées

Normalité de distribution Number of valid observations (listwise)=454.00 Variable <nom de variable> Mean 9.649 Std Dev 7.642 Kurtosis 11.157 S.E. Kurt .229 Skewness 2.755 S.E. Skew .115 Minimum 1.00 Maximum 58.00 Distribution normale => Coefficient de dissymétrie (skewness) = 0 et Coefficient d’aplatissement (kurtosis) = 0

Vérification de normalité SPSS Explore

Homocédasticité Homogénéité de la variance: La variance d’une variable dépendante est la même pour les différents niveaux de la variable indépendante Homocédasticité: La variance des scores pour une variable est la même pour toutes les valeurs d’une autre variable Manque de Homocédasticité Non normalité d’une des variables Ex: âge et salaire (salaire est biaisé positivement) Plus d’erreur de mesure pour certains niveaux d’une des variables Ex: des personnes d’une certain âge sont plus préoccupées avec leur santé et donnent donc des informations plus fiables à ce sujet

Solutions Taille de l’échantillon Transformations Normalité: Une Anova avec plus de 20 dferreur est assez robuste dans le cas de violation de normalité Homogénéité des variances: Taille des groupes égale -> peu problématique Taille inégale (Fmax: rapport entre la variance la plus large et la variance la plus petite) rapport entre la cellule la plus importante et la cellule la plus petite env. 4 pour 1: Fmax ≤ 10 rapport entre la cellule la plus importante et la cellule la plus petite plus important: Fmax < 3 Transformations

Transformations

Transformation logarithmique

Interprétation des résultats

Le test statistique Un test statistique répond à la question: Quelles sont les informations fournies par un test statistique? Un test statistique répond à la question: Est-ce que la différence entre le groupe expérimental et le groupe contrôle est telle que l’on puisse conclure qu’elle n’est pas due au hasard? La réponse dépend: de la taille d’effet du nombre de sujets du test statistique utilisé du niveau alpha fixé

MAGIC Magnitude  la taille de l’effet  est-ce que l’influence de la VI sur la VD est importante? Articulation  le degré de détail énoncé  facilité de tirer des conclusions utiles (ex “les moyennes des cinq groupes A,B,C,D,E ne sont pas les mêmes” vs “les moyennes des groupes C,D,E sont significativement différentes des moyennes de A et B bien que ceux-ci ne différent pas entre eux” ou “on observe une augmentation linéaire des moyennes de A à E” Generality validité externe  permet la généralisation des résultats Interestingness  l’importance théorique est-ce que l’étude fournit des nouvelles connaissances? Credibility  validité interne  la qualité de l’opérationnalisation des variables, contrôle des artefacts potentiels Magnitude: here we have to note that sometimes small effects are just as exciting as large effects. This is the case when small effects establish a phenomenon (e.g. FFH) or when in a given situation one would not believe the variable to be able to have any effect at all (Isen, cookies) Articulation: “les moyennes des cinq groupes A,B,C,D,E ne sont pas les mêmes” vs “les moyennes des C,D,E sont significativement differents des moyennes de A et B bien qu’il ne different pas entre eux” vs “on observe une augmentation linéaire des moyennes de A à E” Style and conventions (p < .05) on peut presenter ces données avec plus ou moins de caution. Un style liberal vise à explorer les données à un maximum et a cerner les differents liens possible. Un style conservateur se restreint à la verifications des hypothèse préetablis en ignorant des résultats marginaux ou inattendus. (Discuss problems with both)

Significatif ou non Exemples: Tukey (1991): Le résultat est significatif au niveau de .07 Le résultat est marginalement significatif Bien que le résultat ne soit pas significatif au niveau conventionnel de .05, il suggère que ... Tukey (1991): .05 < p < .15 «the difference leans in the ... direction» .15 < p < .25 «there is a hint regarding the direction» Discuss: Significance tests are not always needed

Style Style conservateur n’utilise jamais des tests unidirectionnels n’utilise qu’une seule analyse pré- déterminée n’exclue jamais de valeurs extrêmes évite de se concentrer sur un seul résultat en particulier, surtout s’il est favorable ne dévie jamais d’un seuil de signification pré-établi 1) planned one-tailed on one direction, difference in the other direction is sig. under two-tailed test => result is p = .075! 2) Rosenthal => .05 on one side and .005 on the other, result .055 test

Présentation des résultats

Analyse de la variance Degrées de liberté (effet, erreur) Valeur p Eta2 = taille d’effet Valeur F

Les tableaux et les figures PSY7102

Les erreurs les plus communes Répéter les mêmes informations dans une figure, un tableau, ou bien dans le texte Présenter des tableaux ou des figures qui sont incompréhensibles sans l ’aide du texte Présenter des données dans des tableaux ou des figures sans discuter de leur signification dans le texte

Les tableaux Quand ? Pour des petites séries de données peu complexes Comment ? Mettre les informations dans les colonnes et les lignes dans un ordre logique (p.ex: dans l’ordre de l’importance des items) Choisissez un nombre de chiffres raisonnable (p.ex: 3578 plutôt que 3578,887, 1,34 plutôt que 1,3434562) Arrangez les items tel que les comparaisons importantes soient faciles à faire

---------------------- APA Emplacement Après les notes de bas de page, à la fin du document Dans le texte on signale: ---------------------- Insert Table 1 here Numérotation Chiffres arabes sans suffixes (donc 5 et 6 à la place de 5a et 5b) Titre Doit décrire de manière précise les variables indépendantes et dépendantes tel que le lecteur sait ce qui est présenté sans avoir recours au texte (ex: « Mean log-transformed post-auricular reflex magnitude as a function of emotional facial expression and expresser sex »)

Figures Pour des fins de vérification et d’interprétation des données Pour des fins de communication des résultats

Née en 1323 à Allemagne (À l’ouest de Riez), France Mort le 11 juillet 1382 à Lisieux, France

Stem-and-leaf Plot (Tracés en arborescence) Exemple: Un enseignant a demandé à 10 élèves d'indiquer combien de livres ils avaient lu au cours des 12 derniers mois. Voici leurs réponses : 12, 23, 19, 6, 10, 7, 15, 25, 21, 12 Tige Feuille 0 6 7 1 0 2 5 9 2 1 2 3 5 Cette forme de présentation des données permet facilement de détecter des distributions problématiques

Box Plot Ce type de figure est construit à partir de la médiane, des deux quartiles et des valeurs extrêmes Les valeurs extrêmes se retrouvent à plus de 1.5 espaces interquartiles en bas ou en haut des quartiles Les valeurs extrêmement extrêmes se retrouvent à plus de 3 espaces interquartiles en bas ou en haut des quartiles

Box Plot : exemple

Comparaison des séries des données

Communication des résultats Présentation claire avec des symboles distincts Supprimez des informations non essentielles Éviter trop de points sur l ’échelle Ne mettez pas d’informations supplémentaires (ex: légende) dans la région des données Quand des symboles ou des lignes chevauchent, utiliser des moyennes qui aident à la discrimination visuelle Faire plusieurs essais afin de voir quel type de graphique communique le mieux les données

suite Deux graphiques clairs sont mieux qu’un graphique surchargé par des données ou des symboles Il est acceptable de se servir d’un graphique complexe s’il permet de visualiser un résultat complexe Quand plusieurs graphiques devraient être comparés il faut qu’ils aient la même échelle Il est possible d’indiquer l’étendue de mesure (ex: 0- 200) sur le titre de l’axe et de la commencer avec une autre valeur afin d’améliorer la résolution Voir aussi: http://www.statcan.ca/francais/edu/power/ch9/first9_f.htm

Exemple I Problème: peu de données avec un patron simple -> mieux sous forme de tableaux

Exemple II Problème: demande le jugement des longueurs relatives, ce qui est plutôt difficile

Capacités cognitives impliquées dans la lecture de figures Position sur une échelle commune Position sur des échelles identiques mais non alignées Longueur Angle/pente Surface Volume Gradation des couleurs

Exemple III

----------------------- APA Impression Très bonne qualité sur une feuille 8 x 11.5 Emplacement: Après les tableaux (pages non numérotées) Dans le texte on signale: ----------------------- Insert Figure 1 here La légende est sur la page de la figure et ne fait pas partie du titre Numérotation Chiffres arabes Titres Sur une feuille à part (la dernière page numérotée du document)

Références Abelson, R.P. (1995). Statistics as principled argument. Hillsdale, NJ: Lawrence Erlbaum. Sternberg, R.J. (2005). The psychologist’s companion (4th ed.). New York, NY: Cambride University Press . Cohen, J. (1994). The earth is round (p < .05). American Psychologist, 49, 997-1003. Cohen, J. (1990). Things that I have learned (so far). American psychologist, 45, 1304-1312. Cowles, M. & Davis, C. (1982). On the origins of the .05 level of statistical significance. American Psychologist, 37, 553- 558.