Objectifs Lire un manuel de référence

Slides:



Advertisements
Présentations similaires
Corrélation Position du problème Définition covariance (X,Y) r =
Advertisements

Chap. 4 Recherche en Table
Du positionnement épistémologique à la méthodologie de recherche
STATISTIQUE INFERENTIELLE L ’ESTIMATION
C1 Bio-statistiques F. KOHLER
Inférence statistique
Comparaison d'une distribution observée à une distribution théorique
Comparaison de plusieurs moyennes observées
Les TESTS STATISTIQUES
DEME - La méthode d’enquête – introduction
Les TESTS STATISTIQUES
Les tests d’hypothèses
Régression -corrélation
Corrélation linéaire et la droite de régression
Traitement de données socio-économiques et techniques d’analyse :
Objectifs du chapitre 8: Mesures verbales en psychologie
Chapitre 2: Les régularités et les relations
Régression linéaire simple
Howell, Chap. 1 Position générale
LE DISCOURS PHILOSOPHIQUE
La droite dans R2 Montage préparé par : André Ross
Corrélation et régression linéaire simple
Méthodes de prévision (STT-3220)
ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD.
La méthodologie expérimentale Fondements et bases d’application
La corrélation et la régression multiple
La corrélation et la régression
La corrélation et la régression
Corrélation Principe fondamental d’une analyse de corrélation
La méthodologie expérimentale Fondements et bases d’application
La méthodologie expérimentale Fondements et bases d’application
Le comportement des coûts Chapitre 3
Objectifs Chapitre 8: Mesure en psychologie
Méthodes de prévision (STT-3220)
Mattea Stein, World Bank Méthodes Non-expérimentales I
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement
Hum?? Les statistiques… Qu’est-ce que c’est au juste?
Régression linéaire (STT-2400)
LE DISCOURS SCIENTIFIQUE
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Régression linéaire multiple : hypothèses & interprétation
Régression linéaire multiple : hypothèses & tests. Partie 3.
Statistiques, deuxième séance
La méthode scientifique et les variables
La décomposition en valeurs singulières: un outil fort utile
Corrélation et régression linéaire
1 Notations Asymptotiques Et Complexité Notations asymptotiques : 0 et  Complexité des algorithmes Exemples de calcul de complexité.
Méthodes de Biostatistique
Méthodes de Biostatistique
Statistique Descriptive Analyse des données
Probabilités et Statistiques
Méthodologie expérimentale : l’analyse des données
Suites numériques Définitions.
ANOVA : introduction.
Initiation à la Méthodologie de Recherche
Master 1 – Sciences du Langage –
Multi-country Workshop on Development Impact Evaluation in Finance and Private Sector Development Dakar, Senegal, February 1-4, 2010 Non-Experimental Methods.
Méthodologie du Mémoire
ESTIMATION 1. Principe 2. Estimateur 3. Distribution d’échantillonnage
Biostatistiques Quand on souhaite étudier une (ou des) caractéristique(s) sur un ensemble d’individus ou d’objets, il est difficile, voir impossible, d’observer.
ANALYSE DE DONNEES TESTS D’ASSOCIATION
Présentation du marché obligataire
Outils d’analyse: la méthode des moindres carrées
Analyse des données. Plan Lien entre les statistiques et l’analyse des données Propagation des erreurs Ajustement de fonctions.
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
ECHANTILLONAGE ET ESTIMATION
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
 Champ des mathématiques  Ensemble de méthodes et de techniques  Permet une analyse objective  Facilitées aujourd’hui par les tableurs.
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
Transcription de la présentation:

Objectifs Lire un manuel de référence Choisir une méthode Vérifier les conditions d’application Utiliser la méthode Lire les résultats Comprendre les grandes lignes de la philosophie statistique Formaliser un problème Principes d’application généraux Interpréter les résultats (plusieurs résultats)

Licence de psychologie Année 2003-2004 0.1 Les statistiques Licence de psychologie Année 2003-2004

Statistiques On distingue généralement les statistiques descriptives et les statistiques inférentielles. Les statistiques descriptives ou exploratoires et l’analyse des données ont été vues en première année. Les statistiques inférentielles constituent le programme des DEUG 2 et licence.

Statistiques exploratoires Décrire une variable, un lien entre variables, un tableau de chiffres Visualiser, grâce à des représentations adaptées, un ensemble de données complexe Résumer une série de valeurs par des indices.

Statistiques inférentielles Généraliser un résultat observé sur un échantillon à toute la population Réfuter une hypothèse grâce à l’utilisation de critères fiables et contrôlables Prévoir un résultat numérique à partir d’un échantillon Estimer des paramètres auxquels on n’a pas accès

Statistiques inférentielles On distingue, parmi les statistiques inférentielles, deux grands types de constructions / méthodes qui se recoupent : Les tests d’hypothèses (utilisés par la science psychologique en général) Les modèles mathématiques (utilisés par la psychologie mathématique en particulier)

Tests d’hypothèses Les tests du khi², de Student, tous les tests de comparaison de moyennes sont des tests d’hypothèses. Ils permettent de « démontrer » un résultat général à partir d’un échantillon. Attention : ces résultats n’ont pas le même statut qu’en sciences dures…

Modèles Les modèles sont des constructions (mathématiques ou non) qui représentent la réalité sous une forme simplifiée et plus accessible. Ils sont utiles pour prévoir et estimer La régression linéaire n’est rien d’autre que la construction d’un modèle particulier : un modèle linéaire.

En bref

0.2 Plan prévisionnel et bibliographie CM, TD, Examens Blancs

Remarques Sur le mini-rapport (articlette) Sur les examens blancs Pourquoi cette nouveauté Semaines dites « libres » Semaines dite « expérimentales » Travail personnel Plus autonomes que l’an dernier Les TD sont l’occasion de questions Paquets d’exercices – mais vous pouvez aussi piocher dans les livres. Sur les examens blancs Préparation à l’examen Découverte du cours Nouveaux éléments Sur les exemples En général, les exemples sont réels, mais pas les données brutes Il arrive aussi que les exemples soient inventés de toute pièce – ou entièrement vrai. C’est précisé

Howell est psychologue, enseignant aux USA. Bibliographie Howell, D. C. (1998). Méthodes statistiques en sciences humaines. De Boeck Université. Chapitre 1 : introduction Chapitre 4 : tests Chapitre 9 et 15 : régression linéaire Chapitre 10 : corrélations alternatives Chapitre 11, 13, 14 : ANOVA Chapitre 18 : tests non paramétriques Exercices non corrigés

B. Escofier est mathématicienne Bibliographie Escofier, B. & Pagès, J. (1998). Analyse factorielles simples et multiples. Paris: Dunod. Ne concerne que la dernière séance (ACP et ACM), non traitée dans le Howell Des explications préliminaires difficiles à suivre Des exemples relativement bien détaillés: y aller directement Pas d’exercices corrigés (comme le Howell d’ailleurs)

N. Guéguen est psychologue Bibliographie Guéguen, N. Statistiques pour psychologues. Paris: Dunod. Le cours n’est pas aussi approfondi que dans le Howell. Méfiance aussi quant à la rigueur. Les exercices semblent très bien choisis, et il sont corrigés. Ouvrage aimé des étudiants. Ne couvre pas tout le programme de DEUG et licence!

A. Monfort est mathématicien et économiste Bibliographie Monfort, A. (1997). Cours de statistique mathématique. Paris: Economica. Très mathématique, rigoureux, peu accessible Réservé aux curieux ou aux amoureux des mathématiques Vous pourrez toutefois jeter un œil pour découvrir la théorie mathématique qui se cache derrière ce que nous faisons ici

G. Saporta est mathématicien et économiste Bibliographie Saporta, G. (1990). Probabilité, analyse des données et statistique. Technip. Très mathématique, rigoureux, mais accessible, contrairement au Monfort. Certains points sont très bien expliqués, et un coup d’œil peut valoir le coup. Les introductions de chapitre et de parties sont également intéressantes. Exercices non corrigés et d’un type différent de ce qu’on fait ici.

Partie A Régression linéaire

1. Régression linéaire simple Rappels et compléments

1.1. Un exemple Aperçu rapide

Exemple On étudie le lien entre la MCT (mesurée par une note) et le QI On dispose de deux variables X et Y numériques (quantitatives) On dispose d’un échantillon de 50 sujets Sur un échantillon de taille n On cherche un lien éventuel entre le facteur (VI) X et la variable dépendante Y Le but est de montrer un lien (on pense que la mémoire a une influence sur le QI) MCT = Mémoire à Court Terme

Exemple Pour cela, on commence par représenter le QI en fonction de la MCT On représente le diagramme de dispersion de Y en X Ce qui donne un nuage de 50 points Qui donne un nuage de n points Permettant de visualiser le cas échéant un « effet » de X sur Y. Sur lequel on peut visualiser simplement un lien quand il existe

Exemple

Exemple On étudie le diagramme de dispersion pour savoir si les variables sont liées On étudie le diagramme pour identifier un éventuel lien fonctionnel Ici, on peut voir une légère tendance croissante S’il semble y avoir un lien on est fondé à construire une courbe Qui se formalise par la superposition au nuage de point d’une courbe de tendance Dite en général « courbe de tendance ».

Meilleure courbe polynomiale de degré 4 Exemple Meilleure courbe polynomiale de degré 4

Meilleure droite possible (droite de régression) Exemple Meilleure droite possible (droite de régression)

Du diagramme de dispersion 1.2. Principes de lecture Du diagramme de dispersion

Principes Le diagramme de dispersion se lit par référence à une courbe Un nuage qui ne semble pas être proche d’une courbe dénote une absence de lien Un nuage qui semble se situer entièrement sur une courbe dénote un lien fonctionnel entre les deux variables Un nuage qui semble se situer plus ou moins sur une droite dénote un lien linéaire entre les variables

Courbes de tendances

Absence de lien

Lien linéaire

De la régression linéaire simple : construction du modèle 1.3. Les bases De la régression linéaire simple : construction du modèle

Situation Nous disposons de deux variables X et Y. X est le facteur (VI) Nous voulons construire un modèle où le lien entre X et Y est simple et fonctionnel Posons par exemple (lien linéaire) :

Exemple On pose la question suivante à des sujets : « combien font 7+x ?» On a un facteur X Où x varie de 80 à 89 numérique On relève le temps de réponse Y Et une variable dépendante Y

Exemple On aimerait prévoir le temps de réponse en fonction de X On cherche un lien entre les variables Selon une formule simple (linéaire ou affine) qui soit linéaire Pour cela, on choisit la meilleure formule possible de la forme On cherche l’équation de régression linéaire.

Erreur d’estimation Pour déterminer l’équation de régression, nous minimisons l’erreur moyenne d’estimation Cette erreur est liée au coefficient de corrélation r Elle est minimale pour une unique valeur de a et une unique valeur de b : les coefficients de régression Les coefficients de régression et le coefficient de corrélation se calculent à la machine

y = 7 Erreur d’estimation y^ = 4 x = 2

Coefficient de corrélation Le coefficient de corrélation est défini par Il mesure l’erreur d’estimation Il mesure le lien linéaire entre les variables Il mesure la distance entre la droite de régression et le nuage de points

Compléments sur la régression simple 1.4. L’estimateur R Compléments sur la régression simple

Problèmes pratiques On ne dispose que d’un échantillon On calcule donc non pas r=r(X,Y) Mais r(x,y), Réalisation d’une variable aléatoire R (coefficient de corrélation d’échantillonnage) Cette variable aléatoire sert d’estimateur du paramètre r(X,Y). Il s’agit d’un estimateur convergent… Mais biaisé ! Des tables permettent d’obtenir des intervalles de confiance pour r(X,Y) à partir de r(x,y) car la loi de R est connue.

1.5. Un exemple Traité en entier

Reconnaissance et MCT On pense que la mémoire à court terme est sériel, c’est-à-dire que, pour une tâche de reconnaissance d’items dans une liste apprise, la liste est passée dans l’ordre jusqu’à l’item cible. On note R le rang de l’item cible, et T le temps de réponse. Si notre hypothèse de départ est juste, on doit avoir un lien affine entre T et R. En effet, si a est le temps d’accès au premier item, numéroté 0, et b le temps pour passer d’un item au suivant, on doit avoir T = a+bR

La situation On mesure le temps de réponse et le rang. On a deux variables numériques : le facteur R et la VD T On dispose d’un échantillon de 40 sujets sur un échantillon de taille n = 40 On représente le diagramme de dispersion de T en R On représente les données par un diagramme de dispersion

Le diagramme

Interprétation L’équation de régression est T = 0.99R+1.52 Le coefficient directeur de la droite est positif, ce qui montre que la relation entre R et T est croissante, et donc que r est positif. Donc

Interprétation Ce coefficient dénote un lien linéaire croissant fort entre les variables L’hypothèse sérielle est donc confirmée par cette expérience ATTENTION : il s’agit toujours d’estimations et de modèles, donc d’une vérité simplifiée. Si on avait au contraire trouvé un r proche de 0, cela n’aurait pas démontré une « absence de lien », mais seulement la faiblesse de la linéarité.

Interprétation Les coefficients a et b donnent des informations sur les temps d’accès en MCT Il s’agit d’estimateurs des « vrais » coefficients A et B. Des tables peuvent être utilisées.

Sur la régression linéaire simple 1.6. Conclusion Sur la régression linéaire simple

A retenir La régression linéaire simple s’applique quand on cherche un lien linéaire entre deux variables quantitatives. On commence par représenter le diagramme de dispersion. Le coefficient r donne des informations sur la qualité du modèle L’équation de régression permet de prédire des valeurs de la VD en fonction de la VI — en non l’inverse ! On notera souvent

Attention Ne pas confondre lien (corrélation) et causalité Lapins et Dow Jones Pointure-dictée Lunettes-glaces Le nombre de voitures / de réfrigérateurs Régression vers la moyenne N’oubliez pas que R est un estimateur Si le coefficient de corrélation est « bon », il montre un lien linéaire, donc un lien S’il est « mauvais », il ne montre pas une absence de lien, mais seulement la faiblesse d’un lien linéaire, à ramener à la taille d’échantillon

Pour en finir avec la régression linéaire simple Coefficient de corrélation sur l’échantillon

Pour en finir avec la régression linéaire simple Coefficient de corrélation sur la population

Pour en finir avec la régression linéaire simple Y estimé en fonction de X Coefficients de régression